X

Saiba como a nuvem e as novas tecnologias habilitam a transformação nos negócios e na sociedade.

A ciência de dados é um esporte em equipe e a nova plataforma em nuvem da Oracle é o campo de jogo

This is a syndicated post, view the original post here

Novos serviços tornam mais fácil para as equipes de ciência de dados criar, treinar e implantar modelos de machine learning de forma colaborativa.

Por Jeff Erickson*

Ao pensar em ciência de dados, você talvez imagine um PhD em matemática mexendo magicamente com dados em um laptop até segredos serem revelados. Porém, na verdade, a ciência de dados é um esforço de equipe.

Para que a ciência de dados aconteça, alguém precisa encontrar e preparar conjuntos de dados — que podem incluir qualquer tipo de informação, como um local, um nome, um item em um armazém, a idade de uma pessoa, um comentário em uma mídia social, uma data/hora e um atributo de uma imagem. Em seguida, alguém precisa levar os dados para um computador e usar ferramentas de código aberto para aplicar técnicas estatísticas e provocar relacionamentos — e torcer para chegar a um novo entendimento sobre o mundo.

Por fim, quando o processo gera um insight de valor, alguém precisa publicar o modelo, na forma de um processo repetível e governável a ser executado com futuros conjuntos de dados.

Pelo menos, é assim que deveria funcionar.

Na realidade, "a maioria das organizações vê apenas uma fração do enorme potencial dos seus dados", diz Greg Pavlik, vice-presidente sênior de desenvolvimento de produtos da Oracle para serviços de dados e IA. Isso ocorre porque, com todas as pessoas, a capacidade computacional e os processos de trabalho envolvidos na ciência de dados, muitas vezes as transferências certas não acontecem, sistemas e bibliotecas não são compartilhados, dados não são protegidos, e às vezes o volume de dados é tão grande que fica difícil movê-los para os sistemas onde os algoritmos são executados.

-Leia mais: Para Otávio Santana, as pessoas são peça-chave na tecnologia

Resolver esse problema foi a razão pela qual a Oracle desenvolveu a Oracle Cloud Data Science Platform. Os novos serviços tornam mais fácil para as equipes de ciência de dados criar, treinar e implantar modelos de machine learning de forma colaborativa. "Nosso objetivo é aumentar o sucesso dos projetos de ciência de dados", diz Pavlik.

Pavlik tem vasta experiência no mundo dos projetos de big data de código aberto e viu, em primeira mão, como as poderosas plataformas em nuvem substituíram o uso de sistemas pontuais personalizados para execução de projetos de big data, transformando, assim, essa parte do setor. Agora, ele diz, a Oracle está combinando sua infraestrutura de nuvem de segunda geração e seu gerenciamento de dados líder do setor para fazer o mesmo com a ciência de dados.

Diferentemente de outros produtos de ciência de dados que se concentram em ajudar cientistas de dados individuais, o Oracle Cloud Infrastructure Data Science ajuda a melhorar a eficácia das equipes de ciência de dados com funcionalidades como projetos compartilhados, catálogos de modelos, políticas de segurança de equipe e recursos de reprodutibilidade e auditabilidade.

"Os cientistas de dados são experimentadores. Eles querem experimentar e ver como funciona", diz Pavlik. "Eles pegam conjuntos de dados de amostra, usam todo tipo de ferramenta de código aberto e estão fazendo coisas incríveis. Nossa intenção é permitir que eles continuem fazendo isso, mas queremos melhorar sua produtividade automatizando todo o fluxo de trabalho e adicionando suporte robusto à colaboração em equipe para ajudar a garantir que os projetos de ciência de dados agreguem valor real às empresas."

O ponto de partida para a ciência de dados agregar valor é usar mais recursos de machine learning e ter mais eficiência no uso dos dados e algoritmos envolvidos.

"Modelos de machine learning eficazes são a base de projetos de ciência de dados bem-sucedidos", diz Pavlik, mas o volume e a variedade dos dados usados pelas equipes de ciência de dados "podem paralisar essas iniciativas antes que elas decolem". Dessa forma, o Oracle Cloud Infrastructure Data Science oferece às equipes uma plataforma poderosa para desenvolver, treinar e compartilhar algoritmos de machine learning, incluindo:

•    A seleção e ajuste do algoritmo AutoML automatiza o processo de execução de testes usando vários algoritmos e configurações de hiperparâmetro. Ele verifica a precisão dos resultados e confirma que os cientistas de dados estão escolhendo o melhor modelo e configuração. Isso ajuda o cientista de dados a obter os mesmos resultados que os profissionais mais experientes.

•    A seleção automatizada de recursos preditivos simplifica a engenharia de recursos identificando automaticamente os principais recursos preditivos a partir de conjuntos de dados maiores.

•    A avaliação do modelo gera um conjunto abrangente de métricas de avaliação e visualizações adequadas para medir o desempenho do modelo em relação a novos dados, e pode classificar os modelos ao longo do tempo. A avaliação do modelo vai além do desempenho bruto para levar em conta o comportamento normal e usa um modelo de custo que considera os diferentes impactos de falsos positivos e falsos negativos.

•    A explicação do modelo, como o próprio nome diz, é uma explicação da ponderação relativa e da importância dos fatores usados para gerar uma previsão, e oferece a primeira implementação comercial de explicação independente do modelo. Por exemplo, em um modelo de detecção de fraude, um cientista de dados pode explicar quais fatores são os que mais levam a fraudes, para que a empresa possa modificar processos ou implementar salvaguardas, ou explicar os fatores que levam a uma previsão específica.

Devido ao Oracle Cloud Infrastructure Data Science ser construído na poderosa infraestrutura de nuvem da Oracle, "facilitamos seu acesso não apenas às linguagens, bibliotecas e ferramentas, mas também aos recursos computacionais necessários", diz Pavlik, incluindo serviços integrados de nuvem para gerenciamento de big data e acesso a uma variedade de armazenamentos de dados de código aberto e máquinas virtuais para ciência de dados.

"Nosso foco é a produtividade — desde a exploração dos dados e o treinamento dos modelos, até a entrega em produção e a manutenção dos modelos", diz Pavlik. "Fizemos disso uma experiência de plataforma realmente produtiva e pronta para a empresa."

A facilidade de começar é um grande motivo pelo qual um número maior de trabalhos em ciência de dados serão transferidos para a nuvem, prevê Pavlik. Para esse novo serviço, basta entrar na Oracle Cloud, ir até a opção de serviço de ciência de dados no console "e começar a criar um projeto e fazer seu trabalho", diz ele.

*Jeff Erickson é estrategista de conteúdo para inovação em bancos de dados e inovação orientada por dados na Oracle

Be the first to comment

Comentários ( 0 )
Please enter your name.Please provide a valid email address.Please enter a comment.CAPTCHA challenge response provided was incorrect. Please try again.