Acelerando o ciclo de vida do machine learning para obter mais dos seus dados

Mark McQuade, Daniel Quach

iconography showing machine learning brain inside a spinning circle

 

As empresas estão percebendo o valor de usar modelos de machine learning para gerar melhores resultados. Aproveitar o poder preditivo dos dados com modelos de machine learning é cada vez mais crítico para as operações comerciais, mas 60% dos modelos de machine learning nunca chegam à produção. O que está acontecendo de errado?

 

Dificuldades generalizadas com IA e machine learning

Em dezembro de 2020 e janeiro de 2021, realizamos um estudo global sobre adoção, uso, benefícios, impacto e planos futuros de IA e machine learning. Foram entrevistados 1.870 líderes de TI em diversos setores nas Américas, Europa, Ásia e Oriente Médio. Os resultados revelaram que a maioria dos entrevistados (82%) ainda está explorando como implementar a IA ou lutando para operacionalizar modelos de IA e machine learning.

O estudo também mostrou que, em média, as empresas têm quatro projetos de IA e machine learning em andamento, e nós sabemos, pelas conversas com os clientes, que a maioria das organizações está investindo em pesquisas para o desenvolvimento de modelos. No entanto, a desconexão entre as operações/equipes de operações de dados e os engenheiros de machine learning/equipes de ciência de dados fazem com que muitos dos modelos nunca cheguem à produção. Com frequência, há problemas acerca da implantação, automação e escalabilidade dos modelos de machine learning.

 

Os desafios de operacionalizar os modelos de machine learning

As equipes de ciência de dados geralmente enfrentam desafios para gerenciar os modelos à medida que estes percorrem os diferentes estágios no fluxo de trabalho do machine learning. Fazer com que os modelos de machine learning passem rapidamente do ambiente de desenvolvimento para o de produção não é uma especialidade dos cientistas de dados. Nesse sentido, uma equipe de DevOps ou de infraestrutura estaria melhor preparada para manter a reprodutibilidade dos modelos e previsões. Quando há transferência de um ambiente para outro, pode ser difícil reproduzir o resultado, pois é necessário acompanhar atentamente as versões das bibliotecas, os conjuntos de dados, os diagnósticos, o monitoramento de desempenho e o desvio do modelo.

Outro problema comum é que os modelos tendem a se multiplicar em diferentes ambientes, tornando-se difíceis de acompanhar. Os cientistas de dados criam modelos para domínios específicos e executam muitos experimentos, começando primeiro em um ambiente de desenvolvimento e, em seguida, movendo-os ao longo da cadeia para um ambiente de testes. Isso resulta em vários modelos sendo executados simultaneamente em diferentes ambientes, usando conjuntos de dados e hiperparâmetros distintos. Logo, fica quase impossível rastrear a linhagem do modelo. Um dos aspectos mais importantes da governança e da compliance regulatória (especialmente se você estiver lidando com auditores) é rastrear e explicar tudo o que o seu modelo está fazendo ou já fez.

 

DevOps não é suficiente

A cultura DevOps e a gestão do ciclo de vida dos aplicativos se tornaram a norma no setor de TI ao longo da última década. Ambos surgiram para preencher a lacuna entre a capacidade da organização de desenvolver o código do aplicativo e a maneira dela de implantar, testar, dimensionar, monitorar e atualizar as cargas de trabalho com eficiência. As necessidades maduras dos pipelines de CI/CD são amplamente tratadas no desenvolvimento de aplicativos por meio de ferramentas padronizadas e práticas recomendadas que já existem.

Ao contrário do desenvolvimento de aplicativos, no qual a qualidade vem do próprio código, a qualidade do modelo de machine learning vem, em grande parte, dos recursos de dados usados para treiná-lo. A importância desses recursos de dados não pode ser subestimada, pois sua qualidade alimenta o desempenho do modelo de machine learning. E vale a pena mencionar que os modelos de machine learning ainda estão em sua infância operacional.

Além disso, os dados podem mudar diariamente, e talvez aqueles usados nas previsões que você fez hoje difiram significativamente dos que foram usados para treinar o modelo um mês atrás. Nesse caso, o modelo de produção precisa ser retreinado e voltar para a fase de desenvolvimento. Como resultado, o ciclo de vida de um modelo de machine learning é significativamente diferente do ciclo de vida de um aplicativo. Tínhamos um cliente no segmento de fraudes que queria enviar modelos de produção a cada 24 horas para identificar novas ameaças. O cliente retreinava e reimplantava o modelo todos os dias para localizar qualquer desvio nos dados. Isso é algo impossível de fazer sem que haja uma solução madura em vigor.

 

Apresentamos o Model Factory Framework

O ciclo de vida do machine learning é complexo. Ao todo, percorrem-se várias etapas, como ingestão de dados, análise de dados, transformação de dados, validação de dados, divisão de dados, construção do modelo, treinamento do modelo e validação do modelo. E em todas essas etapas há dificuldades inerentes. Foi por isso que a Rackspace Technology desenvolveu o Model Factory Framework.

O Model Factory Framework foi construído na AWS e usa ferramentas de código aberto que permitem o rápido desenvolvimento, treinamento, classificação e implantação de modelos. O Model Factory Framework foi criado para resolver todos os problemas que você enfrenta ao levar os modelos de machine learning do desenvolvimento à produção.

O Model Factory Framework reduz o ciclo inteiro do machine learning — que geralmente tem mais de 25 etapas e pode levar meses — a cerca de 10 etapas que podem ser concluídas em questão de semanas.

 

Saiba mais sobre o Model Factory Framework

Se quiser conhecer mais detalhadamente o Model Factory Framework da Rackspace Technology e descobrir como ele melhora os processos — desde o desenvolvimento até a implementação, monitoramento e governança dos modelos — veja o webinar "Automatizando as Operações de ML em Nível de Produção na AWS". Nesse webinar, abordaremos:

  • Introdução ao MLOps Foundations com tecnologia Model Factory
  • A lacuna entre os cientistas de dados e as operações de ML
  • A distinção entre MLOps e DevOps
  • Padrões de arquitetura necessários para elementos eficazes de MLOPs
  • Como a arquitetura de "fábrica de modelos" trata de forma holística a CI/CD no ML

 

Automatizando as Operações de ML em Nível de Produção na AWS