Acelerando o ciclo de vida do machine learning para obter mais dos seus dados
Mark McQuade, Daniel Quach
As empresas estão percebendo o valor de usar modelos de machine learning para gerar melhores resultados. Aproveitar o poder preditivo dos dados com modelos de machine learning é cada vez mais crítico para as operações comerciais, mas 60% dos modelos de machine learning nunca chegam à produção. O que está acontecendo de errado?
Dificuldades generalizadas com IA e machine learning
Em dezembro de 2020 e janeiro de 2021, realizamos um estudo global sobre adoção, uso, benefícios, impacto e planos futuros de IA e machine learning. Foram entrevistados 1.870 líderes de TI em diversos setores nas Américas, Europa, Ásia e Oriente Médio. Os resultados revelaram que a maioria dos entrevistados (82%) ainda está explorando como implementar a IA ou lutando para operacionalizar modelos de IA e machine learning.
O estudo também mostrou que, em média, as empresas têm quatro projetos de IA e machine learning em andamento, e nós sabemos, pelas conversas com os clientes, que a maioria das organizações está investindo em pesquisas para o desenvolvimento de modelos. No entanto, a desconexão entre as operações/equipes de operações de dados e os engenheiros de machine learning/equipes de ciência de dados fazem com que muitos dos modelos nunca cheguem à produção. Com frequência, há problemas acerca da implantação, automação e escalabilidade dos modelos de machine learning.
Os desafios de operacionalizar os modelos de machine learning
As equipes de ciência de dados geralmente enfrentam desafios para gerenciar os modelos à medida que estes percorrem os diferentes estágios no fluxo de trabalho do machine learning. Fazer com que os modelos de machine learning passem rapidamente do ambiente de desenvolvimento para o de produção não é uma especialidade dos cientistas de dados. Nesse sentido, uma equipe de DevOps ou de infraestrutura estaria melhor preparada para manter a reprodutibilidade dos modelos e previsões. Quando há transferência de um ambiente para outro, pode ser difícil reproduzir o resultado, pois é necessário acompanhar atentamente as versões das bibliotecas, os conjuntos de dados, os diagnósticos, o monitoramento de desempenho e o desvio do modelo.
Outro problema comum é que os modelos tendem a se multiplicar em diferentes ambientes, tornando-se difíceis de acompanhar. Os cientistas de dados criam modelos para domínios específicos e executam muitos experimentos, começando primeiro em um ambiente de desenvolvimento e, em seguida, movendo-os ao longo da cadeia para um ambiente de testes. Isso resulta em vários modelos sendo executados simultaneamente em diferentes ambientes, usando conjuntos de dados e hiperparâmetros distintos. Logo, fica quase impossível rastrear a linhagem do modelo. Um dos aspectos mais importantes da governança e da compliance regulatória (especialmente se você estiver lidando com auditores) é rastrear e explicar tudo o que o seu modelo está fazendo ou já fez.
DevOps não é suficiente
A cultura DevOps e a gestão do ciclo de vida dos aplicativos se tornaram a norma no setor de TI ao longo da última década. Ambos surgiram para preencher a lacuna entre a capacidade da organização de desenvolver o código do aplicativo e a maneira dela de implantar, testar, dimensionar, monitorar e atualizar as cargas de trabalho com eficiência. As necessidades maduras dos pipelines de CI/CD são amplamente tratadas no desenvolvimento de aplicativos por meio de ferramentas padronizadas e práticas recomendadas que já existem.
Ao contrário do desenvolvimento de aplicativos, no qual a qualidade vem do próprio código, a qualidade do modelo de machine learning vem, em grande parte, dos recursos de dados usados para treiná-lo. A importância desses recursos de dados não pode ser subestimada, pois sua qualidade alimenta o desempenho do modelo de machine learning. E vale a pena mencionar que os modelos de machine learning ainda estão em sua infância operacional.
Além disso, os dados podem mudar diariamente, e talvez aqueles usados nas previsões que você fez hoje difiram significativamente dos que foram usados para treinar o modelo um mês atrás. Nesse caso, o modelo de produção precisa ser retreinado e voltar para a fase de desenvolvimento. Como resultado, o ciclo de vida de um modelo de machine learning é significativamente diferente do ciclo de vida de um aplicativo. Tínhamos um cliente no segmento de fraudes que queria enviar modelos de produção a cada 24 horas para identificar novas ameaças. O cliente retreinava e reimplantava o modelo todos os dias para localizar qualquer desvio nos dados. Isso é algo impossível de fazer sem que haja uma solução madura em vigor.
Apresentamos o Model Factory Framework
O ciclo de vida do machine learning é complexo. Ao todo, percorrem-se várias etapas, como ingestão de dados, análise de dados, transformação de dados, validação de dados, divisão de dados, construção do modelo, treinamento do modelo e validação do modelo. E em todas essas etapas há dificuldades inerentes. Foi por isso que a Rackspace Technology desenvolveu o Model Factory Framework.
O Model Factory Framework foi construído na AWS e usa ferramentas de código aberto que permitem o rápido desenvolvimento, treinamento, classificação e implantação de modelos. O Model Factory Framework foi criado para resolver todos os problemas que você enfrenta ao levar os modelos de machine learning do desenvolvimento à produção.
O Model Factory Framework reduz o ciclo inteiro do machine learning — que geralmente tem mais de 25 etapas e pode levar meses — a cerca de 10 etapas que podem ser concluídas em questão de semanas.
Saiba mais sobre o Model Factory Framework
Se quiser conhecer mais detalhadamente o Model Factory Framework da Rackspace Technology e descobrir como ele melhora os processos — desde o desenvolvimento até a implementação, monitoramento e governança dos modelos — veja o webinar "Automatizando as Operações de ML em Nível de Produção na AWS". Nesse webinar, abordaremos:
- Introdução ao MLOps Foundations com tecnologia Model Factory
- A lacuna entre os cientistas de dados e as operações de ML
- A distinção entre MLOps e DevOps
- Padrões de arquitetura necessários para elementos eficazes de MLOPs
- Como a arquitetura de "fábrica de modelos" trata de forma holística a CI/CD no ML
Recent Posts
Destaques da palestra do Dr. Werner Vogels: Gerir a Complexidade com Simplicidade
Dezembro 6th, 2024
O poder das parcerias: Palestra do parceiro AWS re:Invent 2024 da Dra. Ruba Borno
Dezembro 5th, 2024
Principais destaques do AWS re: Invent 2024: A visão do Dr. Swami Sivasubramanian para a IA de geração
Dezembro 5th, 2024
Principais destaques do AWS re:Invent 2024: Keynote do CEO com Matt Garman
Dezembro 4th, 2024
Destaques da apresentação do AWS re:Invent 2024 com Peter DeSantis
Dezembro 4th, 2024