Por que você precisa de uma estrutura de MLOps para padronizar as operações de IA e aprendizado de máquina
by Khobaib Zaamout, Ph.D., Lead Data Science Architect, Rackspace Technology
As organizações de todos os sectores e de todas as dimensões têm vindo a adotar cada vez mais a IA e a aprendizagem automática (IA/ML) nos últimos anos, e espera-se que esta tendência continue. São vários os factores que estão a impulsionar este crescimento, incluindo o aumento da disponibilidade de dados e uma atenção renovada à utilização da análise de dados para gerar conhecimentos mais profundos em apoio de uma melhor tomada de decisões.
No entanto, o rápido crescimento da IA/ML criou o caos em muitas organizações. Em particular, as empresas enfrentam complicações devido a processos comerciais e de desenvolvimento desactualizados. Além disso, as operações de aprendizagem automática não são, normalmente, uma competência essencial para a maioria das equipas de ciência de dados.
Esse caos criou uma necessidade premente de operações padronizadas de aprendizado de máquina (MLOps) para simplificar e dimensionar os processos de IA/ML.
Criar uma solução robusta de MLOps
Nos últimos anos, o mercado assistiu a um aumento das soluções MLOps. No entanto, muitas destas soluções são insuficientes na medida em que não dispõem de funcionalidades essenciais para responder aos desafios actuais. Uma limitação predominante é a sua incapacidade de se integrar perfeitamente na pilha de tecnologia existente de uma organização.
Na Rackspace Technology®, as nossas equipas de aprendizagem automática observaram um padrão de arquitetura consistente durante a implementação e gestão de soluções MLOps para um número crescente de empresas. Em resposta aos desafios identificados, desenvolvemos uma solução abrangente denominada Rackspace MLOps Foundations.
O Rackspace MLOps Foundations foi concebido especificamente para se alinhar com a infraestrutura do Google Cloud. É uma solução altamente adaptável e personalizável para gerir todo o ciclo de vida da aprendizagem automática. A sua capacidade de se integrar perfeitamente com ferramentas de automatização populares, como Jenkins e Airflow, ajuda a garantir uma colaboração sem problemas e uma gestão eficiente do fluxo de trabalho.
Como funciona o Rackspace MLOps Foundations
O Rackspace MLOps Foundations oferece uma solução completa de MLOps que inclui serviços e ferramentas nativos do Google Cloud, como o Cloud Build, o Vertex AI Pipelines e outros. Estas ferramentas ajudam a enfrentar os desafios de levar os modelos de aprendizagem automática do desenvolvimento para a produção.
Estes serviços e ferramentas podem também automatizar o pré-processamento de dados, o armazenamento de caraterísticas, o desenvolvimento de modelos, a garantia de qualidade, a implantação e o escalonamento, bem como a monitorização e a explicabilidade. Os exemplos incluem a replicação contínua do ambiente, o empacotamento de código, o rastreio de experiências e artefactos e o controlo de versões.
O Rackspace MLOps Foundations unifica o poder desses serviços e ferramentas para criar um ciclo de vida padronizado de desenvolvimento de aprendizado de máquina e oferecer essas vantagens:
- Tempo de implementação consistente, económico e rápido
- Desempenho do modelo repetível e reproduzível
- Processos de implementação fiáveis
- Processos bem definidos, padronizados e modularizados
O Rackspace MLOps Foundations oferece uma experiência de colaboração simplificada, permitindo que as equipas de dados e operações trabalhem em conjunto e sem problemas no desenvolvimento de modelos de aprendizagem automática. Com esta solução, pode automatizar o empacotamento e a implementação em vários ambientes e eliminar desafios comuns, como atrasos e incompatibilidades.
Exemplo de caso de uso do Rackspace MLOps Foundations
O diagrama de arquitetura que se segue mostra uma implementação minimalista do Rackspace MLOps Foundations no Google Cloud para um dos nossos clientes. Tratava-se de um projeto simples de previsão de inventário que utilizava dados de formação e previsões armazenados no BigQuery. Este projeto exigia AutoML, controlo de versões de código, experiências e rastreio de artefactos, mas não exigia a implementação de modelos ou testes de garantia de qualidade.
Esta implementação consistiu num ciclo de desenvolvimento de aprendizagem automática em duas fases, que incluiu uma fase de desenvolvimento com um projeto Google Cloud.
< entidade drupal data-align="left" data-embed-button="media_entity_embed" data-entity-embed-display="view_mode:media.full" data-entity-type="media" data-entity-uuid="ffc70d81-8bc0-42e9-b646-2faec089e354" data-langcode="en"> < /drupal-entity>
Este projeto também necessitava dos Vertex AI Pipelines e de um pipeline CI/CD para executar tudo. O Vertex AI Pipelines executa estas funções:
- Recuperar e pré-processar dados
- Formar e implementar modelos
- Consultar um modelo através de inferências em lote e armazenar os resultados
- Notificar os proprietários das condutas da conclusão do processo
- Produzir registos
O pipeline de CI/CD oferece os seguintes recursos:
- Facilita o desenvolvimento de um repositório GitHub com ramos adequados
- Gerir e manter o código nas sucursais
- Aciona automaticamente o pipeline quando o código é enviado para o ramo de desenvolvimento
- Permite a execução direta de um Notebook Jupyter
- Armazena todos os artefactos gerados durante o processo de execução num contentor designado
- Suporta várias implementações no mesmo projeto Google Cloud
- Respeita as práticas de segurança normalizadas do sector
Os cientistas e engenheiros de dados utilizam um Jupyter Notebook alojado no Vertex-AI para realizar experiências utilizando o Vertex AI Pipelines, incluindo o pré-processamento de dados, a formação de modelos e a previsão em lote. Uma vez enviado para um ramo específico num repositório GitHub, o Model Factory Framework executa o bloco de notas, cria um pedido pull para o ramo seguinte e aguarda a aprovação humana.
Em seguida, um membro da equipa designado revê o código, modela os artefactos e o desempenho e decide aprovar ou rejeitar o pedido pull. Se for rejeitada, todos os artefactos produzidos e recursos aprovisionados são anulados. Caso contrário, o processo de implantação prossegue para a próxima etapa.
Saiba mais sobre o Rackspace MLOps Foundations
Para obter mais informações sobre o Rackspace MLOps Foundations, a nossa folha de dados, "MLOps Foundations on Google Cloud", apresenta uma visão geral do valor da nossa solução MLOps, da arquitetura, das principais funcionalidades e dos resultados.
Recent Posts
Destaques da palestra do Dr. Werner Vogels: Gerir a Complexidade com Simplicidade
Dezembro 6th, 2024
O poder das parcerias: Palestra do parceiro AWS re:Invent 2024 da Dra. Ruba Borno
Dezembro 5th, 2024
Principais destaques do AWS re: Invent 2024: A visão do Dr. Swami Sivasubramanian para a IA de geração
Dezembro 5th, 2024
Principais destaques do AWS re:Invent 2024: Keynote do CEO com Matt Garman
Dezembro 4th, 2024
Destaques da apresentação do AWS re:Invent 2024 com Peter DeSantis
Dezembro 4th, 2024