Swami Sivasubramanian dá insights sobre como conectar e democratizar os dados para se preparar para o futuro

by Ken Pagano, Senior Customer Solutions Architect, Onica by Rackspace Technology

a man,Swami Sivasubramanian, with glasses and wearing a suit presenting

 

Foi minha terceira ida ao AWS re:Invent e, este ano, chego com foco nas análise de dados e na ciência de dados, torcendo para entender mais as situações que frequentemente vivenciamos com nossos clientes. As sessões técnicas para as quais me inscrevi fizeram exatamente isso, mas fiquei mais impressionado com a demanda por elas. A maioria, se não todas, estava lotada. Os temas variaram muito, mas a maioria das sessões em que participei compartilharam alguns tópicos: discussões sobre como os dados nos pipelines de ETL precisam ser processados rapidamente antes de o valor se depreciar; como as organizações precisam resolver a expansão ao processar grandes quantidades de dados; e a democratização dos dados. Esses tópicos surgiram novamente durante a palestra de Swami Sivasubramanian esta manhã.

Sivasubramanian, vice-presidente de dados e machine learning do AWS foi além e fez belas analogias com neurociência e cérebro humano, além das lições de antigas tribos indianas que cultivaram raízes de árvores para construir pontes entre os vales. No entanto, fiquei encantado com os paralelos que ele traçou na apresentação sobre como os dados nas organizações podem ser comparados ao processo de pensamento humano e como os obstáculos nas organizações evitam que os dados armazenados naturalmente em silos fluam por caminhos analíticos.

A palestra de Sivasubramanian abordou três temas principais associados a modernas estratégias de dados que todas as organizações podem adotar. O primeiro foi a preparação para o futuro de uma base de dados, a fim de eliminar o trabalho pesado; o segundo foi a criação de um elo entre os silos; e o terceiro foi a democratização dos dados em toda a organização. Em todos, ele usou as mesmas belas analogias.

Ainda no início da sessão, foi feito o primeiro importante anúncio do Amazon Athena para Apache Spark, um novo recurso do Athena para análise interativa no Apache Spark. Com ele, os usuários criam aplicativos Spark numa interface de notebook simplificada no console Athena ou em APIs Athena. Alguns minutos depois, também foram anunciados os clusters elásticos do DocumentDB da Amazon, que oferece a capacidade de expandir e lidar com qualquer número de solicitações de leitura/escrita com pouco ou nenhum tempo de inatividade.

A primeira palestrante convidada foi Rathi Murthy, CTO do Expedia Group e presidente de produtos e tecnologia da Expedia. Murthy falou sobre como a organização dela reúne os comportamentos de viagem dos clientes e as necessidades dos parceiros como um catalisador para transformar não apenas a própria empresa mas o setor de viagens. Murthy falou sobre o valor dos dados e da inovação. Ela contou como a equipe da empresa usa serviços de IA e machine learning, como configurações de HA do EKS, DynamoDB e SageMaker, para fazer quase 600 bilhões de previsões de IA por ano, baseadas em mais de 70 petabytes de dados; e como eles têm 360 mil permutações de uma página de uma das marcas para demonstrar a expansibilidade. Murthy demonstrou a inovação no modelo de negócios de reservas de viagens da empresa, que aprimora as experiências dos clientes ao incorporar recomendações e previsões vinculadas às rotas de voo, de modo que os clientes reservem a viagem com tranquilidade.

Descobrimos também que o Geospatial ML para Amazon SageMaker agora aceita ferramentas incorporadas de visualização e redes neurais pré-treinadas para casos de uso comuns. Esse anúncio foi seguido pelo segundo palestrante convidado, Kumar Chellapilla, gerente-geral de ML/AI Services do AWS, que deu uma demonstração convincente de como o machine learning e as imagens de satélite prontamente disponíveis preveem desastres naturais e gerenciam tempos de resposta de emergência graças a dados geoespaciais. Com isso, os paramédicos tomam decisões que podem salvar vidas.

Também fiquei animado em saber que a AWS Machine Learning University agora oferece treinamento para educadores: um programa de treinamento de instrutores que dá bolsas de estudo para que instituições de ensino acompanhem a demanda pelo machine learning. O AWS prevê que o crescimento dos serviços de IA e machine learning criará tanta demanda que, em breve, superará a oferta de educadores na disciplina. Alguns afirmam que isso já aconteceu, mas o anúncio desse programa enfatiza a importância da prática do machine learning na nossa área.

Shikha Verma, chefe de produto do Amazon DataZone, mostrou como produtores e consumidores de dados — analistas, cientistas e engenheiros — podem ser gerenciados em uma zona unificada para controlar e compartilhar recursos que normalmente são de difícil acesso.

Anna Berg Asberg, vice-presidente mundial de P&D da AstraZeneca, fez uma bela e emocionante apresentação sobre como a AstraZeneca usa dados e IA/machine learning para proteger a vida dos pacientes. Ela falou sobre como o banco de dados do genoma é enorme (25 petabytes de dados em toda a rede mundial AWS) e como o ambiente usa Step Functions, Lambda e AWS Batch para otimizar as cargas de trabalho de computação e Amazon S3 para armazenamento. É possível fazer mais de 110 bilhões de testes estatísticos em menos de 30 horas, gerando insights práticos para os cientistas. Asberg também explicou como os dados dos pacientes, os dados do tecido tumoral e as imagens dos exames médicos são usados em conjunto para detectar padrões nos pacientes e fazer previsões para eles; e comentou sobre o enorme crescimento nessa área. A principal mensagem dela ficou como as organizações precisam democratizar os dados com o SageMaker e o Catálogo de Serviços para que os ambientes MLOps durem poucos minutos.

Para encerrar, Sivasubramanian também mencionou o tempo perdido com os esforços manuais de organizações e equipes ao tentarem conectar dados em silos. Esse esforço muitas vezes exige processos complexos de extração, transformação e carga (ETL). Portanto, toda vez que uma organização deseja fazer uma nova consulta dos dados, é necessário criar um modelo de machine learning diferente e um pipeline de dados ETL especificamente para isso. É por isso que o AWS está investindo em um futuro zero ETL, de modo que a integração dos dados seja tranquila e que as organizações não precisem criar manualmente os pipelines de dados toda vez.

O fim da sessão de Sivasubramanian abordou o que é preciso para uma organização criar insights relevantes sobre os dados. Segundo ele: "São os indivíduos que, em última instância, criam essas faíscas, mas é responsabilidade dos líderes capacitá-los com uma cultura orientada por dados para que cheguem até lá."  Imagine quais insights sua organização pode ter com a base adequada de análise de dados.

Saiba mais sobre a Onica by Rackspace Technology