Destaques da palestra de infraestrutura do AWS re:Invent 2021 com Peter DeSantis

by Jason Pavao, Senior Solution Architect, Rackspace Technology

AWS re:Invent 2021 Keynote with Peter DeSantis

Na quarta-feira, 1º de dezembro, Peter DeSantis, vice-presidente sênior de Computação Utilitária e Aplicativos da Amazon Web Services (AWS), subiu ao palco para sua 10ª apresentação na re:invent, desta vez com uma viagem pelas memórias do passado. Quinze anos atrás, nascia a AWS, inicialmente com o serviço S3, seguido por SQS e EC2 alguns meses depois. Naquela altura, a computação em nuvem ainda não fazia parte do nosso vocabulário geral, mas, como todos sabemos, as coisas mudariam em breve.

"É incrível ver o quão longe chegamos desde aquelas origens humildes", disse DeSantis enquanto contava sobre quando a AWS não passava de uma única região e as zonas de disponibilidade não eram sequer um conceito. O único meio de armazenamento subjacente para o EC2 era efêmero, e havia apenas um tipo de instância disponível.

Peter nos lembra que as principais apostas para todos os serviços da AWS sempre foram: segurança, disponibilidade, elasticidade, desempenho, custo e sustentabilidade. E, com esses pontos-chave, Peter preparou o cenário para sua predição principal: a AWS sempre será líder em inovação.

 

AWS Nitro SSD

Embora o Nitro não seja o anúncio de um novo produto, ocupou grande parte da palestra de Peter. Como ele mesmo menciona, "foi por causa do Nitro que a AWS começou a desenvolver chips internamente". O controlador Nitro permite consistência entre vários fornecedores de armazenamento, processadores e redes, proporcionando uma experiência integrada aos clientes da AWS. Com a adição do Nitro SSD, a AWS oferece o EBS io2 Block Express, que proporciona desempenho de 260.000 IOPS com latência consistente abaixo de um milissegundo.

 

AWS Graviton 3

A AWS está extremamente focada em propiciar melhorias de desempenho nas cargas de trabalho reais dos clientes. Embora a maioria dos fabricantes de chip busque impressionar com estatísticas de selo, como frequência e total de núcleos do processador, essas características não são o objetivo final e consomem muito mais energia. E mais consumo de energia produz mais calor, o que significa menor eficiência.

Então, como a AWS aumentou com eficiência o desempenho de cada núcleo do Graviton? A resposta: tornando o núcleo mais amplo! Um núcleo mais amplo pode fazer mais trabalho por ciclo de processamento. Então, em vez de aumentar o número de ciclos por segundo, eles aumentaram de cinco para oito instruções a quantidade de trabalho que pode ser feita em cada ciclo, um processo chamado paralelismo em nível de instrução. Outra maneira utilizada pela AWS para melhorar o desempenho do Graviton foi equipá-lo com 50% mais largura de banda de memória do que o processador Graviton 2 anterior.

Embora em versão prévia e não disponível ao público em geral, o processador Graviton 3 oferece um desempenho global 25% superior para a maioria das cargas de trabalho.

 

Melhorias no machine learning com os processadores AWS Trainium e Inferentia

A primeira coisa a observar é que você precisará de uma infraestrutura muito diferente para treinamento e inferência. A segunda é que o machine learning tem dois componentes distintos: treinamento e inferência.

No treinamento, você constrói o modelo iterando os dados de treinamento. Pense no modelo como uma fórmula matemática com muitas variáveis. Todos os cálculos são computados em enormes matrizes com números de ponto flutuante. O treinamento usa estatísticas para encontrar coeficientes ideais para todas essas variáveis, e esses coeficientes são chamados de parâmetros.

Na inferência, você coloca o modelo que treinou para fazer previsões. A inferência representa a grande maioria do custo, pois você está sempre executando inferências em relação aos seus modelos de machine learning.

O processadores Trainium e Inferentia da AWS são especificamente construídos para entregar o melhor treinamento de machine learning e desempenho contínuo na inferência.

 

Técnicas de treinamento distribuído

A maneira simples de realizar treinamento distribuído chama-se paralelismo de dados e usa vários processadores de treinamento. Cada processador tem uma cópia integral do modelo na memória. Os dados de treinamento são particionados, e cada processador processa um subconjunto desses dados. Ocasionalmente, os processadores devem trocar algumas informações à medida que convergem para uma solução comum, evitando a ocorrência de gargalos de rede.

 

Promessa climática da AWS

Da concepção de data centers até a modelagem e o monitoramento do desempenho de operações, os ganhos mais significativos em termos de eficiência foram no design dos chips da AWS. Por exemplo, o Graviton é o processador de uso geral mais eficiente da AWS, oferecendo 60% mais eficiência para a maioria das cargas de trabalho. Além disso, o Inferentia é o processador de inferência mais eficiente da AWS disponível no mercado atualmente. Infelizmente, a AWS não dispunha de indicadores da eficiência real de trabalho do processador Trainium durante a palestra.

A Amazon está comprometida em zerar as emissões líquidas de carbono até 2040 com investimentos substanciais em tecnologias verdes, o que coloca a companhia 10 anos à frente do Acordo de Paris. Além disso, a Amazon sempre trabalhou em todos os aspectos de sua infraestrutura no ímpeto de melhorar a eficiência e reduzir a energia necessária para prestar os serviços aos clientes.

Essa é mais uma maneira pela qual a Amazon Web Services (AWS) está tomando a dianteira em matéria de inovação. A Rackspace Technology se orgulha de ser um Parceiro Consultivo Premier da Rede de Parceiros AWS (APN), dispondo de profunda experiência em AWS e escalabilidade para assumir os mais complexos projetos.

Obtenha acesso sob demanda a uma equipe de especialistas em AWS altamente qualificados