Destaques da apresentação do AWS re:Invent 2024 com Peter DeSantis

by Jon (JR) Price, Sr. Manager, Rackspace Elastic Engineering, Rackspace Technology

AWS re:Invent 2024 Keynote with Peter DeSantis

Abraçar o "como" das inovações AWS

A AWS acredita que compreender o "como" é crucial para fornecer serviços de nuvem inigualáveis. Os seus líderes mergulham nos pormenores, tal como a raiz profunda de uma árvore que acede à água no subsolo. Esta abordagem prática permite-lhes tomar decisões rápidas e informadas, antecipar as necessidades dos clientes e evitar problemas antes que estes surjam.

A sua cultura única é a base do seu sucesso. Promovem a colaboração entre equipas, à semelhança dos sistemas de raízes interligadas na floresta tropical da Amazónia. Esta sinergia permite-lhes inovar em toda a pilha de tecnologia - desde a energia e a rede do centro de dados até aos chips e software personalizados - proporcionando ofertas únicas e diferenciadas aos seus clientes.

A viagem do silicone personalizado Graviton

A AWS mergulhou na evolução do seu desenvolvimento de silício personalizado:

  • Graviton (2018): Lançado para estimular a colaboração da indústria em torno do ARM no centro de dados, fornecendo aos programadores hardware real para testar.
  • Graviton2: O primeiro processador da AWS criado especificamente para o efeito, concebido com enfoque em cargas de trabalho de escala reduzida, como servidores Web, microsserviços e frotas de cache.
  • Graviton3: Proporcionou ganhos substanciais de desempenho, visando cargas de trabalho especializadas que exigem um poder de computação extraordinário, como inferência de aprendizado de máquina, modelagem científica e transcodificação de vídeo.
  • Graviton4: O seu chip mais potente até à data, com suporte multi-socket e o triplo da contagem original de vCPU. É um divisor de águas para as cargas de trabalho empresariais mais exigentes, como grandes bases de dados e análises complexas.

O AWS centra-se na otimização do desempenho no mundo real em vez de benchmarks sintéticos. Ao analisar a forma como as cargas de trabalho reais exercem pressão sobre a microarquitectura de uma CPU, garantem que os seus processadores se destacam onde é mais importante. Por exemplo, enquanto os benchmarks tradicionais mostraram uma melhoria de 30% com o Graviton3 em relação ao Graviton2, as aplicações do mundo real como NGINX viram um aumento de 60% no desempenho.

Este compromisso com o desempenho no mundo real levou a uma adoção generalizada dos processadores Graviton. Mais de 50% de toda a nova capacidade de CPU nos centros de dados da AWS é alimentada pela Graviton, demonstrando a confiança que os clientes encontraram no silício personalizado da AWS.

Revolucionando a segurança com o sistema AWS Nitro

A segurança é fundamental na nuvem, e o AWS Nitro System transformou fundamentalmente a forma como o AWS constrói e protege a infraestrutura. A segurança baseada em hardware da Nitro começa no fabrico, fornecendo provas criptográficas - conhecidas como atestação - que verificam o que está a ser executado em cada sistema. Esta cadeia ininterrupta de custódia e verificação garante que, desde o momento em que os componentes são fabricados até ao momento em que estão a funcionar, temos a certeza absoluta da sua integridade.

Com o Graviton4, eles estenderam o atestado através do próprio processador, criando uma rede de confiança entre componentes críticos do sistema. Todas as ligações, desde a comunicação CPU-CPU até ao tráfego PCIe, estão protegidas por uma segurança baseada em hardware com raízes no fabrico. Este nível de segurança é impossível de alcançar com servidores e centros de dados tradicionais.

Apresentando o armazenamento desagregado com o Nitro

A AWS descobriu os limites dos servidores de armazenamento e, em vez de os tornar maiores, dividiu-os. A solução de armazenamento melhorada da AWS aborda os desafios colocados pelo crescimento das capacidades dos discos rígidos e das arquitecturas de armazenamento tradicionais. Com os seus rácios fixos de computação/armazenamento e acoplamento apertado, tornaram-se ineficientes e operacionalmente complexos à medida que as capacidades de transmissão aumentaram.

O armazenamento desagregado que utiliza o Nitro incorpora as placas Nitro, integrando-as diretamente nos compartimentos JBOD (Just a Bunch of Disks), permitindo que cada unidade ganhe a sua própria inteligência e conetividade de rede. Isto permite um escalonamento independente, permitindo uma atribuição flexível de recursos com base nas necessidades reais. As falhas são isoladas em componentes individuais, reduzindo drasticamente o seu impacto e acelerando os tempos de recuperação. A manutenção torna-se mais simples e o planeamento da capacidade torna-se mais flexível, permitindo uma inovação mais rápida e uma melhor resiliência do serviço. Isto prepara o terreno para uma futura escalabilidade à medida que as capacidades das unidades continuam a crescer.

Avançar a infraestrutura de IA com o Tranium2

As cargas de trabalho de inteligência artificial, particularmente na formação e inferência de modelos, apresentam desafios únicos. Requerem uma abordagem de aumento de escala em vez de aumento de escala, devido a limitações como a dimensão global do lote no paralelismo de dados.

Para responder a estas exigências, apresentámos o Tranium2, o nosso chip de treino de IA da próxima geração.

  • Arquitetura de matriz sistólica: Ao contrário das CPUs e GPUs tradicionais, o Tranium2 usa uma matriz sistólica projetada especificamente para cargas de trabalho de IA, otimizando a largura de banda da memória e a eficiência computacional.
  • Técnicas avançadas de empacotamento: Utilização de módulos de memória de alta largura de banda (HBM) e interpositores para maximizar o tamanho do chip dentro das restrições de fabrico.
  • Inovações no fornecimento de energia: Ao colocar os reguladores de tensão mais perto do chip, reduzimos os problemas de queda de tensão, melhorando o desempenho e a longevidade do chip.
  • Fabrico automatizado: Concebida para uma rápida expansão e implementação, assegurando que os clientes podem aceder rapidamente à tecnologia.

O servidor Tranium2 é uma potência, oferecendo 20 petaflops de capacidade de computação e 1,5 terabytes de memória HBM de alta velocidade. Com o NeuronLink, a nossa tecnologia de interconexão proprietária, vários servidores Tranium2 podem funcionar como uma unidade lógica, criando "Ultra Servidores" essenciais para treinar modelos de IA da próxima geração com triliões de parâmetros.

Melhorar a inferência de IA com o Amazon Bedrock

Reconhecendo a importância do treinamento e da inferência em cargas de trabalho de IA, a AWS introduziu opções otimizadas de latência para o Amazon Bedrock. Os clientes podem aceder às mais recentes optimizações de hardware e software de IA para tempos de inferência mais rápidos. As parcerias com os principais modelos de IA, como o Llama 2 da Meta e o Claude 3.5 da Anthropic, oferecem aos clientes um desempenho sem paralelo.

Por exemplo, as versões optimizadas em termos de latência do Llama 2 70B e 34B oferecem agora o melhor desempenho no AWS. Da mesma forma, a nossa parceria com a Anthropic permite-nos fornecer uma versão optimizada em termos de latência do Claude 3.5 que funciona 60% mais rápido do que o modelo padrão.

Colaboração com o Anthropic: Projeto Rainier

Tom Brown, cofundador e Chief Compute Officer da Anthropic, partilhou um pouco sobre o Projeto Rainier. Um novo cluster com centenas de milhares de chips Tranium2, fornecendo mais de cinco vezes mais potência de computação do que os clusters anteriores. Permitindo um desenvolvimento mais rápido da próxima geração do seu assistente de IA, Claude. Os clientes terão agentes mais inteligentes a custos mais baixos e velocidades mais rápidas, capazes de lidar com projectos maiores e mais importantes.

Esta colaboração exemplifica a forma como a AWS está a estabelecer parcerias com líderes do sector para ultrapassar os limites da infraestrutura de IA.

Dimensionamento de clusters de IA com rede elástica otimizada para IA

A AWS apresentou a sua estrutura de rede de IA de última geração, a rede 10P10U. Este sistema tem uma enorme capacidade e baixa latência, fornecendo dezenas de petabits de capacidade de rede a milhares de servidores com menos de 10 microssegundos de latência. Pode ser dimensionado para alguns racks ou até clusters que abrangem vários campus de centros de dados. Os conectores de tronco proprietários simplificam a instalação, reduzindo o tempo em 54% e praticamente eliminando erros de ligação. A AWS criou o Scalable Intent-Driven Routing ou SIDR. Um novo protocolo de encaminhamento de redes combina o planeamento central com a execução descentralizada, permitindo respostas autónomas rápidas a falhas e melhorando a fiabilidade da rede. Estas inovações garantem que a sua infraestrutura de IA é robusta, eficiente e capaz de satisfazer as exigências dos modernos volumes de trabalho de IA.

Conclusão: Inovar em toda a pilha

A AWS está a alargar os limites da computação em nuvem e da infraestrutura de IA com a sua cultura única e a integração horizontal que lhes permite inovar em centros de dados, redes, silício personalizado e software.

Convidamo-lo a explorar mais estas inovações e a ver como a Rackspace pode transformar a sua estratégia de nuvem. Juntos, podemos construir o futuro da computação em nuvem e da IA.

Saiba mais sobre como o podemos ajudar a construir o futuro no AWS