Aspectos destacados de la conferencia magistral de AWS re:Invent 2024 con Peter DeSantis

4 Diciembre, 2024

by Jon (JR) Price, Sr. Manager, Rackspace Elastic Engineering, Rackspace Technology

AWS re:Invent 2024 Keynote with Peter DeSantis

Adoptar el "cómo" de las innovaciones de AWS

AWS cree que comprender el "cómo" es crucial para ofrecer servicios en la nube inigualables. Sus líderes se sumergen en los detalles, como la raíz profunda de un árbol que accede al agua bajo tierra. Este enfoque práctico les permite tomar decisiones rápidas e informadas, anticiparse a las necesidades de los clientes y prevenir problemas antes de que surjan.

Su cultura única es la base de su éxito. Fomentan la colaboración entre equipos, como los sistemas de raíces interconectados de la selva amazónica. Esta sinergia les permite innovar en toda la pila tecnológica -desde la alimentación y las redes de los centros de datos hasta los chips y el software personalizados- y ofrecer a sus clientes ofertas únicas y diferenciadas.

El viaje del silicio personalizado de Graviton

AWS se sumergió en la evolución de su desarrollo de silicio personalizado:

Graviton (2018): Lanzado para encender la colaboración de la industria en torno a ARM en el centro de datos, proporcionando a los desarrolladores hardware real para probar.
Graviton2: Primer procesador de AWS diseñado específicamente para cargas de trabajo escalables como servidores web, microservicios y flotas de almacenamiento en caché.
Graviton3: Aumento sustancial del rendimiento en cargas de trabajo especializadas que exigen una potencia de cálculo extraordinaria, como la inferencia de aprendizaje automático, el modelado científico y la transcodificación de vídeo.
Graviton4: Su chip más potente hasta la fecha, con soporte multisocket y el triple de vCPU que el original. Supone un cambio radical para las cargas de trabajo empresariales más exigentes, como las grandes bases de datos y los análisis complejos.

AWS se centra en la optimización del rendimiento en el mundo real más que en pruebas comparativas sintéticas. Analizando cómo las cargas de trabajo reales estresan la microarquitectura de una CPU, garantizan que sus procesadores destaquen donde más importa. Por ejemplo, mientras que las pruebas de rendimiento tradicionales mostraron una mejora del 30% con Graviton3 respecto a Graviton2, las aplicaciones del mundo real como NGINX experimentaron un aumento del rendimiento del 60%.

Este compromiso con el rendimiento en el mundo real ha llevado a la adopción generalizada de los procesadores Graviton. Más de El 50% de toda la nueva capacidad de CPU en los centros de datos de AWS está impulsada por Graviton, lo que demuestra la confianza que los clientes han encontrado en el silicio personalizado de AWS.

Revolucionando la seguridad con el sistema AWS Nitro

La seguridad es primordial en la nube, y el sistema AWS Nitro ha transformado fundamentalmente la forma en que AWS construye y asegura la infraestructura. La seguridad basada en hardware de Nitro comienza en la fabricación, proporcionando una prueba criptográfica -conocida como atestación- que verifica lo que se está ejecutando en cada sistema. Esta cadena ininterrumpida de custodia y verificación garantiza que, desde el momento en que se fabrican los componentes hasta que están en funcionamiento, tenemos la certeza absoluta de su integridad.

Con Graviton4, extendieron la certificación al propio procesador, creando una red de confianza entre los componentes críticos del sistema. Todas las conexiones, desde la comunicación entre CPU y CPU hasta el tráfico PCIe, están protegidas por una seguridad basada en hardware arraigada en la fabricación. Este nivel de seguridad es imposible de alcanzar con los servidores y centros de datos tradicionales.

Presentación del almacenamiento desagregado con Nitro

AWS encontró los límites de los servidores de almacenamiento y, en lugar de hacerlos más grandes, los descompuso. La solución de almacenamiento mejorada de AWS responde a los retos planteados por el aumento de la capacidad de los discos duros y las arquitecturas de almacenamiento tradicionales. Con sus relaciones fijas de cómputo-almacenamiento y su estrecho acoplamiento, se han vuelto ineficientes y complejas desde el punto de vista operativo a medida que han aumentado las capacidades de las unidades.

El almacenamiento desagregado que utiliza Nitro integra tarjetas Nitro directamente en carcasas JBOD (Just a Bunch of Disks), lo que permite que cada unidad adquiera su propia inteligencia y conectividad de red. Esto permite un escalado independiente, lo que posibilita una asignación flexible de recursos en función de las necesidades reales. Los fallos se aíslan en componentes individuales, lo que reduce drásticamente su impacto y acelera los tiempos de recuperación. El mantenimiento se simplifica y la planificación de la capacidad se hace más flexible, lo que permite una innovación más rápida y una mayor resistencia del servicio. Esto prepara el terreno para una futura escalabilidad a medida que aumente la capacidad de las unidades.

Avanzar en la infraestructura de IA con Tranium2

Las cargas de trabajo de la inteligencia artificial, en particular en la formación e inferencia de modelos, presentan retos únicos. Requieren un enfoque de escalado más que de escalado, debido a limitaciones como el tamaño de lote global en el paralelismo de datos.

Para satisfacer estas demandas, presentamos Tranium2, nuestro chip de entrenamiento de IA de nueva generación.

Arquitectura de matriz sistólica: A diferencia de las CPU y GPU tradicionales, Tranium2 utiliza una matriz sistólica diseñada específicamente para cargas de trabajo de IA, lo que optimiza el ancho de banda de la memoria y la eficiencia computacional.
Técnicas avanzadas de embalaje: Utilización de módulos de memoria de gran ancho de banda (HBM) e intercaladores para maximizar el tamaño del chip dentro de las limitaciones de fabricación.
Innovaciones en el suministro de energía: Al acercar los reguladores de voltaje al chip, hemos reducido los problemas de caída de voltaje, mejorando el rendimiento y la longevidad del chip.
Fabricación automatizada: Diseñada para una rápida ampliación e implantación, lo que garantiza que los clientes puedan acceder a la tecnología rápidamente.

El servidor Tranium2 es una potencia que ofrece 20 petaflops de capacidad de cálculo y 1,5 terabytes de memoria HBM de alta velocidad. Con NeuronLink, nuestra tecnología de interconexión patentada, varios servidores Tranium2 pueden funcionar como una unidad lógica, creando "Ultra Servidores" esenciales para entrenar modelos de IA de próxima generación con billones de parámetros.

Mejora de la inferencia de IA con Amazon Bedrock

Reconociendo la importancia tanto de la formación como de la inferencia en las cargas de trabajo de IA, AWS introdujo opciones de latencia optimizada para Amazon Bedrock. Los clientes pueden acceder a las últimas optimizaciones de hardware y software de IA para acelerar los tiempos de inferencia. Las asociaciones con modelos de IA líderes como Llama 2 de Meta y Claude 3.5 de Anthropic ofrecen a los clientes un rendimiento sin precedentes.

Por ejemplo, las versiones optimizadas para latencia de Llama 2 70B y 34B ofrecen ahora el mejor rendimiento en AWS. Asimismo, nuestra asociación con Anthropic nos permite ofrecer una versión de Claude 3.5 optimizada para la latencia que funciona un 60% más rápido que el modelo estándar.

Colaboración con Anthropic: Proyecto Rainier

Tom Brown, cofundador y Director de Informática de Anthropic, nos habló un poco del Proyecto Rainier. Un nuevo clúster con cientos de miles de chips Tranium2, que proporciona más de cinco veces más potencia de cálculo que los clústeres anteriores. Permite un desarrollo más rápido de la próxima generación de su asistente de inteligencia artificial, Claude. Los clientes contarán con agentes más inteligentes a menor coste y mayor velocidad, capaces de gestionar proyectos más grandes e importantes.

Esta colaboración ejemplifica cómo AWS se asocia con líderes del sector para ampliar los límites de la infraestructura de IA.

Ampliación de clústeres de IA con redes elásticas optimizadas para IA

AWS presentó su tejido de red de IA de última generación, la red 10P10U. Tiene una capacidad masiva y una baja latencia que proporciona decenas de petabits de capacidad de red a miles de servidores con menos de 10 microsegundos de latencia. Puede ampliarse a unos pocos bastidores o a clústeres que abarquen varios campus de centros de datos. Los conectores troncales patentados simplifican la instalación, reduciendo el tiempo en un 54% y eliminando prácticamente los errores de conexión. AWS creó Scalable Intent-Driven Routing o SIDR. Un nuevo protocolo de enrutamiento de red combina la planificación central con la ejecución descentralizada, lo que permite dar respuestas autónomas rápidas a los fallos y mejorar la fiabilidad de la red. Estas innovaciones garantizan que su infraestructura de IA sea sólida, eficiente y capaz de satisfacer las demandas de las cargas de trabajo de IA modernas.

Conclusiones: Innovar en toda la pila

AWS está empujando los límites de la computación en la nube y la infraestructura de IA con su cultura única y la integración horizontal que les permite innovar a través de centros de datos, redes, silicio personalizado y software.

Le invitamos a explorar más a fondo estas innovaciones y ver cómo Rackspace puede transformar su estrategia de nube. Juntos podemos construir el futuro de la computación en nube y la IA.