Höhepunkte der AWS re:Invent 2024-Keynote mit Peter DeSantis

4 Dezember, 2024

by Jon (JR) Price, Sr. Manager, Rackspace Elastic Engineering, Rackspace Technology

AWS re:Invent 2024 Keynote with Peter DeSantis

Das "Wie" der AWS-Innovationen begreifen

AWS ist davon überzeugt, dass das Verständnis für das "Wie" entscheidend für die Bereitstellung von unübertroffenen Cloud-Services ist. Ihre Führer tauchen in die Details ein, ähnlich wie die tiefe Wurzel eines Baumes, die unterirdisch Wasser führt. Dieser praktische Ansatz ermöglicht es ihnen, schnelle und fundierte Entscheidungen zu treffen, Kundenbedürfnisse zu erkennen und Probleme zu vermeiden, bevor sie entstehen.

Ihre einzigartige Kultur ist die Grundlage für ihren Erfolg. Sie fördern die teamübergreifende Zusammenarbeit, ähnlich wie die vernetzten Wurzelsysteme im Amazonas-Regenwald. Diese Synergie ermöglicht ihnen Innovationen im gesamten Technologiebereich - von der Stromversorgung für Rechenzentren und Netzwerken bis hin zu kundenspezifischen Chips und Software - und damit einzigartige und differenzierte Angebote für ihre Kunden.

Die Graviton Custom Silicon Journey

AWS hat sich mit der Entwicklung von benutzerdefinierten Siliziumlösungen beschäftigt:

Graviton (2018): Startet, um die Zusammenarbeit der Branche rund um ARM im Rechenzentrum zu fördern und Entwicklern echte Hardware zum Testen zur Verfügung zu stellen.
Graviton2: Der erste AWS-Prozessor, der speziell für skalierbare Workloads wie Webserver, Microservices und Caching-Flotten entwickelt wurde.
Graviton3: Erhebliche Leistungssteigerung für spezielle Arbeitslasten, die eine außergewöhnliche Rechenleistung erfordern, wie z. B. maschinelles Lernen, wissenschaftliche Modellierung und Videotranskodierung.
Graviton4: Der bisher leistungsstärkste Chip mit Multi-Sockel-Unterstützung und der dreifachen Anzahl der ursprünglichen vCPUs. Es ist ein Wendepunkt für die anspruchsvollsten Unternehmens-Workloads wie große Datenbanken und komplexe Analysen.

AWS konzentriert sich auf die Optimierung der Leistung unter realen Bedingungen und nicht auf synthetische Benchmarks. Indem sie analysieren, wie die Mikroarchitektur einer CPU durch tatsächliche Arbeitslasten belastet wird, stellen sie sicher, dass ihre Prozessoren dort brillieren, wo es am wichtigsten ist. Während herkömmliche Benchmarks beispielsweise eine 30%ige Verbesserung mit Graviton3 gegenüber Graviton2 zeigten, konnten reale Anwendungen wie NGINX eine 60%ige Leistungssteigerungverzeichnen.

Dieses Engagement für eine praxisnahe Leistung hat zu einer breiten Akzeptanz der Graviton-Prozessoren geführt. Über werden 50 % aller neuen CPU-Kapazitäten in AWS-Rechenzentren von Graviton betrieben, was das Vertrauen der Kunden in das benutzerdefinierte AWS-Silizium unterstreicht.

Revolutionierung der Sicherheit mit dem AWS Nitro-System

Sicherheit ist das A und O in der Cloud, und das AWS Nitro System hat die Art und Weise, wie AWS Infrastrukturen aufbaut und sichert, grundlegend verändert. Die hardwarebasierte Sicherheit von Nitro beginnt bereits bei der Herstellung und bietet einen kryptografischen Beweis - bekannt als Attestierung - der verifiziert, was auf jedem System ausgeführt wird. Diese lückenlose Kontroll- und Prüfkette gewährleistet, dass wir von der Herstellung bis zum Betrieb der Komponenten absolute Gewissheit über deren Integrität haben.

Mit Graviton4 wurde die Zertifizierung auf den Prozessor selbst ausgedehnt, wodurch ein ineinandergreifendes Netz des Vertrauens zwischen kritischen Systemkomponenten geschaffen wurde. Jede Verbindung, von der CPU-zu-CPU-Kommunikation bis hin zum PCIe-Verkehr, wird durch hardwarebasierte Sicherheit geschützt, die in der Fertigung verwurzelt ist. Dieses Maß an Sicherheit ist mit herkömmlichen Servern und Rechenzentren nicht zu erreichen.

Einführung von disaggregiertem Speicher mit Nitro

AWS hat die Grenzen der Speicherserver erkannt und sie nicht vergrößert, sondern verkleinert. Die verbesserte Speicherlösung von AWS geht auf die Herausforderungen ein, die sich aus dem Wachstum der Festplattenkapazitäten und den herkömmlichen Speicherarchitekturen ergeben. Mit ihrem festen Verhältnis von Rechenleistung zu Speicherplatz und ihrer engen Kopplung sind sie mit zunehmender Laufwerkskapazität ineffizient und betrieblich komplex geworden.

Disaggregierter Speicher mit Nitro bettet Nitro-Karten direkt in JBOD-Gehäuse (Just a Bunch of Disks) ein, wodurch jedes Laufwerk seine eigene Intelligenz und Netzwerkkonnektivität erhält. Dies ermöglicht eine unabhängige Skalierung, die eine flexible Ressourcenzuweisung auf der Grundlage des tatsächlichen Bedarfs ermöglicht. Fehler werden von einzelnen Komponenten isoliert, was ihre Auswirkungen drastisch reduziert und die Wiederherstellungszeiten beschleunigt. Die Wartung wird einfacher, und die Kapazitätsplanung wird flexibler, was schnellere Innovationen und eine bessere Ausfallsicherheit der Dienste ermöglicht. Dies schafft die Voraussetzungen für eine künftige Skalierbarkeit, wenn die Laufwerkskapazitäten weiter wachsen.

Fortschrittliche KI-Infrastruktur mit Tranium2

Die Arbeitsbelastung durch künstliche Intelligenz, insbesondere bei der Modellschulung und -inferenz, stellt eine besondere Herausforderung dar. Sie erfordern eher einen Scale-up-Ansatz als einen Scale-out-Ansatz, was auf Einschränkungen wie die globale Stapelgröße bei der Datenparallelität zurückzuführen ist.

Um diese Anforderungen zu erfüllen, haben wir Tranium2 eingeführt, unseren KI-Trainingschip der nächsten Generation.

Systolische Array-Architektur: Im Gegensatz zu herkömmlichen CPUs und GPUs verwendet Tranium2 ein systolisches Array, das speziell für KI-Workloads entwickelt wurde und die Speicherbandbreite und Recheneffizienz optimiert.
Fortschrittliche Verpackungstechniken: Verwendung von HBM-Modulen (High-Bandwidth Memory) und Interposern zur Maximierung der Chipgröße innerhalb der Fertigungsbeschränkungen.
Innovationen bei der Stromzufuhr: Durch die Verlegung der Spannungsregler näher an den Chip konnten wir Spannungsabfälle reduzieren und so die Leistung und Langlebigkeit des Chips verbessern.
Automatisierte Fertigung: Konzipiert für eine schnelle Skalierung und Bereitstellung, damit die Kunden schnell auf die Technologie zugreifen können.

Der Tranium2-Server ist ein Kraftpaket mit einer Rechenleistung von 20 Petaflops und 1,5 Terabyte Hochgeschwindigkeits-HBM-Speicher. Mit NeuronLink, unserer firmeneigenen Verbindungstechnologie, können mehrere Tranium2-Server als eine logische Einheit fungieren, wodurch "Ultra Server" entstehen, die für das Training von KI-Modellen der nächsten Generation mit Billionen von Parametern unerlässlich sind.

Verbesserte KI-Inferenz mit Amazon Bedrock

AWS hat die Bedeutung von Training und Schlussfolgerungen in KI-Arbeitslasten erkannt und latenzoptimierte Optionen für Amazon Bedrock eingeführt. Kunden können auf die neuesten KI-Hardware- und Software-Optimierungen zugreifen, um die Inferenzzeiten zu verkürzen. Partnerschaften mit führenden KI-Modellen wie Meta's Llama 2 und Anthropic's Claude 3.5 bieten den Kunden eine unvergleichliche Leistung.

So bieten beispielsweise die latenzoptimierten Versionen von Llama 2 70B und 34B jetzt die beste Leistung auf AWS. Dank unserer Partnerschaft mit Anthropic können wir eine latenzoptimierte Version von Claude 3.5 anbieten, die 60 % schneller läuft als das Standardmodell.

Zusammenarbeit mit Anthropic: Projekt Rainier

Tom Brown, Mitbegründer und Chief Compute Officer bei Anthropic, erzählte ein wenig über das Projekt Rainier. Ein neuer Cluster mit Hunderttausenden von Tranium2-Chips, der mehr als fünfmal so viel Rechenleistung bietet wie frühere Cluster. Ermöglicht eine schnellere Entwicklung der nächsten Generation ihres KI-Assistenten Claude. Die Kunden werden intelligentere Agenten zu niedrigeren Kosten und mit höherer Geschwindigkeit erleben, die in der Lage sind, größere und wichtigere Projekte zu bearbeiten.

Diese Zusammenarbeit ist ein Beispiel dafür, wie AWS mit Branchenführern zusammenarbeitet, um die Grenzen der KI-Infrastruktur zu erweitern.

Skalierung von KI-Clustern mit Elastic AI-Optimized Networking

AWS präsentierte seine neueste Generation von KI-Netzwerken, das 10P10U-Netzwerk. Dieser verfügt über eine enorme Kapazität und eine niedrige Latenz, die Tausenden von Servern eine Netzkapazität von mehreren zehn Petabit mit einer Latenz von weniger als 10 Mikrosekunden zur Verfügung stellt. Kann auf einige wenige Racks oder bis zu Clustern skaliert werden, die sich über mehrere Rechenzentrumsstandorte erstrecken. Proprietäre Trunk-Steckverbinder vereinfachen die Installation, reduzieren den Zeitaufwand um 54 % und schließen Anschlussfehler praktisch aus. AWS hat Scalable Intent-Driven Routing (SIDR) entwickelt. Ein neues Netzwerk-Routing-Protokoll kombiniert zentrale Planung mit dezentraler Ausführung, ermöglicht schnelle autonome Reaktionen auf Ausfälle und verbessert die Zuverlässigkeit des Netzwerks. Diese Innovationen stellen sicher, dass ihre KI-Infrastruktur robust und effizient ist und die Anforderungen moderner KI-Workloads erfüllen kann.

Schlussfolgerung: Innovation über den gesamten Stapel hinweg

AWS verschiebt die Grenzen des Cloud-Computing und der KI-Infrastruktur mit seiner einzigartigen Kultur und horizontalen Integration, die es dem Unternehmen ermöglicht, Innovationen in den Bereichen Rechenzentren, Netzwerke, kundenspezifisches Silizium und Software zu schaffen.

Wir laden Sie ein, diese Innovationen näher zu erkunden und zu sehen, wie Rackspace Ihre Cloud-Strategie verändern kann. Gemeinsam können wir die Zukunft von Cloud Computing und KI gestalten.