AWS Trainium

Erzielen Sie bei Ihrem Deep Learning- und generativen KI-Training eine hohe Leistung und senken Sie gleichzeitig die Kosten

Warum Trainium?

Bei den AWS-Trainium-Chips handelt es sich um eine Familie von KI-Chips, die speziell von AWS für KI-Training und Inferenz entwickelt wurden, um eine hohe Leistung zu erzielen und gleichzeitig die Kosten zu senken.

Der AWS-Trainium-Chip der ersten Generation unterstützt Trn1-Instances von Amazon Elastic Compute Cloud (Amazon EC2), die bis zu 50 % niedrigere Trainingskosten haben als vergleichbare Amazon-EC2-Instances. Viele Kunden, darunter Databricks, Ricoh, NinjaTech AI und Arcee AI, erkennen die Leistungs- und Kostenvorteile von Trn1-Instances.

Der AWS-Trainium2-Chip bietet bis zu viermal so viel Leistung wie der Trainium der ersten Generation. Trainium2-basierte Amazon-EC2-Trn2-Instances wurden speziell für generative KI entwickelt und sind die leistungsstärksten EC2-Instanzen zum Trainieren und Bereitstellen von Modellen mit Hunderten von Milliarden bis hin zu über Billionen Parametern. Trn2-Instances bieten ein um 30 % bis 40 % besseres Preis-Leistungs-Verhältnis als die aktuelle Generation GPU-basierter EC2 P5e- und P5en-Instances. Trn2-Instances verfügen über 16 Trainium2-Chips, die mit NeuronLink, unserer firmeneigenen Chip-zu-Chip-Verbindung, verbunden sind. Sie können Trn2-Instances verwenden, um die anspruchsvollsten Modelle zu trainieren und bereitzustellen, darunter große Sprachmodelle (LLMs), multimodale Modelle und Diffusionstransformer, um eine breite Palette generativer KI-Anwendungen der nächsten Generation zu erstellen. Trn2-UltraServer, ein völlig neues EC2-Angebot (als Vorversion verfügbar), eignen sich hervorragend für die größten Modelle, die mehr Speicher und Speicherbandbreite benötigen, als eigenständige EC2-Instances bieten können. Das UltraServer-Design verwendet NeuronLink, um 64 Trainium2-Chips über vier Trn2-Instances zu einem Knoten zu verbinden und so neue Funktionen freizuschalten. UltraServer bieten branchenweit führende Reaktionszeiten und ermöglichen so beste Echtzeit-Erlebnisse. Beim Training steigern UltraServer die Geschwindigkeit und Effizienz des Modelltrainings durch eine schnellere kollektive Kommunikation für Modellparallelität im Vergleich zu eigenständigen Instances.

Sie können mit dem Training und der Bereitstellung von Modellen auf Trn2- und Trn1-Instances mit nativer Unterstützung für beliebte Frameworks von Machine Learning wie PyTorch und JAX beginnen.

Vorteile

Trn2-UltraServer und -Instances bieten eine bahnbrechende Leistung in Amazon EC2 für generatives KI-Training und Inferenz. Jeder Trn2-UltraServer verfügt über 64 Trainium2-Chips, die mit NeuronLink, unserer firmeneigenen Chip-zu-Chip-Verbindung, verbunden sind, und liefert FP8-Rechenleistung von bis zu 83,2 Petaflops, 6 TB HBM3 mit 185 Terabyte pro Sekunde (TB/s) Speicherbandbreite und 12,8 Terabit pro Sekunde (Tbit/s) an Netzwerken von Elastic Fabric Adapter (EFA). Jede Trn2-Instance verfügt über 16 Trainium2-Chips, die mit NeuronLink verbunden sind, und liefert bis zu 20,8 Petaflops FP8-Rechenleistung, 1,5 TB HBM3 mit 46 TB/s Speicherbandbreite und 3,2 Tbit/s EFA-Netzwerk. Die Trn1-Instance verfügt über bis zu 16 Trainium-Chips und bietet FP8-Rechenleistung von bis zu 3 Petaflops, 512 GB HBM mit 9,8 TB/s Speicherbandbreite und bis zu 1,6 Tbit/s EFA-Netzwerk.

Das AWS Neuron SDK hilft Ihnen dabei, die volle Leistung aus Trn2- und Trn1-Instances herauszuholen, sodass Sie sich auf die Entwicklung und Bereitstellung von Modellen und die Verkürzung Ihrer Markteinführungszeit konzentrieren können. AWS Neuron lässt sich nativ in JAX, PyTorch und wichtige Bibliotheken wie Hugging Face, PyTorch Lightning und NeMo integrieren. AWS Neuron unterstützt über 100 000 Modelle auf dem Hugging-Face-Modell-Hub, darunter beliebte Modelle wie die Llama-Modellfamilie von Meta und Stable Diffusion XL. AWS Neuron optimiert sofort einsatzbereite Modelle für verteiltes Training und Inferenz und bietet gleichzeitig tiefe Einblicke für die Profilerstellung und das Debuggen. AWS Neuron lässt sich in Services wie Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster und AWS Batch sowie in Services von Drittanbietern wie Ray (Anyscale), Domino Data Lab und Datadog integrieren.

Trainium-Chips sind für die Datentypen FP32, TF32, BF16, FP16 und den neuen konfigurierbaren FP8-Datentyp (cFP8) optimiert, um eine hohe Leistung zu bieten und gleichzeitig die Genauigkeitsziele zu erreichen. Trainium2 verfügt über Hardwareoptimierungen für 4-fache Spärlichkeit (16:4), Mikroskalierung, stochastisches Runden und dedizierte kollektive Engines, um das schnelle Innovationstempo im Bereich der generativen KI zu unterstützen.

Das Neuron Kernel Interface (NKI) ermöglicht den direkten Zugriff auf die Befehlssatzarchitektur (ISA) unter Verwendung einer auf Python basierten Umgebung mit einer Triton-ähnlichen Schnittstelle, sodass Sie neue Modellarchitekturen und hochoptimierte Rechenkerne entwickeln können, die bestehende Techniken übertreffen.

Trn2-Instances sind so konzipiert, dass sie dreimal energieeffizienter sind als Trn1-Instances. Trn1-Instances sind bis zu 25 % energieeffizienter als vergleichbare EC2-Instances mit beschleunigter Datenverarbeitung. Diese Instances helfen Ihnen, Ihre Nachhaltigkeitsziele beim Training extrem großer Modelle zu erreichen.

Videos

Ein Blick hinter die Kulissen der Infrastruktur für generative KI bei Amazon
DL beschleunigen und schneller innovieren mit AWS Trainium
Einführung von Amazon-EC2-Trn1-Instances, die von AWS Trainium unterstützt werden