Amazon SageMaker HyperPod

Die Entwicklung generativer KI-Modelle für Tausende von KI-Accelerators skalieren und beschleunigen

Was ist Amazon SageMaker HyperPod?

Amazon SageMaker HyperPod beseitigt die undifferenzierte Schwerstarbeit, die mit der Erstellung von Modellen für generative KI verbunden ist. Es hilft dabei, Aufgaben zur Modellentwicklung wie Training, Optimieren oder Inferenz über einen Cluster von Hunderten oder Tausenden von KI-Beschleunigern schnell zu skalieren. SageMaker HyperPod ermöglicht eine zentralisierte Steuerung all Ihrer Aufgaben zur Modellentwicklung und gibt Ihnen volle Transparenz und Kontrolle darüber, wie verschiedene Aufgaben priorisiert werden und wie Rechenressourcen den einzelnen Aufgaben zugewiesen werden. So können Sie die GPU- und AWS Trainium-Auslastung Ihres Clusters maximieren und Innovationen beschleunigen.

Mit SageMaker HyperPod können Sie Ihre Trainings-Workload effizient auf alle Beschleuniger verteilen und parallelisieren. SageMaker HyperPod wendet automatisch die besten Trainingskonfigurationen für beliebte öffentlich verfügbare Modelle an, damit Sie schnell eine optimale Leistung erzielen können. Außerdem überwacht es Ihren Cluster kontinuierlich auf Infrastrukturfehler, repariert das Problem automatisch und stellt Ihre Workloads ohne menschliches Eingreifen wieder her – all dies hilft Ihnen, bis zu 40 % der Trainingszeit einzusparen.

Vorteile von SageMaker HyperPod

Die Innovation SageMaker HyperPod zur Aufgabenverwaltung bietet vollständige Transparenz und Kontrolle über die Zuweisung von Rechenressourcen bei Entwicklungsaufgaben für generative KI-Modelle, wie etwa Training und Inferenz. SageMaker HyperPod verwaltet automatisch Aufgabenwarteschlangen und stellt sicher, dass die wichtigsten Aufgaben priorisiert und rechtzeitig und innerhalb des Budgets abgeschlossen werden, während Rechenressourcen effizienter genutzt werden, um die Kosten für die Modellentwicklung um bis zu 40 % zu senken.
Mit den Rezepten von SageMaker HyperPod profitieren Datenwissenschaftler und Entwickler aller Qualifikationsstufen von einer Leistung auf dem neuesten Stand der Technik, während sie in Minutenschnelle mit dem Training und Optimieren öffentlich verfügbarer generativer KI-Modelle beginnen. SageMaker HyperPod bietet außerdem integrierte Tools für Experimente und Beobachtbarkeit, mit denen Sie die Modellleistung verbessern können.
Mit SageMaker HyperPod können Sie Ihre Modelle und Trainingsdatensätze automatisch auf AWS-Cluster-Instances aufteilen, um Ihre Trainings-Workloads effizient zu skalieren. Es hilft Ihnen, Ihren Trainingsauftrag für die AWS-Netzwerkinfrastruktur und die Clustertopologie zu optimieren. Außerdem wird das Modell-Checkpointing durch die Rezepte optimiert, indem die Häufigkeit des Speicherns von Checkpoints optimiert wird, wodurch ein minimaler Overhead während des Trainings gewährleistet wird.
SageMaker HyperPod bietet eine robuste Umgebung für die Modellentwicklung, indem es Infrastrukturfehler automatisch erkennt, diagnostiziert und behebt. So können Sie monatelang ohne Unterbrechung Workloads für die Modellentwicklung ausführen.

Einführung der Aufgabenverwaltung in SageMaker HyperPod

Maximieren Sie die Auslastung und erhalten Sie vollständige Transparenz über die Rechenressourcen, während Sie gleichzeitig die Kosten senken.

Weitere Informationen