Amazon SageMaker HyperPod

Mettez à l’échelle et accélérez le développement de modèles d’IA générative à l’aide de milliers d’accélérateurs d’IA

Qu’est-ce qu’Amazon SageMaker HyperPod ?

Amazon SageMaker HyperPod permet d’éliminer les tâches fastidieuses liées à la création de modèles d’IA générative. Il permet de rapidement mettre à l’échelle les tâches de développement de modèles telles que l’entraînement, l’optimisation ou l’inférence sur un cluster de centaines ou de milliers d’accélérateurs d’IA. SageMaker HyperPod permet une gouvernance centralisée de toutes vos tâches de développement de modèles, vous offrant ainsi une visibilité et un contrôle complets sur la priorisation des différentes tâches et sur la manière dont les ressources de calcul sont allouées à chaque tâche, ce qui vous permet d’optimiser l’utilisation du GPU et d’AWS Trainium de votre cluster, mais aussi d’accélérer l’innovation.

Avec SageMaker HyperPod, vous pouvez répartir et paralléliser efficacement votre charge de travail d’entraînement sur tous les accélérateurs. SageMaker HyperPod applique automatiquement les meilleures configurations d’entraînement pour les modèles les plus courants disponibles au public, afin de vous aider à atteindre rapidement des performances optimales. Il surveille également en permanence votre cluster pour détecter tout défaut d’infrastructure, répare automatiquement le problème et restaure vos charges de travail sans intervention humaine, ce qui vous permet d’économiser jusqu’à 40 % du temps d’entraînement.

Avantages de SageMaker HyperPod

L’innovation de SageMaker HyperPod en matière de gouvernance des tâches offre une visibilité et un contrôle complets sur l’allocation des ressources de calcul entre les tâches de développement de modèles d’IA générative, telles que l’entraînement et l’inférence. SageMaker HyperPod gère automatiquement les files de tâches, ce qui garantit que les tâches les plus stratégiques sont hiérarchisées et achevées dans les délais et dans les limites du budget, tout en utilisant plus efficacement les ressources de calcul pour réduire les coûts de développement des modèles jusqu’à 40 %.
Grâce aux recettes SageMaker HyperPod, les scientifiques des données et les développeurs de tous niveaux bénéficient de performances de pointe tout en commençant à entraîner et à optimiser des modèles d’IA générative accessibles au public en quelques minutes. SageMaker HyperPod propose également des outils d’expérimentation et d’observabilité intégrés pour vous aider à améliorer les performances des modèles.
SageMaker HyperPod vous permet de répartir automatiquement vos modèles et vos jeux de données d’entraînement entre les instances de cluster AWS afin de vous aider à mettre à l’échelle efficacement les charges de travail d’entraînement. Il vous aide à optimiser votre tâche de formation à l’infrastructure réseau AWS et à la topologie des clusters. Il rationalise également le pointage des modèles via les recettes en optimisant la fréquence de l’enregistrement des points de contrôle, pour ainsi garantir un minimum de frais pendant la formation.
SageMaker HyperPod fournit un environnement résilient pour le développement de modèles en détectant, en diagnostiquant et en corrigeant automatiquement les défaillances de l’infrastructure, ce qui vous permet d’exécuter des charges de travail de développement de modèles en continu pendant des mois sans interruption.

Présentation de la gouvernance des tâches dans SageMaker HyperPod

Optimisez l’utilisation et bénéficiez d’une visibilité complète des ressources informatiques tout en réduisant les coûts.

En savoir plus