AWS Trainium

Bénéficiez de performances élevées pour le deep learning et la formation d’IA générative tout en réduisant les coûts

Pourquoi Trainium ?

Les puces AWS Trainium sont une famille de puces d’IA spécialement conçues par AWS pour l’entraînement et l’inférence de l’IA afin d’offrir des performances élevées tout en réduisant les coûts.

La puce AWS Trainium de première génération alimente les instances Amazon Elastic Compute Cloud (Amazon EC2) Trn1, dont les coûts de formation sont élevés à 50 % inférieurs à ceux des instances Amazon EC2 comparables. De nombreux clients, dont Databricks, Ricoh, NinjaTech AI et Arcee AI, tirent parti des avantages en matière de performances et de coûts des instances Trn1.

La puce AWS Trainium2 offre des performances jusqu’à quatre fois supérieures à celles du Trainium de première génération. Les instances Amazon EC2 Trn2 basées sur Trainium2 sont spécialement conçues pour l’IA générative. Elles sont les instances EC2 les plus puissantes pour l’entraînement et le déploiement de modèles avec des centaines de milliards à plus de billions de paramètres. Les instances Trn2 offrent un rapport qualité/prix supérieur de 30 à 40 % à celui de la génération actuelle d’instances EC2 P5e et P5en basées sur GPU. Les instances Trn2 disposent de 16 puces Trainium2 interconnectées avec NeuronLink, le réseau d’interconnexion entre puces que nous avons développé. Vous pouvez utiliser les instances Trn2 pour entraîner et déployer les modèles les plus exigeants, notamment les grands modèles de langage (LLM), les modèles multimodaux et les transformeurs de diffusion, afin de créer un large éventail d’applications d’IA génératives de nouvelle génération. Les serveurs Trn2 UltraServers, une toute nouvelle offre EC2 (disponible en avant-première), sont idéaux pour les plus grands modèles qui nécessitent plus de mémoire et de bande passante que les instances EC2 autonomes ne peuvent fournir. La conception de l’UltraServer utilise NeuronLink pour connecter 64 puces Trainium2 sur quatre instances Trn2 en un seul nœud, ouvrant ainsi de nouvelles fonctionnalités. À titre d’inférence, les UltraServers contribuent à fournir un temps de réponse de pointe afin de créer les meilleures expériences en temps réel. En matière d’entraînement, les UltraServers augmentent la vitesse et l’efficacité de l’entraînement des modèles grâce à une communication collective plus rapide pour le parallélisme des modèles, par rapport aux instances autonomes.

Vous pouvez commencer à former et à déployer des modèles sur les instances Trn2 et Trn1 grâce à la prise en charge native des cadres de machine learning (ML) populaires tels que PyTorch et JAX.

Avantages

Les serveurs et instances Trn2 UltraServer fournissent des performances exceptionnelles dans Amazon EC2 pour l’apprentissage et l’inférence de l’IA générative. Chaque serveur Trn2 UltraServer possède 64 puces Trainium2 interconnectées à NeuronLink, notre interconnexion puce à puce propriétaire, et fournit jusqu’à 83,2 pétaflops de calcul FP8, 6 To de HBM3 avec 185 téraoctets par seconde (To/s) de bande passante mémoire et 12,8 térabits par seconde (Tbit/s) de réseau Elastic Fabric Adapter (EFA). Chaque instance Trn2 possède 16 puces Trainium2 connectées à NeuronLink et fournit jusqu’à 20,8 pétaflops de calcul FP8, 1,5 To de HBM3 avec 46 To/s de bande passante mémoire et 3,2 Tbit/s de réseau EFA. L’instance Trn1 comprend jusqu’à 16 puces Trainium et fournit jusqu’à 3 pétaflops de calcul FP8, 512 Go de HBM avec 9,8 To/s de bande passante mémoire et jusqu’à 1,6 Tbit/s de réseau EFA.

Le SDK AWS Neuron vous aide à extraire toutes les performances des instances Trn2 et Trn1 afin que vous puissiez vous concentrer sur la création et le déploiement de modèles et accélérer vos délais de mise sur le marché. AWS Neuron s’intègre en mode natif à JAX, PyTorch et à des bibliothèques essentielles telles que Hugging Face, PyTorch Lightning et NeMo. AWS Neuron prend en charge plus de 100 000 modèles sur le concentrateur de modèles Hugging Face, y compris des modèles populaires tels que la famille de modèles Llama de Meta et Stable Diffusion XL. Il optimise les modèles prêts à l’emploi pour la formation et l’inférence distribuées, tout en fournissant des informations détaillées pour le profilage et le débogage. AWS Neuron s’intègre à des services tels qu’Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster et AWS Batch, ainsi qu’à des services tiers tels que Ray (Anyscale), Domino Data Lab et Datadog.

Pour fournir des performances élevées tout en respectant les objectifs de précision, les puces Trainium sont optimisées pour les types de données FP32, TF32, BF16, FP16, et pour le nouveau type de données configurable FP8 (cFP8). Pour supporter le rythme rapide des innovations dans le domaine de l’IA générative, Trainium2 propose des optimisations matérielles pour une dispersion 4 fois plus faible (16:4), une micro-mise à l’échelle, un arrondissement stochastique et des moteurs collectifs dédiés.

Neuron Kernel Interface (NKI) permet un accès direct à l’architecture du jeu d’instructions (ISA) à l’aide d’un environnement basé sur Python avec une interface de type Triton, ce qui vous permet d’innover en matière d’architectures de modèles et de noyaux de calcul hautement optimisés qui surpassent les techniques existantes.

Les instances Trn2 sont conçues pour être trois fois plus économes en énergie que les instances Trn1. Les instances Trn1 sont jusqu’à 25 % plus économes en énergie que les instances EC2 à calcul accéléré comparables. Ces instances vous aident à atteindre vos objectifs de durabilité lors de la formation de modèles ultra-larges.

Vidéos

Découvrez les coulisses de l'infrastructure d'IA générative chez Amazon
Accélérez le DL et innovez plus rapidement avec AWS Trainium
Présentation des instances Amazon EC2 Trn1 basées sur AWS Trainium