¿Por qué Trainium?
Los chips de AWS Trainium son una familia de chips de IA diseñados específicamente por AWS para el entrenamiento y la inferencia de la IA con el fin de ofrecer un alto rendimiento y reducir los costos.
El chip de AWS Trainium de primera generación impulsa las instancias Trn1 de Amazon Elastic Compute Cloud (Amazon EC2), que tienen costos de capacitación hasta un 50 % más bajos que las instancias de Amazon EC2 similares. Muchos clientes, incluidos Databricks, Ricoh, NinjaTech AI y Arcee AI, están descubriendo los beneficios de rendimiento y costo de las instancias Trn1.
El chip AWS Trainium2 ofrece hasta cuatro veces más rendimiento que el Trainium de primera generación. Las instancias Trn2 de Amazon EC2 basadas en Trainium2 están diseñadas específicamente para la IA generativa y son las instancias de EC2 más potentes para entrenar e implementar modelos con entre cientos de miles de millones y más de un billón de parámetros. Las instancias Trn2 ofrecen entre un 30 y un 40 % de mejor rendimiento de precio que la generación actual de instancias P5e y P5en de EC2 basadas en GPU. Las instancias Trn2 cuentan con 16 chips Trainium2 interconectados con NeuronLink, nuestra interconexión chip a chip patentada. Puede usar las instancias de Trn2 para entrenar e implementar los modelos más exigentes, incluidos los modelos de lenguaje grande (LLM), los modelos multimodales y los transformadores de difusión, para crear un amplio conjunto de aplicaciones de IA generativa de última generación. Los UltraServers Trn2 son una oferta de EC2 totalmente nueva (disponible en versión preliminar) y son ideales para los modelos de mayor tamaño que requieren más memoria y ancho de banda de memoria que los que pueden proporcionar las instancias de EC2 independientes. El diseño de UltraServer utiliza NeuronLink para conectar 64 chips Trainium2 a cuatro instancias Trn2 en un nodo, lo que permite nuevas capacidades. A modo de inferencia, los UltraServers ayudan a ofrecer un tiempo de respuesta líder en la industria para crear las mejores experiencias en tiempo real. En cuanto al entrenamiento, los UltraServers aumentan la velocidad y la eficiencia del entrenamiento de modelos con una comunicación colectiva más rápida para lograr el paralelismo de los modelos en comparación con las instancias independientes.
Puede empezar a entrenar e implementar modelos en instancias Trn2 y Trn1 con soporte nativo para marcos de machine learning (ML) populares, como PyTorch y JAX.