Por que o Trainium?
Os chips do AWS Trainium correspondem a uma família de chips de IA desenvolvidos pela AWS com o propósito específico de treinamento e inferência de IA para fornecer alta performance e redução de custos.
O chip do AWS Trainium de primeira geração é responsável pelas instâncias Trn1 do Amazon Elastic Compute Cloud (Amazon EC2), que apresentam custos de treinamento até 50% menores do que as instâncias comparáveis do Amazon EC2. Diversos clientes, como Databricks, Ricoh, NinjaTech AI e Arcee AI, estão experimentando benefícios de performance e de redução de custos com as instâncias Trn1.
O chip do AWS Trainium2 proporciona uma performance até quatro vezes superior quando comparado com o chip do Trainium de primeira geração. As instâncias Trn2 do Amazon EC2, baseadas no Trainium2, são projetadas com propósito específico para IA generativa e representam as instâncias do EC2 mais avançadas para treinar e implantar modelos com centenas de bilhões a trilhões de parâmetros. As instâncias Trn2 fornecem uma performance de preço de 30% a 40% superior em comparação com a geração atual das instâncias P5e e P5en do EC2 que são baseadas em GPU. As instâncias Trn2 são equipadas com 16 chips do Trainium2 interconectados pelo NeuronLink, nosso interconector proprietário “chip-to-chip”. É possível usar as instâncias Trn2 para treinar e implantar modelos mais complexos, incluindo grandes modelos de linguagem (LLMs), modelos multimodais e transformadores de difusão, para o desenvolvimento de uma ampla variedade de aplicações de IA generativa da próxima geração. As instâncias Trn2 UltraServers, uma oferta totalmente nova do EC2 (disponível em versão prévia), são perfeitos para os modelos mais complexos que necessitam de mais memória e largura de banda de memória do que as instâncias autônomas do EC2 conseguem disponibilizar. O projeto do UltraServer usa o NeuronLink para conectar 64 chips do Trainium2 distribuídos em quatro instâncias Trn2, em um único nó. Isso disponibiliza novas funcionalidades. Para tarefas de inferência, os servidores UltraServers contribuem para proporcionar tempos de resposta de ponta, garantindo as melhores experiências em tempo real. Para tarefas de treinamento, os UltraServers aumentam a velocidade e a eficiência do treinamento de modelos com uma comunicação coletiva mais rápida para o paralelismo de modelos, em comparação com as instâncias autônomas.
É possível começar a treinar e a implantar modelos nas instâncias Trn2 e Trn1 com suporte nativo para estruturas conhecidas de machine learning (ML), como PyTorch e JAX.