AWS Inferentia

Obtenha alta performance com o menor custo no Amazon EC2 para inferência de aprendizado profundo e IA generativa

Por que escolher o Inferentia?

Os chips do AWS Inferentia foram projetados pela AWS para fornecer alta performance ao menor custo no Amazon EC2 para suas aplicações de inferência em aprendizado profundo (DL) e em IA generativa. 

O chip do AWS Inferentia de primeira geração é responsável pelas instâncias Inf1 do Amazon Elastic Compute Cloud (Amazon EC2), proporcionando até 2,3 vezes maior throughput e até 70% de redução no custo por inferência em relação a instâncias comparáveis do Amazon EC2. Muitos clientes, com destaque para a Finch AI, Sprinklr, Money Forward e Amazon Alexa, adotaram instâncias Inf1 e perceberam seus benefícios de performance e custo.

O chip do AWS Inferentia2 fornece até quatro vezes mais throughput e até dez vezes menor latência em comparação ao Inferentia. As instâncias do Amazon EC2 Inf2 baseadas em Inferentia2 são otimizadas para implantar modelos cada vez mais complexos, como grandes modelos de linguagem (LLM) e modelos de difusão latente, em grande escala. As instâncias Inf2 são as primeiras instâncias otimizadas para inferência no Amazon EC2 a oferecer suporte à inferência distribuída do aumento horizontal da escala com conectividade de altíssima velocidade entre os chips. Muitos clientes, incluindo Leonardo.ai, Deutsche Telekom e Qualtrics, adotaram instâncias Inf2 para suas aplicações de DL e IA generativa. 

O AWS Neuron SDK ajuda os desenvolvedores a implantar modelos nos chips do AWS Inferentia (e a treiná-los nos chips do AWS Trainium). Essa solução se integra nativamente com estruturas conhecidas, como PyTorch e TensorFlow, permitindo que você continue usando o código e os fluxos de trabalho existentes e realize a execução nos chips do Inferentia.

Benefícios do AWS Inferentia

Cada chip do Inferentia da primeira geração contém quatro NeuronCores de primeira geração, e cada instância Inf1 do EC2 pode ter até 16 chips do Inferentia. Cada chip do Inferentia2 contém dois NeuronCores de segunda geração, e cada instância Inf2 do EC2 pode fornecer suporte para até 12 chips do Inferentia2. Cada chip do Inferentia2 pode fornecer suporte para até 190 trilhões de operações de ponto flutuante por segundo (TFLOPS) de performance em FP16. A primeira geração do Inferentia contém 8 GB de memória DDR4 por chip e também tem uma grande quantidade de memória no chip. O Inferentia2 oferece 32 GB de HBM por chip, aumentando a memória total em quatro vezes e a largura de banda de memória em dez vezes em comparação com o Inferentia.

O AWS Neuron SDK se integra nativamente a frameworks de ML bem conhecidos, como PyTorch e TensorFlow. Com o AWS Neuron, você pode usar essas estruturas para implantar modelos de aprendizado profundo de maneira otimizada tanto nos chips do AWS Inferentia quanto no Neuron, que é projetado para minimizar as alterações no código e a dependência de soluções específicas de fornecedores. O Neuron ajuda a executar as aplicações de inferência para compreensão e processamento de linguagem natural (PLN), tradução de idiomas, resumo de textos, geração de vídeos e de imagens, reconhecimento de fala, personalização, detecção de fraudes e muito mais nos chips do Inferentia.

O Inferentia da primeira geração oferece suporte aos tipos de dados FP16, BF16 e INT8. O Inferentia2 acrescenta suporte para os tipos de dados FP32, TF32 e o novo FP8 configurável (cFP8) para oferecer aos desenvolvedores mais flexibilidade para otimizar a performance e a precisão. O AWS Neuron seleciona automaticamente os modelos FP32 de alta precisão para tipos de dados com precisão mais baixa, ao mesmo tempo que otimiza a precisão e a performance. A seleção automática reduz o tempo de entrada no mercado removendo a necessidade de retreinamento de precisão mais baixa.

O Inferentia2 acrescenta otimizações de hardware para tamanhos de entrada dinâmicos e operadores personalizados escritos em C++. Também comporta arredondamento estocástico, uma maneira de arredondar de forma probabilística que permite alta performance e precisão mais elevada em comparação com os modos de arredondamento herdados.

As instâncias Inf2 oferecem até 50% mais performance por watt em comparação com instâncias do Amazon EC2 equivalentes, pois elas e os chips do Inferentia2 subjacentes são projetados com propósito específico de executar modelos de aprendizado profundo em grande escala. As instâncias Inf2 ajudam você a atingir suas metas de sustentabilidade ao implantar modelos muito grandes.

Vídeos

Veja os bastidores da infraestrutura de IA generativa na Amazon
Apresentando as instâncias Inf2 do Amazon EC2 com tecnologia AWS Inferentia2
Como quatro clientes da AWS reduziram os custos de ML e impulsionaram a inovação com o AWS Inferentia