Por que escolher o Inferentia?
Os chips do AWS Inferentia foram projetados pela AWS para fornecer alta performance ao menor custo no Amazon EC2 para suas aplicações de inferência em aprendizado profundo (DL) e em IA generativa.
O chip do AWS Inferentia de primeira geração é responsável pelas instâncias Inf1 do Amazon Elastic Compute Cloud (Amazon EC2), proporcionando até 2,3 vezes maior throughput e até 70% de redução no custo por inferência em relação a instâncias comparáveis do Amazon EC2. Muitos clientes, com destaque para a Finch AI, Sprinklr, Money Forward e Amazon Alexa, adotaram instâncias Inf1 e perceberam seus benefícios de performance e custo.
O chip do AWS Inferentia2 fornece até quatro vezes mais throughput e até dez vezes menor latência em comparação ao Inferentia. As instâncias do Amazon EC2 Inf2 baseadas em Inferentia2 são otimizadas para implantar modelos cada vez mais complexos, como grandes modelos de linguagem (LLM) e modelos de difusão latente, em grande escala. As instâncias Inf2 são as primeiras instâncias otimizadas para inferência no Amazon EC2 a oferecer suporte à inferência distribuída do aumento horizontal da escala com conectividade de altíssima velocidade entre os chips. Muitos clientes, incluindo Leonardo.ai, Deutsche Telekom e Qualtrics, adotaram instâncias Inf2 para suas aplicações de DL e IA generativa.
O AWS Neuron SDK ajuda os desenvolvedores a implantar modelos nos chips do AWS Inferentia (e a treiná-los nos chips do AWS Trainium). Essa solução se integra nativamente com estruturas conhecidas, como PyTorch e TensorFlow, permitindo que você continue usando o código e os fluxos de trabalho existentes e realize a execução nos chips do Inferentia.