AWS Inferentia

Obtenga un alto rendimiento al menor costo en Amazon EC2 para la inferencia de aprendizaje profundo e IA generativa

¿Por qué Inferentia?

Los chips de AWS Inferentia están diseñados por AWS para ofrecer un alto rendimiento al menor costo en Amazon EC2 para sus aplicaciones de inferencia de aprendizaje profundo (DL) e IA generativa. 

El chip de AWS Inferentia de primera generación cuenta con las instancias Inf1 de Amazon Elastic Compute Cloud (Amazon EC2), que ofrecen un rendimiento hasta 2,3 veces mayor y un costo por inferencia hasta un 70 % menor que las instancias comparables de Amazon EC2. Muchos clientes, como Finch AI, Sprinklr, Money Forward y Amazon Alexa, adoptaron las instancias Inf1 y experimentaron sus beneficios de rendimiento y coste.

El chip AWS Inferentia2 ofrece un rendimiento hasta 4 veces mayor y una latencia hasta 10 veces menor en comparación con Inferentia. Las instancias Inf2 de Amazon EC2 basadas en Inferentia2 están optimizadas para implementar modelos cada vez más complejos, como modelos de lenguaje de gran tamaño (LLM) y modelos de difusión latente, a escala. Las instancias Inf2 son las primeras instancias optimizadas para la inferencia en Amazon EC2 que admiten la inferencia distribuida a escala con una conectividad de altísima velocidad entre los chips. Muchos clientes, incluidos Leonardo.ai, Deutsche Telekom y Qualtrics, han adoptado las instancias de Inf2 para sus aplicaciones de DL e IA generativa. 

El SDK de AWS Neuron ayuda a los desarrolladores a implementar modelos en los chips de AWS Inferentia (y a entrenarlos en los chips de AWS Trainium). Se integra de forma nativa con marcos populares, como PyTorch y TensorFlow, para que pueda continuar utilizando su código y los flujos de trabajo existentes y ejecutarlos en los chips de Inferentia.

Ventajas de usar AWS Inferentia

Cada chip Inferentia de primera generación tiene cuatro NeuronCores de primera generación y cada instancia Inf1 de EC2 tiene hasta 16 chips Inferentia. Cada chip Inferentia2 tiene dos NeuronCores de segunda generación y cada instancia Inf2 de EC2 tiene hasta 12 chips Inferentia2. Cada chip Inferentia2 admite hasta 190 teraoperaciones de coma flotante por segundo (TFLOPS) de rendimiento FP16. La primera generación de Inferentia tiene 8 GB de memoria DDR4 por chip y también cuenta con una gran cantidad de memoria en el chip. Inferentia2 ofrece 32 GB de HBM por chip, lo que aumenta 4 veces la memoria total y 10 veces el ancho de banda de la memoria con respecto a Inferentia.

El SDK de AWS Neuron se integra de forma nativa con marcos de trabajo de ML populares como PyTorch y TensorFlow. Con AWS Neuron, puede usar estos marcos para implementar de manera óptima modelos de DL en ambos chips de AWS Inferentia, y Neuron está diseñado para minimizar los cambios en el código y la vinculación a soluciones específicas del proveedor. Neuron le ayuda a ejecutar sus aplicaciones de inferencia para la comprensión o el procesamiento de lenguaje natural (NLP), la traducción de idiomas, el resumen de textos, la generación de videos e imágenes, el reconocimiento de voz, la personalización, la detección de fraudes, y mucho más, en chips de Inferentia.

La primera generación de Inferentia admite tipos de datos FP16, BF16 e INT8. Inferentia2 agrega soporte adicional para FP32, TF32 y el nuevo tipo de datos FP8 configurable (cFP8) a fin de proporcionar a los desarrolladores más flexibilidad para optimizar el rendimiento y precisión. AWS Neuron toma modelos FP32 de alta precisión y los convierte de forma automática en tipos de datos de menor precisión, al tiempo que optimiza la precisión y el rendimiento. La difusión automática reduce el tiempo de comercialización al eliminar la necesidad de un reentrenamiento de menor precisión.

Inferentia2 agrega optimizaciones de hardware para tamaños de entrada dinámicos y operadores personalizados escritos en C++. También admite el redondeo estocástico, una forma de redondear probabilísticamente que permite un alto rendimiento y una mayor precisión en comparación con los modos de redondeo heredados.

Las instancias de Inf2 ofrecen hasta un 50 % más de rendimiento por vatio en comparación con las instancias de Amazon EC2, ya que tanto ellas como los chips subyacentes de Inferentia2 están diseñados para ejecutar modelos de aprendizaje profundo a escala. Con las instancias de Inf2 podrá alcanzar sus objetivos de sostenibilidad cuando implemente modelos ultragrandes.

Videos

Una mirada al detrás de escena de la infraestructura de IA generativa en Amazon
Presentamos las instancias Inf2 de Amazon EC2 con tecnología de AWS Inferentia2
Cómo cuatro clientes de AWS redujeron los costos de ML e impulsaron la innovación con AWS Inferentia