AWS Inferentia

Ottieni prestazioni elevate a costi più bassi in Amazon EC2 per l'inferenza dell'IA generativa e del deep learning

Perché Inferentia?

I chip AWS Inferentia sono progettati da AWS per fornire prestazioni elevate a costi più bassi in Amazon EC2 per le applicazioni di inferenza di deep learning (DL) e IA generativa. 

Il chip AWS Inferentia di prima generazione alimenta le istanze Inf1 di Amazon Elastic Compute Cloud (Amazon EC2), che offrono un throughput fino a 2,3 volte superiore e un costo per inferenza fino al 70% inferiore rispetto alle istanze Amazon EC2 paragonabili. Molti clienti, tra cui Finch AI, Sprinklr, Money Forward e Amazon Alexa, hanno adottato le istanze Inf1 e si sono resi conto dei vantaggi in termini di prestazioni e costi.

Il chip AWS Inferentia2 offre un throughput fino a 4 volte superiore e una latenza fino a 10 volte inferiore rispetto a Inferentia. Le istanze Amazon EC2 Inf2 basate su Inferentia2 sono ottimizzate per implementare modelli sempre più complessi, come modelli linguistici di grandi dimensioni (LLM) e modelli a diffusione latente su larga scala. Le istanze Inf2 sono le prime istanze ottimizzate per l'inferenza in Amazon EC2 e supportano l'inferenza distribuita su scala con connettività ad altissima velocità tra i chip. Molti clienti, tra cui Leonardo.ai, Deutsche Telekom e Qualtrics, hanno adottato istanze Inf2 per le loro applicazioni di DL e IA generativa. 

L'SDK di AWS Neuron aiuta gli sviluppatori a implementare i modelli sui chip AWS Inferentia e ad addestrarli sui chip AWS Trainium. Si integra in modo nativo con i framework più diffusi, come PyTorch e TensorFlow, in modo che tu possa continuare a utilizzare il codice e i flussi di lavoro esistenti ed eseguirli sui chip Inferentia.

Vantaggi di AWS Inferentia

Ogni chip Inferentia di prima generazione dispone di quattro NeuronCore di prima generazione e ogni istanza EC2 Inf1 ha fino a 16 chip Inferentia. Ogni chip Inferentia2 dispone di due NeuronCore di seconda generazione e ogni istanza EC2 Inf2 ha fino a 12 chip Inferentia2. Ogni chip Inferentia2 supporta fino a 190 tera di operazioni in virgola mobile al secondo (TFLOPS) di prestazioni FP16. Inferentia di prima generazione ha 8 GB di memoria DDR4 per chip e dispone anche di una grande quantità di memoria on-chip. Inferentia2 offre 32 GB di HBM per chip, aumentando la memoria totale di 4 volte e la larghezza di banda della memoria di 10 volte rispetto a Inferentia.

L'SDK AWS Neuron è integrato in modo nativo con framework di ML diffusi come PyTorch e TensorFlow. Con AWS Neuron, è possibile utilizzare questi framework per implementare in modo ottimale i modelli di DL su entrambi i chip AWS Inferentia e Neuron è progettato per ridurre al minimo le modifiche al codice ed eliminare i legami a soluzioni specifiche del fornitore. AWS Neuron ti aiuta a eseguire le applicazioni di inferenza per l'elaborazione del linguaggio naturale e la comprensione, la traduzione linguistica, il riassunto dei testi, la generazione di video e immagini, il riconoscimento vocale, la personalizzazione, il rilevamento delle frodi e altro ancora con chip Inferentia.

Inferentia di prima generazione supporta tipi di dati FP16, BF16 e INT8. Inferentia2 aggiunge un supporto aggiuntivo per FP32, TF32 e il nuovo tipo di dati FP8 configurabile (cFP8) per offrire agli sviluppatori una maggiore flessibilità, al fine di ottimizzare prestazioni e precisione. AWS Neuron acquisisce i modelli FP32 ad alta precisione e li converte automaticamente in tipi di dati a bassa precisione, ottimizzando la precisione e le prestazioni. Il lancio automatico riduce il time to market eliminando la necessità di riqualificare i prodotti di precisione inferiore.

Inferentia2 aggiunge ottimizzazioni hardware per dimensioni dinamiche di input e operatori personalizzati scritti in C++. Supporta inoltre l'arrotondamento stocastico, una modalità di arrotondamento probabilistico che consente prestazioni elevate e una maggiore precisione rispetto alle modalità di arrotondamento tradizionali.

Le istanze Inf2 offrono fino al 50% di prestazioni/watt in più rispetto alle istanze Amazon EC2 paragonabili, poiché, insieme ai chip Inferentia2 sottostanti, sono costruite appositamente per eseguire modelli di DL su scala. Le istanze Inf2 ti consentono di raggiungere i tuoi obiettivi di sostenibilità durante l'implementazione di modelli di dimensioni ultra-grandi.

Video

Dietro le quinte, guarda l'infrastruttura di IA generativa di Amazon
Presentazione delle istanze Amazon EC2 Inf2 basate su AWS Inferentia2
In che modo quattro clienti AWS hanno ridotto i costi del machine learning e favorito l'innovazione con AWS Inferentia