Amazon SageMaker HyperPod

Scala e velocizza lo sviluppo di modelli di IA generativa su migliaia di acceleratori di IA

Che cos'è SageMaker HyperPod?

Amazon SageMaker HyperPod rimuove i carichi indifferenziati necessari per la creazione di modelli di IA generativa. Aiuta a scalare rapidamente le attività di sviluppo del modello come addestramento, messa a punto o inferenza su un cluster di centinaia o migliaia di acceleratori IA. SageMaker HyperPod consente la governance centralizzata di tutte le attività di sviluppo del modello, offrendoti piena visibilità e controllo sulla priorità delle diverse attività e sul modo in cui le risorse di calcolo vengono assegnate a ciascuna attività, aiutandoti a massimizzare l'utilizzo di GPU e AWS Trainium del tuo cluster e ad accelerare l'innovazione.

Con SageMaker HyperPod, puoi distribuire e parallelizzare in modo efficiente il carico di lavoro di addestramento su tutti gli acceleratori. SageMaker HyperPod applica automaticamente le migliori configurazioni di formazione per i modelli più diffusi disponibili al pubblico, per aiutarti a raggiungere rapidamente prestazioni ottimali. Inoltre, monitora anche continuamente il tuo cluster per eventuali guasti dell'infrastruttura, ripara automaticamente il problema e ripristina i carichi di lavoro senza intervento umano, il tutto aiutandoti a risparmiare fino al 40% del tempo di formazione.

Vantaggi di SageMaker HyperPod

Riduci i costi con una governance centralizzata su tutte le attività di sviluppo dei modelli

L'innovazione della governance delle attività di SageMaker HyperPod offre visibilità e controllo completi sull'assegnazione delle risorse di calcolo nelle attività di sviluppo dei modelli di IA generativa, come formazione e inferenza. SageMaker HyperPod gestisce automaticamente le code di attività, garantendo che alle attività più critiche venga assegnata la priorità e che le attività stesse vengano completate in tempo e nel rispetto del budget, utilizzando al contempo le risorse di calcolo in modo più efficiente per ridurre i costi di sviluppo dei modelli anche del 40%.

Ottieni prestazioni all'avanguardia con ricette e strumenti

Con le ricette SageMaker HyperPod, data scientist e sviluppatori di tutte le competenze beneficiano di prestazioni all'avanguardia mentre iniziano ad addestrare e perfezionare i modelli di IA generativa disponibili in pochi minuti. SageMaker HyperPod fornisce anche strumenti integrati di sperimentazione e osservabilità che consentono di migliorare le prestazioni del modello.

Scala e parallelizza in modo efficiente l'addestramento dei modelli su migliaia di acceleratori di intelligenza artificiale

SageMaker HyperPod ti consente di dividere automaticamente i tuoi modelli e i set di dati di addestramento tra le istanze del cluster AWS per aiutarti a scalare in modo efficiente i carichi di lavoro di addestramento. Ti consente di ottimizzare il tuo lavoro di addestramento per l'infrastruttura di rete AWS e la topologia dei cluster. Inoltre, semplifica i checkpoint dei modelli tramite le ricette ottimizzando la frequenza di salvataggio dei checkpoint e garantendo un sovraccarico minimo durante l'addestramento.

Elimina le interruzioni con un ambiente di sviluppo resiliente

SageMaker HyperPod fornisce un ambiente di addestramento resiliente per lo sviluppo dei modelli grazie alla capacità automatica di rilevare, diagnosticare e ripristinare automaticamente i guasti infrastrutturali, consentendoti di eseguire continuamente carichi di lavoro di sviluppo dei modelli per mesi senza interruzioni.