Amazon SageMaker HyperPod

擴展和加速跨數千種 AI 加速器的生成式 AI 模型開發作業

什麼是 SageMaker HyperPod？

Amazon SageMaker HyperPod 免除了建置生成式 AI 模型所涉及的千篇一律的繁重工作。它有助於在數百或數千個 AI 加速器的叢集中快速擴展模型開發任務，例如訓練、微調或推論。SageMaker HyperPod 可讓您集中管控所有模型開發任務，提供全面的可見性和控制不同任務的優先排序與運算資源分配，幫助您將叢集的 GPU 和 AWS Trainium 使用率提升到最大，並加速創新。

使用 SageMaker HyperPod，您可以在所有加速器之間有效地分配訓練工作負載並行處理。SageMaker HyperPod 會自動套用最佳訓練組態，針對熱門的公開可用模型，協助您快速達到最佳效能。它還可持續監控您的叢集是否有任何基礎架構故障，自動修復問題，而且無需人工干預即可恢復工作負載，這些都有助於節省高達 40% 的訓練時間。

SageMaker HyperPod 的優勢

透過集中治理所有模型開發任務來降低成本

SageMaker HyperPod 任務治理創新可提供完整可視性，並控制跨生成式 AI 模型開發任務 (例如訓練和推論) 的運算資源分配。SageMaker HyperPod 會自動管理工作佇列，確保優先處理最重要的工作，並在時間和預算範圍內完成，同時更有效地使用運算資源，降低高達 40% 的模型開發成本。

使用配方和工具實現最先進的效能

有了 SageMaker HyperPod 配方，各種技能水準的資料科學家和開發人員皆可受益於最先進的效能，同時在幾分鐘內開始訓練和微調公開可用的生成式 AI 模型。SageMaker HyperPod 還提供內建的實驗和可觀測性工具，幫助您提高模型效能。

在數千種 AI 加速器中高效地擴展並平行化模型訓練

SageMaker HyperPod 可讓您在 AWS 叢集執行個體中自動分割模型和訓練資料集，以協助您高效地擴展訓練工作負載。其可協助您針對 AWS 網路基礎架構和叢集拓樸最佳化訓練工作。SageMaker AI 還透過最佳化儲存檢查點的頻率，利用配方簡化模型檢查點儲存作業，從而確保將訓練期間的開銷降至最低。