Amazon SageMaker HyperPod

擴展和加速跨數千種 AI 加速器的生成式 AI 模型開發作業

什麼是 SageMaker HyperPod?

Amazon SageMaker HyperPod 免除了建置生成式 AI 模型所涉及的千篇一律的繁重工作。它有助於在數百或數千個 AI 加速器的叢集中快速擴展模型開發任務,例如訓練、微調或推論。SageMaker HyperPod 可讓您集中管控所有模型開發任務,提供全面的可見性和控制不同任務的優先排序與運算資源分配,幫助您將叢集的 GPU 和 AWS Trainium 使用率提升到最大,並加速創新。

使用 SageMaker HyperPod,您可以在所有加速器之間有效地分配訓練工作負載並行處理。SageMaker HyperPod 會自動套用最佳訓練組態,針對熱門的公開可用模型,協助您快速達到最佳效能。它還可持續監控您的叢集是否有任何基礎架構故障,自動修復問題,而且無需人工干預即可恢復工作負載,這些都有助於節省高達 40% 的訓練時間。

SageMaker HyperPod 的優勢

SageMaker HyperPod 任務治理創新可提供完整可視性,並控制跨生成式 AI 模型開發任務 (例如訓練和推論) 的運算資源分配。SageMaker HyperPod 會自動管理工作佇列,確保優先處理最重要的工作,並在時間和預算範圍內完成,同時更有效地使用運算資源,降低高達 40% 的模型開發成本。
有了 SageMaker HyperPod 配方,各種技能水準的資料科學家和開發人員皆可受益於最先進的效能,同時在幾分鐘內開始訓練和微調公開可用的生成式 AI 模型。SageMaker HyperPod 還提供內建的實驗和可觀測性工具,幫助您提高模型效能。
SageMaker HyperPod 可讓您在 AWS 叢集執行個體中自動分割模型和訓練資料集,以協助您高效地擴展訓練工作負載。其可協助您針對 AWS 網路基礎架構和叢集拓樸最佳化訓練工作。SageMaker AI 還透過最佳化儲存檢查點的頻率,利用配方簡化模型檢查點儲存作業,從而確保將訓練期間的開銷降至最低。
SageMaker HyperPod 透過自動偵測、診斷和復原基礎架構故障,為模型開發作業提供彈性的環境,讓您在不出現中斷的情況下,持續數個月執行模型開發工作負載。

隆重推出 SageMaker HyperPod 任務管控

最大化運算資源的使用率並全面了解情況,同時降低成本。

進一步了解