Amazon SageMaker HyperPod

將基礎模型訓練時間縮短高達 40%,並有效擴展至上千種 AI 加速器

什麼是 SageMaker HyperPod?

Amazon SageMaker HyperPod 消除了建置和最佳化機器學習 (ML) 基礎設施所涉及的無差異化繁重工作。該服務已預先設定 SageMaker 的分散式訓練程式庫,可自動將訓練工作負載分發至成千上萬個 AI 加速器,因此可平行處理工作負載,從而提高模型效能。SageMaker HyperPod 可透過定期儲存檢查點,來確保您能夠不間斷持續 FM 訓練。發生硬體故障時,它會自動偵測、修復或取代故障執行個體,並從上次儲存的檢查點繼續訓練,無需手動管理此程序。彈性環境可讓您在分散式環境中訓練模型數週或數月,而不會中斷,從而節省高達 40% 的訓練時間。SageMaker HyperPod 還可高度自訂,讓您能夠有效地執行和擴展 FM 工作負載,從大規模訓練到推論,輕鬆地在不同工作負載之間共用運算容量。

SageMaker HyperPod 的優勢

Amazon SageMaker HyperPod 已使用 Amazon SageMaker 分散式訓練程式庫進行預先設定,讓您可在 AWS 叢集執行個體中自動分割模型和訓練資料集,有助您有效率地擴展訓練工作負載。
Amazon SageMaker 分散式訓練程式庫會透過兩種技術來最佳化 AWS 網路基礎架構和叢集拓樸的訓練任務:資料平行化和模型平行化。模型平行性會將由於過大而不適合在單個 GPU 上訓練的模型拆分成較小的多個部分,然後將其分佈到多個 GPU 上進行訓練。資料平行性分割大型資料集以並行訓練,從而提升訓練速度。
SageMaker HyperPod 會透過自動偵測、診斷和復原故障,支援更具彈性的訓練環境,讓您可連續數月不中斷地訓練 FM。

工作負載排程和協同運作

SageMaker HyperPod 使用者介面可使用 Slurm 或 Amazon EKS 進行高度自訂。您可以選擇並安裝任何需要的框架或工具。所有叢集都會以您選擇的執行個體類型和數量佈建,並在工作負載間保留供您使用。

高效能分散式訓練程式庫

使用 SageMaker 的分散式訓練程式庫,您可以平行執行高度可擴展且經濟高效的自訂資料,並對平行深度學習訓練任務建模。SageMaker HyperPod 預先配置了 SageMaker 分散式庫。只需幾行程式碼,您即可在訓練指令碼中啟用資料平行性。SageMaker HyperPod 透過在 AWS GPU 執行個體之間自動分割模型和訓練資料集,讓您更快執行分散式訓練。

進一步了解

自動叢集運作狀態檢查和修復

如果任何執行個體在訓練工作負載期間出現故障,SageMaker HyperPod 會自動偵測並以正常節點替換故障節點。為了偵測硬體故障,SageMaker HyperPod 定期執行一系列 GPU 和網路完整性的運作狀態檢查。 

憑藉進階可觀測性提升效能

您可以在 SageMaker HyperPod 中使用建置的 ML 工具,以提升模型效能。例如,Amazon SageMaker 搭配 TensorBoard 可協助您視覺化模型架構來識別和修復聚合問題,藉此來節省開發時間,而 Amazon SageMaker Debugger 則可即時擷取指標和分析訓練任務。與 Amazon CloudWatch Container Insights 整合可提供有關叢集效能、運作狀態和使用率的深入洞察。 

進一步了解 »

可擴展性和最佳化資源使用率

您能夠以一致的 Kubernetes 管理員體驗,來管理和操作 SageMaker HyperPod 叢集。這可讓您高效地執行和擴展 FM 工作負載,從訓練、微調、試驗到推論。您可以輕鬆共用運算容量,並在 Slurm 和 EKS 之間切換不同類型的工作負載。