什麼是 SageMaker HyperPod?
Amazon SageMaker HyperPod 免除了建置生成式 AI 模型所涉及的千篇一律的繁重工作。它有助於在數百或數千個 AI 加速器的叢集中快速擴展模型開發任務,例如訓練、微調或推論。SageMaker HyperPod 可讓您集中管控所有模型開發任務,提供全面的可見性和控制不同任務的優先排序與運算資源分配,幫助您將叢集的 GPU 和 AWS Trainium 使用率提升到最大,並加速創新。
使用 SageMaker HyperPod,您可以在所有加速器之間有效地分配訓練工作負載並行處理。SageMaker HyperPod 會自動套用最佳訓練組態,針對熱門的公開可用模型,協助您快速達到最佳效能。它還可持續監控您的叢集是否有任何基礎架構故障,自動修復問題,而且無需人工干預即可恢復工作負載,這些都有助於節省高達 40% 的訓練時間。
SageMaker HyperPod 的優勢
隆重推出 SageMaker HyperPod 任務管控
最大化運算資源的使用率並全面了解情況,同時降低成本。