Amazon SageMaker HyperPod

何千もの AI アクセラレーターにわたって生成 AI モデル開発を拡張し、加速します

SageMaker HyperPod とは?

Amazon SageMaker HyperPod は、生成 AI モデルの構築に伴う、差別化につながらない手間のかかる作業をなくします。数百または数千の AI アクセラレーターのクラスター全体で、トレーニング、ファインチューニング、推論などのモデル開発タスクを迅速にスケールするのに役立ちます。SageMaker HyperPod は、すべてのモデル開発タスクを一元的に管理できるようにします。これにより、さまざまなタスクの優先順位付け方法や各タスクへのコンピューティングリソースの割り当て方法に対する完全な可視性とコントロールが得られ、クラスターによる GPU および AWS Trainium の利用率を最大化し、イノベーションを加速するのに役立ちます。

SageMaker HyperPod を使用すると、すべてのアクセラレーター間でトレーニングワークロードを効率的に分散および並列化できます。SageMaker HyperPod は、最適なパフォーマンスを迅速に実現するのに役立つよう、公開されている人気のモデルのために最適なトレーニング設定を自動的に適用します。また、クラスターでインフラストラクチャ障害が発生していないかを継続的にモニタリングし、問題を自動的に修復して、人間の介入なしにワークロードを回復します。これらすべてにより、トレーニング時間を最大 40% 節約できます。

SageMaker ハイパーポッドのメリット

SageMaker HyperPod タスクガバナンスイノベーションは、トレーニングや推論などの生成 AI モデル開発タスク全体におけるコンピューティングリソースの割り当てに対する完全な可視性とコントロールを提供します。SageMaker HyperPod はタスクキューを自動的に管理し、極めて重要なタスクが優先され、スケジュールどおりに、かつ、予算内で完了するようにするとともに、コンピューティングリソースをより効率的に使用してモデル開発コストを最大 40% 削減します。
SageMaker HyperPod のレシピを使用すると、あらゆるスキルセットのデータサイエンティストやデベロッパーは、最新のパフォーマンスの恩恵を受けながら、公開されている生成 AI モデルのトレーニングとファインチューニングを数分で開始できます。また、SageMaker HyperPod は、モデルのパフォーマンスを改善するのに役立つ、実験およびオブザーバビリティの組み込みツールも提供します。
SageMaker HyperPod を使用すると、トレーニングワークロードを効率的にスケールするのに役立つよう、モデルとトレーニングデータセットを AWS クラスターインスタンス間で自動的に分割できます。AWS ネットワークインフラストラクチャとクラスタートポロジ向けにトレーニングジョブを最適化するのに役立ちます。また、チェックポイントの保存頻度を最適化することでレシピを通じてモデルチェックポイントを合理化し、トレーニング中のオーバーヘッドが最小限に抑えられるようにします。
SageMaker HyperPod は、インフラストラクチャの障害を自動的に検出、診断、回復することでモデル開発のための回復力のある環境を提供します。これにより、中断することなく、数か月間にわたってモデル開発ワークロードを継続的に実行できます。

SageMaker HyperPod でのタスクガバナンスのご紹介

コストを削減しながら、コンピューティングリソースの使用率を最大化し、完全な可視性を実現しましょう。

詳細を確認する