AWS Trainium

コストを低く抑えながら、深層学習と生成 AI トレーニングのパフォーマンスを高める

Trainium を利用すべき理由

AWS Trainium チップは、コストを削減しながら高いパフォーマンスを実現するために、AWS が AI トレーニングと推論専用に構築した AI チップのファミリーです。

第 1 世代の AWS Trainium チップは、Amazon Elastic Compute Cloud (Amazon EC2) Trn1 インスタンスを強化します。これらのインスタンスは、同等の Amazon EC2 インスタンスよりもトレーニングコストを最大 50% 削減できます。データブリックス、リコー、NinjaTech AI、Arcee AI を含む多くのお客様が、Trn1 インスタンスのパフォーマンスとコスト面でのメリットを実感しています。

AWS Trainium2 チップは、第 1 世代トレイニウムの最大 4 倍のパフォーマンスを発揮します。Trainium2 ベースの Amazon EC2 Trn2 インスタンスは、生成 AI 専用に構築されています。これは、数千億から数兆を超えるパラメータを持つモデルのトレーニングとデプロイのための最も強力な EC2 インスタンスです。Trn2 インスタンスは、現世代の GPU ベースの EC2 P5e および P5en インスタンスよりも 30%~40% 優れた料金パフォーマンスを実現します。Trn2 インスタンスには、当社独自のチップ間インターコネクトである NeuronLink で相互接続された 16 個の Trainium2 チップが搭載されています。Trn2 インスタンスを使用して、大規模言語モデル (LLM)、マルチモーダルモデル、拡散トランスフォーマーなどの最も要求の厳しいモデルのトレーニングとデプロイを行い、次世代の幅広い生成 AI アプリケーションセットを構築できます。Trn2 UltraServers は、まったく新しい EC2 製品 (プレビュー版で利用可能) で、スタンドアロン EC2 インスタンスが提供できるよりも多くのメモリとメモリ帯域幅を必要とする大規模モデルに最適です。UltraServer の設計では、NeuronLink を使用して 4 つの Trn2 インスタンスにかけて 64 個の Trainium2 チップを 1 つのノードに接続し、新しい機能を活用できるようにしています。推論に関しては、UltraServers は業界トップクラスの応答時間を実現し、最高のリアルタイム体験を実現するのに役立ちます。トレーニングに関しては、UltraServers はスタンドアロンインスタンスと比較して、モデルの並列処理のための集団通信が高速になるため、モデルトレーニングの速度と効率が向上します。

PyTorch や JAX などの一般的な機械学習 (ML) フレームワークのネイティブサポートを利用して、Trn2 および Trn1 インスタンスでモデルのトレーニングとデプロイを開始できます。

利点

Trn2 UltraServer とインスタンスは、Amazon EC2 で生成 AI トレーニングと推論において画期的なパフォーマンスを発揮します。各 Trn2 UltraServer には、当社独自のチップ間相互接続である NeuronLink で相互接続された 64 個の Trainium2 チップが搭載されており、最大 83.2 ペタフロップスの FP8 コンピューティング、185 テラバイト/秒 (TBps) のメモリ帯域幅を備えた 6 TB の HBM3、および 12.8 テラビット/秒 (Tbps) の Elastic Fabric Adapter (EFA) ネットワーキングを実現します。各 Trn2 インスタンスには、NeuronLink で接続された 16 個の Trainium2 チップが搭載されており、最大 20.8 ペタフロップスの FP8 コンピューティング、46 TBps のメモリ帯域幅を備えた 1.5 TB の HBM3、および 3.2 Tbps の EFA ネットワーキングを実現します。Trn1 インスタンスには、最大 16 個の Trainium チップが搭載されており、最大 3 ペタフロップスの FP8 コンピューティング、9.8 TBps のメモリ帯域幅を備えた 512 GB の HBM、および最大 1.6 Tbps の EFA ネットワーキングを実現します。

AWS Neuron SDK は、Trn2 インスタンスと Trn1 インスタンスから最大限のパフォーマンスを引き出すのに役立つため、モデルの構築とデプロイに集中し、市場投入までの時間を短縮できます。AWS Neuron は、JAX、PyTorch、および Hugging Face、PyTorch Lightning、NeMo などの重要なライブラリとネイティブに統合されています。AWS Neuron は Hugging Face モデルハブで 100,000 以上のモデルをサポートしています。これには、Meta の Llama ファミリーモデルや Stable Diffusion XL などの一般的なモデルが含まれます。プロファイリングとデバッグのための深いインサイトを提供しながら、すぐに分散型トレーニングと推論用にモデルを最適化します。AWS Neuron は、Amazon SageMaker、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Container Service (Amazon ECS)、AWS ParallelCluster、AWS Batch などのサービスのほか、Ray (Anyscale)、Domino Data Lab、Datadog などのサードパーティーサービスと統合されています。

精度の目標を達成しながら高いパフォーマンスを実現するために、Trainium チップは FP32、TF32、BF16、FP16、および新しい設定可能な FP8 (cFP8) データタイプ向けに最適化されています。生成 AI における急速なイノベーションをサポートするために、Trainium2 には 4 倍の稀薄性 (16:4)、マイクロスケーリング、確率的四捨五入、専用のコレクティブエンジンなどのハードウェア最適化機能が搭載されています。

Neuron Kernel Interface (NKI) を使用すると、Triton のようなインターフェイスを備えた Python ベースの環境を使用して命令セットアーキテクチャ (ISA) に直接アクセスできるため、既存の手法よりも優れた新しいモデルアーキテクチャや高度に最適化されたコンピューティングカーネルを革新できます。

Trn2 インスタンスは、Trn1 インスタンスよりも 3 倍エネルギー効率が高くなるように設計されています。Trn1 インスタンスは、同等のアクセラレーテッドコンピューティング EC2 インスタンスよりもエネルギー効率が最大 25% 高くなっています。これらのインスタンスは、超大規模モデルをトレーニングする際に、持続可能性の目標を達成するのに役立ちます。

動画

Amazon の生成 AI インフラストラクチャの舞台裏を見てみましょう
AWS Trainium で DL を加速し、イノベーションを加速しましょう
AWS Trainium を搭載した Amazon EC2 Trn1 インスタンスの紹介