AWS Trainium

コストを低く抑えながら、深層学習と生成 AI トレーニングのパフォーマンスを高める

Neuron で Trainium の使用を開始

Trainium を利用すべき理由

AWS Trainium チップは、コストを削減しながら高いパフォーマンスを実現するために、AWS が AI トレーニングと推論専用に構築した AI チップのファミリーです。

第 1 世代の AWS Trainium チップは、Amazon Elastic Compute Cloud (Amazon EC2) Trn1 インスタンスを強化します。これらのインスタンスは、同等の Amazon EC2 インスタンスよりもトレーニングコストを最大 50% 削減できます。データブリックス、リコー、NinjaTech AI、Arcee AI を含む多くのお客様が、Trn1 インスタンスのパフォーマンスとコスト面でのメリットを実感しています。

AWS Trainium2 チップは、第 1 世代トレイニウムの最大 4 倍のパフォーマンスを発揮します。Trainium2 ベースの Amazon EC2 Trn2 インスタンスは、生成 AI 専用に構築されています。これは、数千億から数兆を超えるパラメータを持つモデルのトレーニングとデプロイのための最も強力な EC2 インスタンスです。Trn2 インスタンスは、現世代の GPU ベースの EC2 P5e および P5en インスタンスよりも 30～40% 優れた料金パフォーマンスを実現します。Trn2 インスタンスには、当社独自のチップ間インターコネクトである NeuronLink で相互接続された 16 個の Trainium2 チップが搭載されています。Trn2 インスタンスを使用して、大規模言語モデル (LLM)、マルチモーダルモデル、拡散トランスフォーマーなどの最も要求の厳しいモデルのトレーニングとデプロイを行い、次世代の幅広い生成 AI アプリケーションセットを構築できます。Trn2 UltraServers は、まったく新しい EC2 製品 (プレビュー版で利用可能) で、スタンドアロン EC2 インスタンスが提供できるよりも多くのメモリとメモリ帯域幅を必要とする大規模モデルに最適です。UltraServer の設計では、NeuronLink を使用して 4 つの Trn2 インスタンスにかけて 64 個の Trainium2 チップを 1 つのノードに接続し、新しい機能を活用できるようにしています。推論に関しては、UltraServers は業界トップクラスの応答時間を実現し、最高のリアルタイム体験を実現するのに役立ちます。トレーニングに関しては、UltraServers はスタンドアロンインスタンスと比較して、モデルの並列処理のための集団通信が高速になるため、モデルトレーニングの速度と効率が向上します。

PyTorch や JAX などの一般的な機械学習 (ML) フレームワークのネイティブサポートを利用して、Trn2 および Trn1 インスタンスでモデルのトレーニングとデプロイを開始できます。

利点

高性能で費用対効果の高い生成 AI

Trn2 UltraServer とインスタンスは、Amazon EC2 で生成 AI トレーニングと推論において画期的なパフォーマンスを発揮します。各 Trn2 UltraServer には、当社独自のチップ間相互接続である NeuronLink で相互接続された 64 個の Trainium2 チップが搭載されており、最大 83.2 ペタフロップスの FP8 コンピューティング、185 テラバイト/秒 (TBps) のメモリ帯域幅を備えた 6 TB の HBM3、および 12.8 テラビット/秒 (Tbps) の Elastic Fabric Adapter (EFA) ネットワーキングを実現します。各 Trn2 インスタンスには、NeuronLink で接続された 16 個の Trainium2 チップが搭載されており、最大 20.8 ペタフロップスの FP8 コンピューティング、46 TBps のメモリ帯域幅を備えた 1.5 TB の HBM3、および 3.2 Tbps の EFA ネットワーキングを実現します。Trn1 インスタンスには、最大 16 個の Trainium チップが搭載されており、最大 3 ペタフロップスの FP8 コンピューティング、9.8 TBps のメモリ帯域幅を備えた 512 GB の HBM、および最大 1.6 Tbps の EFA ネットワーキングを実現します。

機械学習フレームワークとライブラリのネイティブサポート

AWS Neuron SDK は、Trn2 インスタンスと Trn1 インスタンスから最大限のパフォーマンスを引き出すのに役立つため、モデルの構築とデプロイに集中し、市場投入までの時間を短縮できます。AWS Neuron は、JAX、PyTorch、および Hugging Face、PyTorch Lightning、NeMo などの重要なライブラリとネイティブに統合されています。AWS Neuron は Hugging Face モデルハブで 100,000 以上のモデルをサポートしています。これには、Meta の Llama ファミリーモデルや Stable Diffusion XL などの一般的なモデルが含まれます。プロファイリングとデバッグのための深いインサイトを提供しながら、すぐに分散型トレーニングと推論用にモデルを最適化します。AWS Neuron は、Amazon SageMaker、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Container Service (Amazon ECS)、AWS ParallelCluster、AWS Batch などのサービスのほか、Ray (Anyscale)、Domino Data Lab、Datadog などのサードパーティーサービスと統合されています。

最先端の AI 最適化

精度の目標を達成しながら高いパフォーマンスを実現するために、Trainium チップは FP32、TF32、BF16、FP16、および新しい設定可能な FP8 (cFP8) データタイプ向けに最適化されています。生成 AI における急速なイノベーションをサポートするために、Trainium2 には 4 倍の稀薄性 (16:4)、マイクロスケーリング、確率的四捨五入、専用のコレクティブエンジンなどのハードウェア最適化機能が搭載されています。

AI 研究向けに設計

Neuron Kernel Interface (NKI) を使用すると、Triton のようなインターフェイスを備えた Python ベースの環境を使用して命令セットアーキテクチャ (ISA) に直接アクセスできるため、既存の手法よりも優れた新しいモデルアーキテクチャや高度に最適化されたコンピューティングカーネルを革新できます。

持続可能性を考慮した構築

Trn2 インスタンスは、Trn1 インスタンスよりも 3 倍エネルギー効率が高くなるように設計されています。Trn1 インスタンスは、同等のアクセラレーテッドコンピューティング EC2 インスタンスよりもエネルギー効率が最大 25% 高くなっています。これらのインスタンスは、超大規模モデルをトレーニングする際に、持続可能性の目標を達成するのに役立ちます。

動画

AI のパフォーマンス、コスト、スケールを把握する

画期的な AI パフォーマンスを実現する AWS Trainium2

AWS AI チップのお客様事例

リソース

AWS Inferentia と AWS Trainium を用いた、Amazon SageMaker JumpStart によるコスト最適化された Llama 2 モデルのファインチューニングとデプロイ

ブログを読む

Train Llama2 with AWS Trainium on Amazon Elastic Kubernetes Service (Amazon EKS)

ブログを読む

Frugality meets Accuracy: Cost-efficient training of GPT NeoX and Pythia models with AWS Trainium

ブログを読む

How Amazon Search M5 saved 30% for in large language model (LLM) training costs by using AWS Trainium

ブログを読む

Fast and cost-effective LLaMA 2 fine-tuning with AWS Trainium

ブログを読む

Scale your ML workloads on Amazon ECS powered by AWS Trainium instances

ブログを読む

Additional resources

AWS Neuron を使用して、TensorFlow、PyTorch、または MXNet 内から AWS Trainium の使用を開始する

詳細はこちら

Additional resources

AWS Neuron の機能のロードマップ

詳細はこちら

Additional resources

これらの簡単なチュートリアルを使用して、AWS Trainium でトレーニングを開始しましょう

詳細はこちら

Trainium の使用を開始する

コンソールで構築を開始する

サインイン

トレーニングサンプルとチュートリアル (Trn1 および Trn1n)

詳細はこちら