AWS Trainium

在降低成本同時提升深度學習和生成式 AI 訓練的高效能

為什麼選擇 Trainium?

AWS Trainium 晶片是 AWS 專為 AI 訓練和推論而建置的 AI 晶片系列,旨在於提供高效能的同時降低成本。

第一代 AWS Trainium 晶片為 Amazon Elastic Compute Cloud (Amazon EC2) Trn1 執行個體提供支援,其訓練成本比同類 Amazon EC2 執行個體降低高達 50%。許多客戶,包括 Databricks、Ricoh、NinjaTech AI 和 Arcee AI,正在實現 Trn1 執行個體的效能和成本效益。

AWS Trainium2 晶片的效能比第一代 Trainium 提升高達四倍。以 Trainium2 為基礎的 Amazon EC2 Trn2 執行個體專為生成式 AI 而建置,是用於訓練和部署具有數千億到數萬億以上參數的模型的最強大 EC2 執行個體。Trn2 執行個體的價格效能比目前一代 GPU 型 EC2 P5e 和 P5en 執行個體更好 30% 至 40%。Trn2 執行個體配備 16 個 Trainium2 晶片,這些晶片透過 NeuronLink (我們專有的晶片間互連) 實現互連。您可以使用 Trn2 執行個體來訓練和部署要求最高的模型 (包括大型語言模型 (LLM)、多模態模型和擴散變壓器),以建置一組廣泛的下一代生成式 AI 應用程式。Trn2 UltraServer 是全新的 EC2 產品 (預覽版),非常適合需要比獨立 EC2 執行個體所能提供更多記憶體和記憶體頻寬的最大型模型。UltraServer 設計使用 NeuronLink 將四個 Trn2 執行個體中的 64 個 Trainium2 晶片連線至一個節點中,從而解鎖全新功能。對於推論而言,UltraServer 可協助提供業界領先的回應時間,進而創造出最佳的即時體驗。對於訓練而言,與獨立執行個體相比,UltraServers 會透過更快的協同通訊來提高模型平行性的模型訓練速度和效率。

您可以開始在 Trn2 和 Trn1 執行個體上訓練和部署模型,其中原生支援 PyTorch 和 JAX 等熱門機器學習 (ML) 架構。

優勢

在 Amazon EC2 中,Trn2 UltraServer 和執行個體為生成式 AI 訓練和推理提供突破性的效能。每個 Trn2 UltraServer 都有 64 個 Trainium2 晶片,這些晶片透過我們專有的晶片間互連 NeuronLink 實現互連,並提供高達 83.2 PFLOPS 的 FP8 運算能力、6 TB 的 HBM3 和 185 TB/秒 (Tbps) 的記憶體頻寬,以及 12.8 TB/秒 (Tbps) 的 Elastic Fabric Adapter (EFA) 聯網速度。每個 Trn2 執行個體都有 16 個與 NeuronLink 連線的 Trainium2 晶片,可提供高達 20.8 PFLOPS 的 FP8 運算能力、1.5 TB 的 HBM3 和 46 TB/秒 (Tbps) 的記憶體頻寬,以及 3.2 TB/秒 (Tbps) 的 EFA 聯網速度。Trn1 執行個體配備最多 16 個 Trainium 晶片,可提供高達 3 PFLOPS 的 FP8 運算能力、512 GB 的 HBM3 和 9.8 TB/秒 (Tbps) 的記憶體頻寬,以及高達 1.6 TB/秒 (Tbps) 的 EFA 聯網速度。

AWS Neuron SDK 可協助您從 Trn2 和 Trn1 執行個體擷取完整效能,讓您專注於建置和部署模型,同時縮短上市時間。AWS Neuron 與 JAX、PyTorch 以及 Hugging Face、PyTorch Lightning、and NeMo 等基本程式庫原生整合。AWS Neuron 支援 Hugging Face 模型中心上的 100,000 多個模型,其中包括 Meta 的 Llama 模型系列和 Stable Diffusion XL 等流行模型。它可以立即最佳化模型以進行分散式訓練和推論,同時針對分析和偵錯提供深入的洞見。AWS Neuron 與 Amazon SageMaker、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Container Service (Amazon ECS)、AWS ParallelCluster 和 AWS Batch 等服務整合,同時與 Ray (Anyscale)、Domino Data Lab 和 Datadog 等第三方服務整合。

為了在滿足準確度目標的同時提供高效能,Trainium 晶片已針對 FP32、TF32、BF16、FP16 和新的可設定 FP8 (cFP8) 資料類型最佳化。為了支援生成式 AI 的快速創新步伐,Trainium2 針對 4 倍稀疏度 (16:4)、微擴展、隨機舍入和專用集體引擎進行硬體最佳化。

Neuron Kernel Interface (NKI) 支援使用具有類似 Triton 介面的 Python 型環境直接存取指令集架構 (ISA),讓您可以創新設計模型架構和高度最佳化的運算內核,使其效能超越現有技術。

Trn2 執行個體設計為能源效率比 Trn1 執行個體更高三倍。Trn1 執行個體的能源效率比同類加速運算 EC2 執行個體更高 25%。這些執行個體可協助您在訓練超大型模型時達成永續目標。

影片

幕後探究 Amazon 的生成式 AI 基礎設施
使用 AWS Trainium 加速 DL 和加快創新速度
採用 AWS Trainium 技術的 Amazon EC2 Trn1 執行個體簡介