為什麼選擇 Trainium?
AWS Trainium 晶片是 AWS 專為 AI 訓練和推論而建置的 AI 晶片系列,旨在於提供高效能的同時降低成本。
第一代 AWS Trainium 晶片為 Amazon Elastic Compute Cloud (Amazon EC2) Trn1 執行個體提供支援,其訓練成本比同類 Amazon EC2 執行個體降低高達 50%。許多客戶,包括 Databricks、Ricoh、NinjaTech AI 和 Arcee AI,正在實現 Trn1 執行個體的效能和成本效益。
AWS Trainium2 晶片的效能比第一代 Trainium 提升高達四倍。以 Trainium2 為基礎的 Amazon EC2 Trn2 執行個體專為生成式 AI 而建置,是用於訓練和部署具有數千億到數萬億以上參數的模型的最強大 EC2 執行個體。Trn2 執行個體的價格效能比目前一代 GPU 型 EC2 P5e 和 P5en 執行個體更好 30% 至 40%。Trn2 執行個體配備 16 個 Trainium2 晶片,這些晶片透過 NeuronLink (我們專有的晶片間互連) 實現互連。您可以使用 Trn2 執行個體來訓練和部署要求最高的模型 (包括大型語言模型 (LLM)、多模態模型和擴散變壓器),以建置一組廣泛的下一代生成式 AI 應用程式。Trn2 UltraServer 是全新的 EC2 產品 (預覽版),非常適合需要比獨立 EC2 執行個體所能提供更多記憶體和記憶體頻寬的最大型模型。UltraServer 設計使用 NeuronLink 將四個 Trn2 執行個體中的 64 個 Trainium2 晶片連線至一個節點中,從而解鎖全新功能。對於推論而言,UltraServer 可協助提供業界領先的回應時間,進而創造出最佳的即時體驗。對於訓練而言,與獨立執行個體相比,UltraServers 會透過更快的協同通訊來提高模型平行性的模型訓練速度和效率。
您可以開始在 Trn2 和 Trn1 執行個體上訓練和部署模型,其中原生支援 PyTorch 和 JAX 等熱門機器學習 (ML) 架構。