AWS Trainium

비용을 절감하면서 딥 러닝 및 생성형 AI 훈련을 위한 고성능 제공

Trainium을 선택해야 하는 이유

AWS Trainium 칩은 비용을 절감하면서도 고성능을 제공하기 위해 AWS가 AI 훈련 및 추론용으로 특별히 구축한 AI 칩 제품군입니다.

1세대 AWS Trainium 칩은 동급 Amazon EC2 인스턴스보다 훈련 비용이 최대 50% 저렴한 Amazon Elastic Compute Cloud(Amazon EC2) Trn1 인스턴스를 구동합니다. Databricks, Ricoh, NinjaTech AI, Arcee AI를 비롯한 많은 고객이 Trn1 인스턴스의 성능 및 비용 이점을 실현하고 있습니다.

AWS Trainium2 칩은 1세대 Trainium보다 최대 4배 높은 성능을 제공합니다. Trainium2 기반 Amazon EC2 Trn2 인스턴스는 생성형 AI용으로 특별히 구축되었으며, 수천억에서 조 단위 이상의 파라미터로 모델을 훈련하고 배포하는 데 가장 강력한 EC2 인스턴스입니다. Trn2 인스턴스는 현재 세대의 GPU 기반 EC2 P5e 및 P5en 인스턴스보다 30%~40% 우수한 가격 대비 성능을 제공합니다. Trn2 인스턴스는 AWS의 독자적인 칩 간 상호 연결인 NeuronLink로 상호 연결된 16개의 Trainium2 칩을 탑재합니다. Trn2 인스턴스를 사용하여 대규모 언어 모델(LLM), 멀티모달 모델, 확산 트랜스포머 등 가장 까다로운 모델을 훈련 및 배포하여 광범위한 차세대 생성형 AI 애플리케이션을 구축할 수 있습니다. Trn2 UltraServer는 완전히 새로운 EC2 제품(평가판으로 제공)으로, 독립 실행형 EC2 인스턴스보다 많은 메모리 및 메모리 대역폭이 필요한 최대 규모의 모델에 적합합니다. UltraServer 설계는 NeuronLink를 사용하여 4개의 Trn2 인스턴스에 걸쳐 64개의 Trainium2 칩을 단일 노드에 연결하여 새로운 처리 능력을 제공합니다. 추론의 경우, UltraServer는 업계 최고의 응답 시간을 제공하여 최상의 실시간 경험을 제공합니다. 훈련의 경우, UltraServer는 모델 병렬 처리를 위한 더 빠른 집단 통신을 통해 독립 실행형 인스턴스와 비교해 모델 훈련 속도와 효율성을 향상시킵니다.

PyTorch, JAX와 같은 인기 있는 기계 학습(ML) 프레임워크에 대한 기본 지원을 제공하여 Trn2 및 Trn1 인스턴스에서 모델 훈련 및 배포를 시작할 수 있습니다.

이점

Trn2 UltraServer 및 인스턴스는 Amazon EC2에서 생성형 AI 훈련 및 추론을 위한 혁신적인 성능을 제공합니다. 각 Trn2 UltraServer는 AWS의 독자적인 칩 간 상호 연결인 NeuronLink로 상호 연결된 64개의 Trainium2 칩을 탑재하고 있으며, 최대 83.2페타플롭의 FP8 컴퓨팅, 6TB의 HBM3, 185Tbps의 메모리 대역폭, 12.8Tbps의 Elastic Fabric Adapter(EFA) 네트워킹을 제공합니다. 각 Trn2 인스턴스는 NeuronLink로 연결된 16개의 Trainium2 칩을 탑재하고 있으며, 최대 20.8페타플롭의 FP8 컴퓨팅, 1.5TB의 HBM3, 46Tbps의 메모리 대역폭, 3.2Tbps의 EFA 네트워킹을 제공합니다. Trn1 인스턴스는 최대 16개의 Trainium 칩을 탑재하고 있으며, 최대 3페타플롭의 FP8 컴퓨팅, 512GB HBM, 9.8Tbps의 메모리 대역폭, 최대 1.6Tbps의 EFA 네트워킹을 제공합니다.

AWS Neuron SDK를 사용하면 Trn2 및 Trn1 인스턴스에서 최대 성능을 추출할 수 있으므로 모델을 구축 및 배포하고 출시 시간을 단축하는 데 집중할 수 있습니다. AWS Neuron은 JAX, PyTorch 그리고 Hugging Face, PyTorch Lightning, NeMo 같은 필수 라이브러리와 기본적으로 통합됩니다. AWS Neuron은 Hugging Face 모델 허브에서 Meta의 Llama 모델 제품군, Stable Diffusion XL과 같은 인기 모델을 비롯해 100,000개 이상의 모델을 지원합니다. 분산 훈련 및 추론을 위해 즉시 모델을 최적화하는 동시에 프로파일링 및 디버깅에 대한 심층적인 인사이트를 제공합니다. AWS Neuron은 Amazon SageMaker, Amazon Elastic Kubernetes Service(Amazon EKS), Amazon Elastic Container Service(Amazon ECS), AWS ParallelCluster, AWS Batch 등의 서비스는 물론 Ray (Anyscale), Domino Data Lab, Datadog과 같은 서드 파티 서비스와 통합됩니다.

정확도 목표를 달성하면서 고성능을 제공하기 위해, Trainium 칩은 FP32, TF32, BF16, FP16 및 새로운 구성 가능한 FP8(cFP8) 데이터 유형에 최적화되어 있습니다. 생성형 AI의 빠른 혁신 속도를 지원하기 위해 Trainium2는 4배 희소성(16:4), 마이크로 스케일링, 확률 반올림, 전용 집합 엔진을 위한 하드웨어 최적화 기능을 제공합니다.

Neuron Kernel Interface(NKI)를 사용하면 Triton과 유사한 인터페이스를 갖춘 Python 기반 환경을 사용하여 명령어 세트 아키텍처(ISA)에 직접 액세스할 수 있으므로 기존 기술을 능가하는 새로운 모델 아키텍처와 고도로 최적화된 컴퓨팅 커널로 혁신할 수 있습니다.

Trn2 인스턴스는 Trn1 인스턴스보다 에너지 효율이 3배 더 높도록 설계되었습니다. Trn1 인스턴스는 동급 가속 컴퓨팅 EC2 인스턴스보다 에너지 효율이 최대 25% 더 높습니다. 이 인스턴스는 초대형 모델을 훈련할 때 지속 가능성 목표를 달성하는 데 도움이 됩니다.

동영상

Behind the scenes look at generative AI infrastructure at Amazon(Amazon의 생성형 AI 인프라에 대한 비하인드 스토리)
Accelerate DL and innovate faster with AWS Trainium(AWS Trainium으로 딥 러닝을 가속화하고 더 빠르게 혁신)
Introducing Amazon EC2 Trn1 instances powered by AWS Trainium(AWS Trainium으로 구동되는 Amazon EC2 Trn1 인스턴스 소개)