AWS Inferentia

Dapatkan performa tinggi dengan biaya terendah di Amazon EC2 untuk inferensi AI generatif dan deep learning

Mengapa Inferentia?

Chip AWS Inferentia didesain oleh AWS untuk memberikan performa tinggi dengan biaya terendah di Amazon EC2 untuk aplikasi inferensi deep learning (DL) dan AI generatif Anda. 

Chip AWS Inferentia generasi pertama mendukung instans Inf1 Amazon Elastic Compute Cloud (Amazon EC2), yang menghasilkan throughput hingga 2,3x lebih tinggi dan biaya per inferensi hingga 70% lebih rendah dibandingkan instans Amazon EC2 yang sebanding. Banyak pelanggan, termasuk Finch AI, Sprinklr, Money Forward, dan Amazon Alexa, telah mengadopsi instans Inf1 serta mendapatkan keuntungannya dari sisi performa dan biaya.

Chip AWS Inferentia2 memberikan throughput hingga 4x lebih tinggi dan latensi hingga 10x lebih rendah dibandingkan Inferentia. Instans Inf2 Amazon EC2 berbasis Inferentia2 dioptimalkan untuk melakukan deployment model yang semakin kompleks, seperti model bahasa besar (LLM) dan model difusi laten, dalam skala besar. Instans Inf2 merupakan instans pertama yang dioptimalkan untuk inferensi di Amazon EC2 untuk mendukung inferensi penambahan skala terdistribusi dengan konektivitas berkecepatan sangat tinggi di antara chip. Banyak pelanggan, termasuk Leonardo.ai, Deutsche Telekom, serta Qualtrics telah mengadopsi instans Inf2 untuk aplikasi DL dan AI generatif mereka. 

SDK AWS Neuron membantu developer melakukan deployment model pada chip AWS Inferentia (dan melatihnya pada chip AWS Trainium). SDK AWS Neuron berintegrasi secara native dengan kerangka kerja yang populer, seperti PyTorch dan TensorFlow, sehingga Anda dapat terus menggunakan kode dan alur kerja yang ada serta menjalankannya di chip Inferentia.

Manfaat AWS Inferentia

Setiap chip Inferentia generasi pertama memiliki empat NeuronCores generasi pertama, dan setiap instans Inf1 EC2 memiliki hingga 16 chip Inferentia. Setiap chip Inferentia2 memiliki dua NeuronCores generasi kedua, dan setiap instans Inf2 EC2 memiliki hingga 12 chip Inferentia2. Setiap chip Inferentia2 mendukung hingga 190 tera operasi floating per detik (TFLOPS) performa FP16. Inferentia generasi pertama memiliki 8 GB memori DDR4 per chip dan dilengkapi dengan memori dalam chip yang berukuran besar. Inferentia2 menawarkan 32 GB HBM per chip, yang meningkatkan total memori 4x lebih besar dan bandwidth memori 10x lebih besar dibandingkan Inferentia.

AWS Neuron SDK secara native berintegrasi dengan kerangka kerja ML populer, seperti PyTorch dan TensorFlow. Dengan AWS Neuron, Anda dapat menggunakan kerangka kerja ini untuk melakukan deployment model DL secara optimal pada kedua chip AWS Inferentia, dan Neuron dirancang untuk meminimalkan perubahan kode serta keterkaitan dengan solusi khusus vendor. Neuron membantu Anda menjalankan aplikasi inferensi untuk pemrosesan/pemahaman bahasa alami (NLP), terjemahan bahasa, peringkasan teks, pembuatan video dan gambar, pengenalan ucapan, personalisasi, deteksi penipuan, serta banyak lagi di chip Inferentia.

Inferentia generasi pertama mendukung tipe data FP16, BF16, dan INT8. Inferentia2 memberikan dukungan tambahan untuk tipe data FP32, TF32, dan FP8 baru yang dapat dikonfigurasi (cFP8) agar developer lebih fleksibel dalam mengoptimalkan performa dan akurasi. AWS Neuron mengambil model FP32 yang memiliki presisi tinggi dan secara otomatis mengubahnya menjadi tipe data dengan presisi lebih rendah sambil mengoptimalkan akurasi dan performa. Autocasting mengurangi waktu masuk pasar dengan menghapus kebutuhan untuk pelatihan ulang presisi rendah.

Inferentia2 menambahkan optimisasi perangkat keras untuk ukuran input yang dinamis dan operator kustom yang ditulis dalam C++. Inferentia2 juga mendukung pembulatan stokastik, suatu cara pembulatan secara probabilistik yang memungkinkan performa tinggi dan akurasi yang lebih tinggi dibandingkan mode pembulatan yang lama.

Instans Inf2 menawarkan performa/watt hingga 50% lebih baik daripada instans Amazon EC2 yang sebanding karena instans tersebut dan chip Inferentia2 yang mendasarinya dibuat secara khusus untuk menjalankan model DL dalam skala besar. Instans Inf2 membantu Anda mencapai tujuan keberlanjutan saat melakukan deployment model yang sangat besar.

Video

Tayangan di balik layar Infrastruktur AI Generatif di Amazon
Memperkenalkan instans Inf2 Amazon EC2 yang ditenagai oleh AWS Inferentia2
Cara empat pelanggan AWS mengurangi biaya ML dan mendorong inovasi dengan AWS Inferentia