Mengapa Inferentia?
Chip AWS Inferentia didesain oleh AWS untuk memberikan performa tinggi dengan biaya terendah di Amazon EC2 untuk aplikasi inferensi deep learning (DL) dan AI generatif Anda.
Chip AWS Inferentia generasi pertama mendukung instans Inf1 Amazon Elastic Compute Cloud (Amazon EC2), yang menghasilkan throughput hingga 2,3x lebih tinggi dan biaya per inferensi hingga 70% lebih rendah dibandingkan instans Amazon EC2 yang sebanding. Banyak pelanggan, termasuk Finch AI, Sprinklr, Money Forward, dan Amazon Alexa, telah mengadopsi instans Inf1 serta mendapatkan keuntungannya dari sisi performa dan biaya.
Chip AWS Inferentia2 memberikan throughput hingga 4x lebih tinggi dan latensi hingga 10x lebih rendah dibandingkan Inferentia. Instans Inf2 Amazon EC2 berbasis Inferentia2 dioptimalkan untuk melakukan deployment model yang semakin kompleks, seperti model bahasa besar (LLM) dan model difusi laten, dalam skala besar. Instans Inf2 merupakan instans pertama yang dioptimalkan untuk inferensi di Amazon EC2 untuk mendukung inferensi penambahan skala terdistribusi dengan konektivitas berkecepatan sangat tinggi di antara chip. Banyak pelanggan, termasuk Leonardo.ai, Deutsche Telekom, serta Qualtrics telah mengadopsi instans Inf2 untuk aplikasi DL dan AI generatif mereka.
SDK AWS Neuron membantu developer melakukan deployment model pada chip AWS Inferentia (dan melatihnya pada chip AWS Trainium). SDK AWS Neuron berintegrasi secara native dengan kerangka kerja yang populer, seperti PyTorch dan TensorFlow, sehingga Anda dapat terus menggunakan kode dan alur kerja yang ada serta menjalankannya di chip Inferentia.