Warum Inferentia?
AWS-Inferentia-Chips wurden von AWS so entwickelt, dass sie in Amazon EC2 eine hohe Leistung zu den niedrigsten Kosten für Ihre Inferenzanwendungen von Deep Learning (DL) und generative KI bieten.
Der AWS-Inferentia-Chip der ersten Generation treibt Inf1-Instances von Amazon Elastic Compute Cloud (Amazon EC2) an, die einen bis zu 2,3-fach höheren Durchsatz und bis zu 70 % niedrigere Kosten pro Inferenz als vergleichbare Amazon-EC2-Instances bieten. Viele Kunden, darunter Finch AI, Sprinklr, Money Forward und Amazon Alexa, haben Inf1-Instances eingeführt und die Leistungs- und Kostenvorteile erkannt.
Der AWS-Inferentia2-Chip bietet einen bis zu 4-mal höheren Durchsatz und eine bis zu 10-mal niedrigere Latenzzeit im Vergleich zu Inferentia. Inferentia2-basierte Amazon-EC2-Inf2-Instances sind für die skalierbare Bereitstellung zunehmend komplexer Modelle wie große Sprachmodelle (LLM) und latenter Diffusionsmodelle optimiert. Inf2-Instances sind die ersten für Inferenzen optimierten Instances in Amazon EC2, die skalierbare verteilte Inferenzen mit Ultra-Hochgeschwindigkeitskonnektivität zwischen Chips unterstützen. Viele Kunden, darunter Leonardo.ai, die Deutsche Telekom und Qualtrics, haben Inf2-Instances für ihre DL- und generativen KI-Anwendungen eingeführt.
AWS Neuron SDK hilft Entwicklern, Modelle auf den AWS-Inferentia-Chips bereitzustellen (und sie auf AWS-Trainium-Chips zu trainieren). AWS Neuron SDK lässt sich nativ in gängige Frameworks wie PyTorch und TensorFlow integrieren, sodass Sie Ihren bestehenden Code und Workflows weiter nutzen und auf Inferentia-Chips ausführen können.