Distillazione di modelli di Amazon Bedrock

Panoramica

Con Amazon Bedrock Model Distillation, puoi utilizzare modelli più piccoli, più veloci e più convenienti che offrono una precisione specifica per i casi d'uso paragonabile a quella dei modelli più avanzati di Amazon Bedrock. I modelli distillati in Amazon Bedrock sono fino al 500% più veloci e fino al 75% meno costosi rispetto a quelli originali, con una perdita di precisione inferiore al 2% per casi d'uso come RAG.

Utilizza modelli più piccoli e più convenienti

Con Model Distillation, i clienti possono selezionare un modello “insegnante” di cui desiderano ottenere la precisione per il loro caso d'uso e quindi selezionare un modello “studente” che desiderano perfezionare. I clienti forniscono anche prompt per il loro caso d'uso. Model Distillation automatizza il processo di generazione di risposte dell'insegnante e l'utilizzo di tali risposte per ottimizzare il modello studente. I modelli studente possono quindi comportarsi come modelli insegnante con una precisione simile a costi ridotti.

Schermata dell'interfaccia utente

Massimizza le prestazioni dei modelli distillati con la sintesi dei dati proprietaria

L'ottimizzazione di un modello più piccolo ed economico per ottenere una precisione simile a un modello più grande per il tuo caso d'uso specifico è un processo iterativo. Per eliminare parte dell'onere dell'iterazione necessario per ottenere risultati migliori, Model Distillation può scegliere di applicare diversi metodi di sintesi dei dati più adatti al caso d'uso. Ad esempio, Bedrock può espandere il set di dati di addestramento generando prompt simili oppure può generare risposte sintetiche di alta qualità utilizzando le coppie prompt-risposta fornite dal cliente come esempi essenziali.

Schermata dell'interfaccia utente

Riduci i costi trasferendo facilmente i tuoi dati di produzione

Con l'ottimizzazione tradizionale, i clienti sono tenuti a creare prompt e risposte. Con Model Distillation, i clienti devono solo fornire prompt, che Model Distillation utilizza poi per generare risposte sintetiche e eseguire il fine-tuning dei modelli degli studenti. I clienti possono indirizzarci ai loro log di invocazione e anche filtrare i log in base a determinati campi di metadati. La distillazione dei modelli può leggere sia i prompt che le risposte tramite i log delle invocazioni e saltare la generazione di risposte sintetiche nel flusso di lavoro di Model Distillation, riducendo così i costi, non dovendo generare nuovamente le risposte dal modello insegnante. Inizia partendo dagli esempi di codice.

Schermata dell'interfaccia utente