Amazon Bedrock Model Distillation
Visão geral
Com o Amazon Bedrock Model Distillation, é possível usar modelos menores, mais rápidos e mais econômicos, que fornecem uma precisão específica para cada caso de uso que é comparável aos modelos mais avançados do Amazon Bedrock. No Amazon Bedrock, os modelos destilados fornecem uma performance até 500% mais rápida e reduzem os custos em até 75%, apresentando menos de 2% de perda de precisão em casos de uso como a RAG.
Utilize modelos menores e mais econômicos
Com o Model Distillation, os clientes podem selecionar um modelo primário cuja precisão desejam alcançar para seu caso de uso e, em seguida, escolher um modelo secundário que desejam ajustar. Os clientes também podem fornecer prompts específicos para o seu caso de uso. O Model Distillation automatiza o processo de geração de respostas pelo modelo primário e o uso dessas respostas para ajustar o modelo secundário. Dessa forma, os modelos secundários podem apresentar uma performance semelhante ao dos modelos primários, com precisão comparável e custos mais baixos.
Maximização da performance do modelo destilado por meio da síntese de dados proprietários
O ajuste de um modelo menor e mais econômico para alcançar uma precisão semelhante à de um modelo maior para o seu caso de uso específico é um processo iterativo. Para reduzir parte do trabalho de iteração necessário para alcançar melhores resultados, o Model Distillation pode optar por aplicar diferentes métodos de síntese de dados que sejam mais adequados para o seu caso de uso. Por exemplo, o Bedrock pode ampliar o conjunto de dados de treinamento ao gerar prompts semelhantes ou criar respostas sintéticas de alta qualidade usando pares de prompts e respostas fornecidos pelo cliente como exemplos do modelo ideal.
Redução dos custos ao incorporar os dados de produção de maneira simples
No processo de ajuste tradicional, os clientes são solicitados a criar prompts e respostas. Com o Model Distillation, os clientes precisam fornecer somente os prompts, que são usados pelo Model Distillation para gerar respostas sintéticas e ajustar os modelos secundários. Os clientes podem nos direcionar para seus logs de invocação e também filtrar os logs com base em determinados campos de metadados. Com a destilação de modelos, é possível realizar a leitura tanto dos prompts quanto das respostas por meio dos logs de invocação, eliminando a geração de respostas sintéticas no fluxo de trabalho do Model Distillation, o que contribui para a redução de custos, já que não é necessário gerar novamente as respostas do modelo primário. Comece com exemplos de código.