Amazon SageMaker HyperPod

Escale e acelere o desenvolvimento de modelos de IA generativa em milhares de aceleradores de IA

O que é o SageMaker HyperPod?

O Amazon SageMaker HyperPod remove o trabalho pesado indiferenciado envolvido na criação de modelos de IA generativa. Ele ajuda a escalar rapidamente as tarefas de desenvolvimento de modelos, como treinamento, ajuste fino ou inferência, em um cluster de centenas ou milhares de aceleradores de IA. O SageMaker HyperPod permite a governança centralizada em todas as suas tarefas de desenvolvimento de modelos, oferecendo total visibilidade e controle sobre como as diferentes tarefas são priorizadas e como os recursos computacionais são alocados para cada tarefa, ajudando você a maximizar a utilização do cluster pela GPU e pelo AWS Trainium e acelerar a inovação.

Com o SageMaker HyperPod, você pode distribuir e paralelizar com eficiência seu workload de treinamento em todos os aceleradores. O SageMaker HyperPod aplica automaticamente as melhores configurações de treinamento para modelos populares disponíveis publicamente, para ajudar você a alcançar rapidamente o desempenho ideal. Ele também monitora continuamente seu cluster em busca de falhas de infraestrutura, repara automaticamente o problema e recupera seus workloads sem intervenção humana — tudo isso ajuda a economizar até 40% do tempo de treinamento.

Benefícios do SageMaker HyperPod

Reduza os custos com a governança centralizada de todas as tarefas de desenvolvimento de modelos

A inovação de governança de tarefas do SageMaker HyperPod fornece total visibilidade e controle sobre a destinação de recursos computacionais em tarefas de desenvolvimento de modelos de IA generativa, como treinamento e inferência. O SageMaker HyperPod gerencia automaticamente as filas de tarefas, garantindo que as tarefas mais urgentes sejam priorizadas e concluídas dentro do prazo e do orçamento, enquanto usa de forma mais eficiente os recursos computacionais para reduzir os custos de desenvolvimento de modelos em até 40%.

Obtenha desempenho de última geração com receitas e ferramentas

Com as receitas do SageMaker HyperPod, cientistas de dados e desenvolvedores de todos os conjuntos de habilidades se beneficiam do desempenho de última geração e, ao mesmo tempo, começam a treinar e ajustar modelos de IA generativa disponíveis publicamente em minutos. O SageMaker HyperPod também fornece ferramentas integradas de experimentação e observabilidade para ajudar a aprimorar o desempenho do modelo.

Escale e paralelize com eficiência o treinamento de modelos em milhares de aceleradores de IA

O SageMaker HyperPod permite que divida automaticamente os modelos e conjuntos de dados de treinamento em instâncias de cluster da AWS para ajudar a escalar com eficiência as workloads de treinamento. Ele ajuda a otimizar o trabalho de treinamento para a infraestrutura de rede e a topologia de clusters da AWS. Também simplifica a verificação do modelo por meio das receitas, ao otimizar a frequência de salvamento dos pontos de verificação, garantindo o mínimo de sobrecarga durante o treinamento.

Elimine as interrupções com um ambiente de desenvolvimento resiliente

O SageMaker HyperPod fornece um ambiente resiliente para o desenvolvimento de modelos ao detectar, diagnosticar e se recuperar automaticamente de falhas de infraestrutura, permitindo que você execute continuamente workloads de desenvolvimento de modelos por meses sem interrupções.