Amazon SageMaker HyperPod

Reduza em até 40% o tempo necessário para treinar modelos de base e escale com eficiência em mais de mil aceleradores de IA

O que é o SageMaker HyperPod?

O Amazon SageMaker HyperPod remove o trabalho árduo e não especializado relacionado ao desenvolvimento e à otimização da infraestrutura de machine learning (ML). Ele é configurado previamente com as bibliotecas de treinamento distribuído do SageMaker, que dividem automaticamente as workloads de treinamento entre mais de mil aceleradores de IA, permitindo que as workloads sejam processadas em paralelo para obtenção de uma performance aprimorada do modelo. O SageMaker HyperPod garante que seu treinamento de FM não seja interrompido ao salvar pontos de verificação periodicamente. Ele detecta automaticamente falhas de hardware quando ocorrem, repara ou substitui a instância com problema, e retoma o treinamento a partir do último ponto de verificação salvo, removendo a necessidade de você gerenciar manualmente esse processo. O ambiente resiliente permite o treinamento contínuo de modelos por semanas ou meses em um ambiente distribuído, sem interrupções, economizando até 40% do tempo de treinamento. Além disso, o SageMaker HyperPod é altamente personalizável, permitindo a execução e a escalabilidade eficientes das workloads de FM, além de facilitar o compartilhamento da capacidade de computação entre diferentes workloads, desde o treinamento em grande escala até a inferência.

Benefícios do SageMaker HyperPod

O Amazon SageMaker HyperPod é pré-configurado com bibliotecas de treinamento distribuídas do Amazon SageMaker, permitindo que você divida automaticamente seus modelos e conjuntos de dados de treinamento em instâncias de cluster da AWS para ajudá-lo a escalar workloads de treinamento com eficiência.
As bibliotecas de treinamento distribuídas do Amazon SageMaker otimizam seu trabalho de treinamento para infraestrutura de rede e topologia de cluster da AWS por meio de duas técnicas: paralelismo de dados e paralelismo de modelos. O paralelismo de modelos divide modelos grandes demais para caber em uma única GPU em partes menores antes de distribuí-los em várias GPUs para serem treinados. O paralelismo de dados divide grandes conjuntos de dados para treinar simultaneamente a fim de melhorar a velocidade do treinamento.
O SageMaker HyperPod permite um ambiente de treinamento mais resiliente ao detectar, diagnosticar e se recuperar automaticamente de falhas, permitindo que você treine continuamente os FMs por meses sem interrupções.

Verificação e reparo automáticos da integridade do cluster

Se alguma instância apresentar defeito durante uma workload de treinamento, o SageMaker HyperPod detecta e troca automaticamente nós defeituosos por outros saudáveis. Para detectar hardware defeituoso, o SageMaker HyperPod executa regularmente uma série de verificações de integridade da GPU e da rede. 

Bibliotecas de treinamento distribuído de alta performance

Com as bibliotecas de treinamento distribuído do SageMaker, é possível executar trabalhos de treinamento em aprendizado profundo altamente escaláveis e econômicos ao usar o paralelismo de dados e o paralelismo de modelos personalizados. O SageMaker HyperPod é pré-configurado com bibliotecas distribuídas do SageMaker. Com apenas algumas linhas de código, você pode habilitar o paralelismo de dados em seus scripts de treinamento. O SageMaker HyperPod agiliza a execução de treinamentos distribuídos ao dividir automaticamente seus modelos e conjuntos de dados de treinamento em instâncias de GPU da AWS.

Saiba mais

Observabilidade avançada para performance aprimorada

É possível usar as ferramentas de ML integradas no SageMaker HyperPod para aprimorar a performance dos modelos. Por exemplo, o Amazon SageMaker com TensorBoard ajuda a reduzir o tempo de desenvolvimento ao possibilitar a visualização da arquitetura do modelo para identificar e corrigir problemas de convergência, e o Amazon SageMaker Debugger captura métricas e perfis de trabalhos de treinamento em tempo real. A integração com o Amazon CloudWatch Container Insights disponibiliza informações mais detalhadas sobre a performance, a integridade e a utilização dos clusters. 

Saiba mais »

Escalabilidade e otimização da utilização de recursos

É possível gerenciar e operar clusters do SageMaker HyperPod com uma experiência administrativa consistente baseada em Kubernetes. Isso permite que você execute e escale de forma eficiente as workloads de FM, desde o treinamento e a otimização até a experimentação e a inferência. Você pode compartilhar a capacidade de computação e alternar entre o Slurm e o EKS para diferentes tipos de workloads com facilidade.

Programação e orquestração de workloads

A interface de usuário do SageMaker HyperPod é altamente personalizável usando o Slurm ou o Amazon EKS. Você pode selecionar e instalar qualquer estrutura ou ferramenta necessária. Todos os clusters são provisionados com o tipo e o número de instâncias que você escolher, e são retidos para uso em todas as workloads.