¿Qué es SageMaker HyperPod?
Amazon SageMaker HyperPod elimina el trabajo pesado e indiferenciado que implica la creación de modelos de IA generativa. Ayuda a escalar rápidamente las tareas de desarrollo de modelos, como el entrenamiento, el refinamiento o la inferencia, en un clúster de cientos o miles de aceleradores de IA. SageMaker HyperPod permite la gobernanza centralizada de todas las tareas de desarrollo de modelos, lo que le proporciona una visibilidad y un control totales sobre cómo se priorizan las diferentes tareas y cómo se asignan los recursos de computación a cada tarea. De esta manera, puede maximizar la utilización de GPU y AWS Trainium de su clúster y acelerar la innovación.
Con SageMaker HyperPod, puede distribuir y paralelizar de manera eficiente la carga de trabajo de entrenamiento en todos los aceleradores. SageMaker HyperPod aplica automáticamente las mejores configuraciones de entrenamiento para los modelos populares disponibles públicamente, para ayudarlo a lograr un rendimiento óptimo con rapidez. También supervisa de forma continua su clúster para detectar cualquier falla en la infraestructura, repara automáticamente el problema y recupera sus cargas de trabajo sin intervención humana, lo cual lo ayuda a ahorrar hasta un 40 % de tiempo de entrenamiento.
Beneficios de SageMaker HyperPod
Presentamos la gobernanza de tareas en SageMaker HyperPod
Maximice la utilización y obtenga visibilidad total de los recursos de computación, a la vez que reduce los costos.