Amazon SageMaker HyperPod

Escale y acelere el desarrollo de los modelos de IA generativa en miles de aceleradores de IA.

¿Qué es SageMaker HyperPod?

Amazon SageMaker HyperPod elimina el trabajo pesado e indiferenciado que implica la creación de modelos de IA generativa. Ayuda a escalar rápidamente las tareas de desarrollo de modelos, como el entrenamiento, el refinamiento o la inferencia, en un clúster de cientos o miles de aceleradores de IA. SageMaker HyperPod permite la gobernanza centralizada de todas las tareas de desarrollo de modelos, lo que le proporciona una visibilidad y un control totales sobre cómo se priorizan las diferentes tareas y cómo se asignan los recursos de computación a cada tarea. De esta manera, puede maximizar la utilización de GPU y AWS Trainium de su clúster y acelerar la innovación.

Con SageMaker HyperPod, puede distribuir y paralelizar de manera eficiente la carga de trabajo de entrenamiento en todos los aceleradores. SageMaker HyperPod aplica automáticamente las mejores configuraciones de entrenamiento para los modelos populares disponibles públicamente, para ayudarlo a lograr un rendimiento óptimo con rapidez. También supervisa de forma continua su clúster para detectar cualquier falla en la infraestructura, repara automáticamente el problema y recupera sus cargas de trabajo sin intervención humana, lo cual lo ayuda a ahorrar hasta un 40 % de tiempo de entrenamiento.

Beneficios de SageMaker HyperPod

La innovación en la gobernanza de tareas de SageMaker HyperPod ofrece una visibilidad y un control completos sobre la asignación de recursos de computación en todas las tareas de desarrollo de modelos de IA generativa, como el entrenamiento y la inferencia. SageMaker HyperPod administra automáticamente las colas de tareas, lo que garantiza que las tareas más fundamentales se prioricen y se completen a tiempo y dentro del presupuesto. Al mismo tiempo, optimiza el uso de los recursos de computación para reducir hasta un 40 % los costos de desarrollo de modelos.
Con las recetas de SageMaker HyperPod, los científicos de datos y los desarrolladores de todos los niveles se benefician de un rendimiento de última generación y, al mismo tiempo, comienzan a entrenar y refinar los modelos de IA generativa disponibles públicamente en minutos. SageMaker HyperPod también ofrece herramientas integradas de experimentación y observabilidad para ayudar a mejorar el rendimiento del modelo.
SageMaker HyperPod permite dividir automáticamente sus modelos y conjuntos de datos de entrenamiento entre las instancias del clúster de AWS, lo que ayuda a escalar las cargas de trabajo de entrenamiento de manera eficiente. Lo ayuda a optimizar su trabajo de entrenamiento para la infraestructura de red y la topología de clústeres de AWS. También optimiza los puntos de control del modelo con recetas mediante la optimización de la frecuencia con la que se guardan los puntos de control, lo que garantiza una sobrecarga mínima durante el entrenamiento.
SageMaker HyperPod ofrece un entorno resiliente para el desarrollo de modelos que detecta y diagnostica fallas en la infraestructura y se recupera de ellas, lo que da lugar a la ejecución continua de las cargas de trabajo del desarrollo de modelos durante meses sin interrupciones.

Presentamos la gobernanza de tareas en SageMaker HyperPod

Maximice la utilización y obtenga visibilidad total de los recursos de computación, a la vez que reduce los costos.

Más información