Amazon SageMaker HyperPod

Skalakan dan percepat pengembangan model AI generatif di ribuan akselerator AI

Apa itu SageMaker HyperPod?

Amazon SageMaker HyperPod menghilangkan pekerjaan berat yang tidak terdiferensiasi yang terlibat dalam pembangunan model AI generatif. Layanan tersebut membantu menskalakan tugas pengembangan model dengan cepat seperti pelatihan, penyempurnaan, atau inferensi di klaster yang terdiri dari ratusan atau ribuan akselerator AI. SageMaker HyperPod memungkinkan tata kelola terpusat di semua tugas pengembangan model Anda, yang memberi Anda visibilitas dan kontrol penuh atas bagaimana tugas yang berbeda diprioritaskan, dan bagaimana sumber daya komputasi dialokasikan untuk setiap tugas, sehingga membantu Anda memaksimalkan pemanfaatan GPU dan AWS Trainium dari klaster serta mempercepat inovasi.

Dengan SageMaker HyperPod, Anda dapat mendistribusikan dan memparalelkan beban kerja pelatihan secara efisien di semua akselerator. SageMaker HyperPod secara otomatis menerapkan konfigurasi pelatihan terbaik untuk model populer yang tersedia untuk umum guna membantu Anda mencapai performa optimal dengan cepat. Layanan tersebut juga terus memantau klaster jika ada setiap kesalahan infrastruktur, secara otomatis memperbaiki masalah, dan memulihkan beban kerja Anda tanpa intervensi manusia—yang semuanya membantu Anda menghemat waktu pelatihan hingga 40%.

Manfaat SageMaker HyperPod

Kurangi biaya dengan tata kelola terpusat untuk semua tugas pengembangan model

Inovasi tata kelola tugas SageMaker HyperPod memberikan visibilitas dan kontrol penuh atas alokasi sumber daya komputasi di seluruh tugas pengembangan model AI generatif, seperti pelatihan serta inferensi. SageMaker HyperPod secara otomatis mengelola antrean tugas, sehingga memastikan tugas yang paling penting diprioritaskan dan diselesaikan tepat waktu dan sesuai anggaran, sekaligus menggunakan sumber daya komputasi secara efisien untuk mengurangi biaya pengembangan model hingga 40%.

Capai performa yang paling mutakhir dengan resep dan alat

Dengan resep SageMaker HyperPod, ilmuwan data dan developer dari semua keahlian mendapat manfaat dari performa terbaik sambil memulai pelatihan dan menyempurnakan model AI generatif yang tersedia untuk umum dalam hitungan menit. SageMaker HyperPod juga menyediakan alat eksperimen dan observabilitas bawaan untuk membantu Anda menyempurnakan performa model.

Skalakan dan paralelkan pelatihan model secara efisien di ribuan akselerator AI

SageMaker HyperPod memungkinkan Anda untuk membagi model dan set data pelatihan secara otomatis di seluruh instans klaster AWS untuk membantu Anda menskalakan beban kerja pelatihan secara efisien. SageMaker AI membantu Anda mengoptimalkan tugas pelatihan untuk infrastruktur jaringan AWS dan topologi klaster. SageMaker HyperPod juga menyederhanakan pemeriksaan titik model melalui resep dengan mengoptimalkan frekuensi penyimpanan titik pemeriksaan, dengan memastikan overhead minimum selama pelatihan.

Hapus interupsi dengan lingkungan pengembangan yang tangguh

SageMaker HyperPod menyediakan lingkungan yang tangguh untuk pengembangan model dengan mendeteksi, mendiagnosis, dan memulihkan dari kesalahan infrastruktur secara otomatis, sehingga Anda dapat terus menjalankan beban kerja pengembangan model selama berbulan-bulan tanpa gangguan.