การประมวลผลข้อมูล Amazon SageMaker

วิเคราะห์ จัดเตรียม และผสานรวมข้อมูลสำหรับการวิเคราะห์และ AI ในทุกขนาด

ทำไมต้องใช้การประมวลผลข้อมูล SageMaker

จัดเตรียม ผสานรวม และจัดระเบียบข้อมูลของคุณด้วยความสามารถในการประมวลผลข้อมูลจาก Amazon Athena, Amazon EMR, AWS Glue และ Amazon Managed Workflows สำหรับ Apache Airflow (Amazon MWAA) ประมวลผลและผสานรวมข้อมูลจากทุกที่ด้วยการเชื่อมต่อที่รวดเร็วและง่ายดายกับแหล่งที่มาของข้อมูลหลายร้อยแห่ง

ใช้เฟรมเวิร์กการประมวลผลข้อมูลแบบโอเพนซอร์ส เช่น Apache Spark, Trino และ Apache Flink วิเคราะห์ข้อมูลในทุกระดับด้วย Trino โดยไม่ต้องจัดการโครงสร้างพื้นฐานและสร้างการวิเคราะห์แบบเรียลไทม์ได้อย่างราบรื่นด้วย Apache Flink และ Apache Spark

เชื่อมั่นว่าข้อมูลของคุณถูกต้องแม่นยำและปลอดภัยโดยดำเนินการสร้างคุณภาพของข้อมูลอัตโนมัติ การระบุข้อมูลที่มีความละเอียดอ่อน การติดตามเส้นทางขั้นตอน และการบังคับใช้การควบคุมสิทธิ์การเข้าถึงแบบละเอียดผ่านการผสานการทำงานแบบเนทีฟกับ Amazon SageMaker Lakehouse

ประโยชน์

Amazon SageMaker Data Processing มีการเข้าถึงที่ครอบคลุมไปยังเฟรมเวิร์กการประมวลผลข้อมูลและสตรีม, เครื่องมือสืบค้น SQL แบบกระจายและโอเพนซอร์ส และเครื่องมือยอดนิยม เช่น โน้ตบุ๊ก เครื่องมือแก้ไขการสืบค้น และกระบวนการ Extract, Transform and Load (ETL) ภาพ

คุณสามารถเข้าถึงเฟรมเวิร์กที่ได้รับความนิยมมากที่สุด เช่น Apache Spark เพื่อเตรียมและผสานรวมข้อมูลของคุณในทุกขนาด ตอบสนองความต้องการทางธุรกิจแบบเรียลไทม์ด้วยการประมวลผลสตรีมกับ Apache Flink และ Apache Spark Streaming รวมถึงวิเคราะห์ข้อมูลด้วยเฟรมเวิร์ก SQL แบบโอเพนซอร์สชั้นนำ เช่น Trino ลดความซับซ้อนในการควบคุมระบบเวิร์กโฟลว์โดยไม่ต้องจัดการโครงสร้างพื้นฐานด้วยการผสานการทำงานแบบเนทีฟกับ Amazon MWAA

SageMaker Data Processing รวมเข้ากับ SageMaker Lakehouse โดยตรง ซึ่งช่วยให้คุณสามารถประมวลผลและผสานรวมข้อมูลโดยใช้สำเนาเดียวสำหรับทุกกรณีการใช้งาน รวมถึงการวิเคราะห์ การสอบถามเฉพาะกิจ แมชชีนเลิร์นนิง (ML) และ AI ช่วยสร้าง

SageMaker Lakehouse รวมข้อมูลจากคลังข้อมูลของ Amazon Simple Storage Service (Amazon S3) Data Lake และ Amazon Redshift เข้าด้วยกัน ซึ่งให้การเข้าถึงข้อมูลของคุณเป็นแบบรวมศูนย์ คุณสามารถสำรวจและวิเคราะห์ข้อมูลที่รวมอยู่ใน Lakehouse ด้วยตัวเชื่อมต่อหลายร้อยรายการ การบูรณาการ ETL แบบไร้รอยต่อ และแหล่งที่มาของข้อมูลแบบรวมกัน เพื่อให้ภาพรวมธุรกิจของคุณที่สมบูรณ์ SageMaker Lakehouse ทำงานร่วมกับสถาปัตยกรรมข้อมูลที่มีอยู่ของคุณได้ทันที โดยไม่ถูกจำกัดด้วยรูปแบบการจัดเก็บข้อมูลหรือตัวเลือกเครื่องมือสืบค้นเฉพาะ

ปรับปรุงประสิทธิภาพด้วยประสิทธิภาพการสืบค้นที่รวดเร็วเหนือตาราง Apache Iceberg รับข้อมูลเชิงลึกเร็วกว่าระบบโอเพนซอร์สแบบดั้งเดิมถึง 2 เท่า ด้วยเวอร์ชันของ Apache Spark, Apache Airflow, Apache Flink, Trino และอื่น ๆ ที่มีความสามารถสูงและเข้ากันได้กับ API แบบโอเพนซอร์ส

SageMaker Data Processing ช่วยให้คุณมุ่งเน้นไปที่การแปลงและวิเคราะห์ข้อมูลของคุณได้โดยไม่ต้องจัดการความสามารถในการประมวลผลหรือแอปพลิเคชันโอเพนซอร์ส ช่วยให้คุณประหยัดเวลาและลดต้นทุน คุณสามารถจัดเตรียมความจุบน Amazon EMR บน Amazon Elastic Compute Cloud (Amazon EC2) หรือ Amazon EMR บน Amazon Elastic Kubernetes Service (Amazon EKS) ได้โดยอัตโนมัติ กฎการปรับขนาดจะจัดการการเปลี่ยนแปลงความต้องการในการประมวลผลของคุณเพื่อเพิ่มประสิทธิภาพการทำงานและรันไทม์

เพิ่มความน่าเชื่อถือและความโปร่งใสด้วยการรายงานคุณภาพข้อมูลอัตโนมัติ การตรวจจับข้อมูลที่ละเอียดอ่อน และการติดตามสายงานของข้อมูลและโมเดล AI ผ่านการผสานรวมกับ Amazon SageMaker Catalog เพิ่มความมั่นใจในคุณภาพข้อมูลของคุณด้วยการวัด การตรวจสอบ และคำแนะนำเกี่ยวกับกฎคุณภาพข้อมูลแบบอัตโนมัติ

ประมวลผลและวิเคราะห์ข้อมูลของคุณอย่างปลอดภัย โดยปฏิบัติตามและบังคับใช้การควบคุมการเข้าถึงแบบละเอียดที่กำหนดไว้บนชุดข้อมูลใน SageMaker Lakehouse ซึ่งช่วยให้คุณสามารถกำหนดสิทธิ์เพียงครั้งเดียวและทำให้ข้อมูลของคุณสามารถเข้าถึงได้โดยผู้ใช้ที่ได้รับอนุญาตในองค์กรของคุณ

บริการของ AWS

การผสานรวมข้อมูลที่เรียบง่าย

AWS Glue มีการผสานรวมข้อมูลแบบไม่ต้องใช้เซิร์ฟเวอร์ ซึ่งช่วยลดความซับซ้อนของการสำรวจข้อมูล การจัดเตรียมข้อมูล และการผสานรวมข้อมูลจากหลายแหล่งที่มา เชื่อมต่อแหล่งที่มาของข้อมูลที่หลากหลาย จัดการข้อมูลในแค็ตตาล็อกข้อมูลแบบรวมศูนย์ รวมถึงสร้าง เรียกใช้ และตรวจสอบไปป์ไลน์ ETL ด้วยภาพเพื่อโหลดข้อมูลใน Lakehouse ของคุณ AWS Glue จะปรับขนาดตามความต้องการโดยอัตโนมัติ คุณจึงสามารถโฟกัสที่การรับข้อมูลเชิงลึกจากข้อมูลของคุณได้โดยไม่ต้องจัดการโครงสร้างพื้นฐาน

เรียกใช้และปรับขนาด Apache Spark, Apache Hive, Trino และเวิร์กโหลดอื่น ๆ

Amazon EMR ช่วยให้การเรียกใช้เวิร์กโหลดการประมวลผลข้อมูล เช่น Apache Spark, Apache Airflow, Apache Flink, Trino และอื่น ๆ อีกมากมายเป็นไปอย่างสะดวกง่ายดายและคุ้มค่ามากยิ่งขึ้น สร้างและเรียกใช้ไปป์ไลน์การประมวลผลข้อมูล รวมถึงปรับขนาดโดยอัตโนมัติได้รวดเร็วกว่าโซลูชันในองค์กร

ติดตามค่าใช้จ่าย

Amazon Athena มอบวิธีที่ง่ายและยืดหยุ่นในการวิเคราะห์ข้อมูลในทุกระดับ Athena เป็นบริการสืบค้นเชิงโต้ตอบที่ลดความซับซ้อนในการวิเคราะห์ข้อมูลใน Amazon S3 โดยใช้ SQL มาตรฐาน Athena นั้นไม่ต้องใช้เซิร์ฟเวอร์ จึงไม่มีโครงสร้างพื้นฐานที่ต้องตั้งค่าหรือจัดการ และคุณสามารถเลือกชำระเงินตามการสืบค้นข้อมูลที่คุณเรียกใช้หรือประมวลผลทรัพยากรที่ต้องการสำหรับการสืบค้นข้อมูลได้ ใช้ Athena ในการประมวลผลบันทึก ดำเนินการวิเคราะห์ข้อมูล และรันแบบสอบถามแบบโต้ตอบ Athena จะปรับขนาดโดยอัตโนมัติพร้อมดำเนินการสืบค้นแบบคู่ขนาน ดังนั้นจึงได้ผลลัพธ์ที่รวดเร็ว แม้จะเป็นชุดข้อมูลขนาดใหญ่และการสืบค้นที่ซับซ้อนก็ตาม

การควบคุมระบบเวิร์กโฟลว์ที่มีการจัดการที่เน้นความปลอดภัยและพร้อมใช้งานสูงสำหรับ Apache Airflow

Amazon MWAA เป็นบริการที่มีการจัดการสำหรับ Apache Airflow ที่ให้คุณใช้แพลตฟอร์ม Apache Airflow ปัจจุบันของคุณที่คุ้นเคยเพื่อจัดระเบียบเวิร์กโฟลว์ของคุณ คุณจะได้รับความสามารถในการปรับขนาด ความพร้อมใช้งาน และความปลอดภัยที่ดีขึ้นโดยไม่ต้องมีภาระการดำเนินงานในการจัดการโครงสร้างพื้นฐานพื้นฐาน Amazon MWAA จะจัดการเวิร์กโฟลว์ของคุณโดยใช้ Directed Acyclic Graphs (DAG) ที่เขียนด้วย Python คุณจะต้องเตรียมบัคเก็ต S3 ที่มีข้อกำหนดด้าน DAG, ปลั๊กอิน และ Python ให้กับ Amazon MWAA การติดตั้งใช้งาน Apache Airflow ตามขนาดโดยไม่ต้องมีภาระการดำเนินงานในการจัดการโครงสร้างพื้นฐานที่สำคัญ

กรณีใช้งาน

ระบุและเข้าถึงข้อมูลที่รวมอยู่ใน AWS ในองค์กร และระบบคลาวด์อื่น ๆ ได้อย่างรวดเร็ว จากนั้นจึงทำให้สามารถใช้ได้ทันทีสำหรับการสืบค้นและการแปลง

ประมวลผลข้อมูลโดยใช้เฟรมเวิร์กเช่น Apache Spark, Apache Flink และ Trino และเวิร์กโหลดต่าง ๆ รวมถึงแบทช์ ไมโครแบทช์ และการสตรีมมิ่ง

เรียกใช้การประมวลผลข้อมูลขนาดใหญ่และการวิเคราะห์แบบ What-if โดยใช้อัลกอริทึมเชิงสถิติและโมเดลเชิงคาดการณ์เพื่อค้นหารูปแบบ ความสัมพันธ์ แนวโน้มของตลาด และความชอบของลูกค้าที่ซ่อนอยู่