Xử lý dữ liệu Amazon SageMaker

Phân tích, chuẩn bị và tích hợp dữ liệu cho phân tích và AI ở mọi quy mô

Tại sao nên chọn Xử lý dữ liệu SageMaker?

Chuẩn bị, tích hợp và sắp xếp dữ liệu của bạn nhờ các khả năng xử lý dữ liệu từ Amazon Athena, Amazon EMR, AWS Glue và Quy trình làm việc được quản lý của Amazon dành cho Apache Airflow (Amazon MWAA)\. Xử lý và tích hợp dữ liệu của bạn từ mọi vị trí nhờ khả năng kết nối nhanh chóng và dễ dàng với hàng trăm nguồn dữ liệu.

Sử dụng các khung xử lý dữ liệu nguồn mở như Apache Spark, Trino và Apache Flink. Phân tích dữ liệu trên quy mô lớn với Trino, không cần quản lý cơ sở hạ tầng và xây dựng hệ thống phân tích theo thời gian thực liền mạch với Apache Flink và Apache Spark.

An tâm về độ chính xác và bảo mật của dữ liệu khi tự động hóa chất lượng dữ liệu, nhận dạng dữ liệu nhạy cảm, theo dõi nguồn gốc và áp dụng quyền kiểm soát truy cập chi tiết thông qua tích hợp chuyên biệt với Hồ dữ liệu Amazon SageMaker.

Lợi ích

Xử lý dữ liệu Amazon SageMaker cung cấp quyền truy cập toàn diện vào các khung xử lý dữ liệu và luồng, công cụ truy vấn SQL phân tán mã nguồn mở và các công cụ phổ biến nhất như sổ ghi chép, trình chỉnh sửa truy vấn cũng như trích xuất, chuyển đổi và tải (ETL) trực quan.

Bạn có thể truy cập các khung xử lý phổ biến nhất như Apache Spark để chuẩn bị và tích hợp dữ liệu của bạn ở bất kỳ quy mô nào. Đáp ứng nhu cầu kinh doanh theo thời gian thực với xử lý luồng với Apache Flink và Apache Spark Streaming, đồng thời phân tích dữ liệu với các khung xử lý SQL nguồn mở hàng đầu như Trino. Đơn giản hóa việc điều phối quy trình làm việc mà không cần phải quản lý cơ sở hạ tầng với tích hợp gốc bằng quy trình làm việc được quản lý của Amazon MWAA.

Xử lý dữ liệu SageMaker tích hợp nguyên bản với SageMaker Lakehouse, cho phép bạn xử lý và tích hợp bằng cách sử dụng một bản sao dữ liệu của mình cho tất cả các trường hợp sử dụng của bạn bao gồm phân tích, truy vấn đặc biệt, máy học (ML) và AI tạo sinh.

SageMaker Lakehouse hợp nhất dữ liệu trên các hồ dữ liệu Amazon Simple Storage Service (Amazon S3) và kho dữ liệu Amazon Redshift, cung cấp quyền truy cập hợp nhất vào dữ liệu của bạn. Bạn có thể khám phá và phân tích dữ liệu được hợp nhất trong lakehouse với hàng trăm đầu nối, tích hợp không ETL và các nguồn dữ liệu liên kết, cung cấp cho bạn bức tranh hoàn chỉnh về doanh nghiệp của mình. SageMaker Lakehouse hoạt động ngay lập tức với kiến trúc dữ liệu hiện có của bạn mà không bị hạn chế bởi các lựa chọn định dạng lưu trữ hoặc công cụ truy vấn cụ thể.

Cải thiện hiệu quả với hiệu suất truy vấn nhanh trên các bảng Apache Iceberg. Nhận thông tin chi tiết nhanh hơn gấp đôi so với các hệ thống nguồn mở truyền thống với các phiên bản tương thích API mã nguồn mở và hiệu suất cao của Apache Spark, Apache Airflow, Apache Flink, Trino, v.v.

Xử lý dữ liệu SageMaker cho phép bạn tập trung vào việc chuyển đổi và phân tích dữ liệu của mình mà không cần quản lý tài nguyên tính toán hoặc các ứng dụng nguồn mở, giúp bạn tiết kiệm thời gian và giảm chi phí. Bạn có thể tự động cung cấp dung lượng của mình trên Amazon EMR trên Amazon Elastic Compute Cloud (Amazon EC2) hoặc Amazon EMR trên Amazon Elastic Kubernetes Service (Amazon EKS). Quy tắc mở rộng quy mô quản lý các thay đổi đối với nhu cầu tính toán của bạn để tối ưu hóa hiệu suất và thời gian chạy.

Đạt được sự tin tưởng và minh bạch với báo cáo chất lượng dữ liệu tự động, phát hiện dữ liệu nhạy cảm và theo dõi nguồn gốc cho dữ liệu và mô hình AI thông qua việc tích hợp với Amazon SageMaker Catalog. Tăng sự tự tin về chất lượng dữ liệu của bạn với tính năng đo lường, giám sát và đề xuất tự động cho các quy tắc chất lượng dữ liệu.

Xử lý và phân tích dữ liệu của bạn một cách an toàn bằng cách tuân thủ và thực thi các kiểm soát truy cập chi tiết được xác định trên bộ dữ liệu trong SageMaker Lakehouse, cho phép bạn xác định quyền một lần và giúp người dùng được ủy quyền trong tổ chức của bạn truy cập dữ liệu của mình.

Dịch vụ AWS

Tích hợp dữ liệu đơn giản

AWS Glue cung cấp khả năng tích hợp dữ liệu phi máy chủ, đơn giản hóa việc khám phá, chuẩn bị và tích hợp dữ liệu từ nhiều nguồn. Kết nối với các nguồn dữ liệu đa dạng, quản lý dữ liệu trong một danh mục dữ liệu tập trung, đồng thời tạo, chạy và theo dõi quy trình ETL một cách trực quan để tải dữ liệu của bạn vào hồ dữ liệu tích hợp. AWS Glue tự động điều chỉnh quy mô theo nhu cầu, giúp bạn có thể tập trung vào việc thu thập thông tin chuyên sâu từ dữ liệu của bạn mà không cần quản lý cơ sở hạ tầng.

Chạy và điều chỉnh quy mô của Apache Spark, Apache Hive, Trino và các khối lượng công việc khác

Amazon EMR giúp việc chạy các khối lượng công việc xử lý dữ liệu như Apache Spark, Apache Airflow, Apache Flink, Trino và nhiều hơn nữa trở nên dễ dàng với chi phí tiết kiệm hơn. Xây dựng và chạy các đường dẫn xử lý dữ liệu và tự động mở rộng quy mô nhanh hơn các giải pháp tại chỗ.

Theo dõi chi phí

Amazon Athena cung cấp một cách thức đơn giản và linh hoạt để bạn phân tích dữ liệu ở mọi quy mô. Athena là một dịch vụ truy vấn tương tác giúp đơn giản hóa quá trình phân tích dữ liệu trong Amazon S3 bằng cách sử dụng SQL tiêu chuẩn. Athena là dịch vụ phi máy chủ, do đó, bạn không cần thiết lập hoặc quản lý cơ sở hạ tầng và có thể chọn thanh toán dựa trên số truy vấn bạn chạy hoặc tài nguyên tính toán cần thiết cho các truy vấn của bạn. Sử dụng Athena để xử lý bản ghi, thực hiện phân tích dữ liệu và chạy các truy vấn tương tác. Athena tự động điều chỉnh quy mô –– thực hiện các truy vấn song song – vì vậy, bạn nhận được kết quả rất nhanh, ngay cả với các tập dữ liệu lớn và các truy vấn phức tạp.

Dịch vụ điều phối quy trình công việc được quản lý một cách an toàn và có tính khả dụng cao cho Apache Airflow

Amazon MWAA là một dịch vụ được quản lý dành cho Apache Airflow sswwe cho phép bạn sử dụng nền tảng Apache Airflow hiện tại, quen thuộc của bạn để sắp xếp quy trình làm việc của mình. Bạn có được khả năng điều chỉnh quy mô, độ sẵn sàng và khả năng bảo mật được cải thiện mà không phải chịu gánh nặng vận hành của việc quản lý cơ sở hạ tầng cơ sở. Amazon MWAA sắp xếp quy trình làm việc của bạn bằng cách sử dụng Đồ thị có hướng phi chu trình (DAG) được viết bằng Python. Bạn cung cấp cho Amazon MWAA một vùng lưu trữ S3 nơi chứa các yêu cầu về DAG, plugin và Python của bạn. Triển khai Apache Airflow ở quy mô lớn mà không phải chịu gánh nặng vận hành đến từ việc quản lý cơ sở hạ tầng cơ bản.

Trường hợp sử dụng

Nhanh chóng xác định dữ liệu trên AWS, tại chỗ và trong các đám mây khác, rồi đưa ngay dữ liệu này vào trạng thái sẵn sàng để truy vấn và chuyển đổi.

Xử lý dữ liệu bằng cách sử dụng các khung xử lý như Apache Spark, Apache Flink và Trino, và các khối lượng công việc khác nhau, bao gồm hàng loạt, microbatch và phát trực tuyến.

Xử lý dữ liệu quy mô lớn và phân tích tình huống giả định bằng cách sử dụng thuật toán thống kê và mô hình dự đoán để khám phá những khuôn mẫu ẩn, tính tương quan, xu hướng thị trường và sở thích của khách hàng.