Amazon SageMaker Lakehouse 요금

Amazon SageMaker Lakehouse는 Amazon Simple Storage Service(Amazon S3) 데이터 레이크와 Amazon Redshift 데이터 웨어하우스 전반의 모든 데이터를 통합합니다. 그러므로 데이터 복사본 하나로 효율적인 분석 및 AI/ML 애플리케이션을 구축할 수 있습니다. SageMaker Lakehouse는 모든 Apache Iceberg 호환 도구와 엔진을 통해 데이터에 액세스하고 쿼리할 수 있는 유연성을 제공합니다. 세분화된 권한을 정의하여 레이크하우스의 데이터를 보호합니다. 이러한 권한은 모든 분석 및 기계 학습(ML) 도구와 엔진에 일관적으로 적용됩니다. 이러한 이점 외에도 Zero-ETL 통합을 통해 운영 데이터베이스 및 애플리케이션의 데이터에 액세스하고 레이크하우스의 페더레이션된 쿼리 기능을 통해 서드 파티 소스의 데이터에 액세스할 수 있습니다.

SageMaker Lakehouse는 Amazon SageMaker Unified Studio(평가판)에서 직접 액세스할 수 있습니다. 다양한 소스의 데이터는 SageMaker Lakehouse의 카탈로그라는 논리적 컨테이너에 정리됩니다. 각 카탈로그는 데이터 웨어하우스 및 서드 파티 데이터베이스와 같은 기존 데이터 소스의 데이터나, Amazon S3 또는 Amazon Redshift 관리형 스토리지(RMS)에 데이터를 저장하기 위해 레이크하우스에서 직접 생성된 데이터를 나타냅니다. 쿼리 엔진은 Apache Iceberg API를 사용하여 이러한 카탈로그에 연결하고 즉시 데이터에 액세스할 수 있습니다. Apache Spark, Trino, Amazon Athena, Amazon EMR 등 어떤 Apache Iceberg 호환 엔진이든 사용하여 데이터를 Apache Iceberg 테이블로 액세스하고 퍼스트 파티 및 서드 파티 쿼리 엔진에서 데이터를 쿼리할 수 있습니다. 마찬가지로, 카탈로그는 Amazon Redshift 클러스터 및 작업 그룹과 같은 자사 쿼리 엔진에 데이터베이스로 마운트됩니다. Java Database Connectivity(JDBC) 또는 Amazon Redshift Query Editor V2를 통해 쿼리 도구에서 데이터베이스에 연결하여 SQL로 쿼리할 수 있습니다.

SageMaker Lakehouse의 요금

SageMaker Lakehouse의 기본 구성 요소는 다음과 같습니다. 고객은 레이크하우스에서 사용하는 구성 요소에 대한 비용을 지불합니다.

SageMaker Lakehouse 메타데이터: 데이터 정의는 AWS Glue Data Catalog를 사용하여 카탈로그, 데이터베이스 및 테이블의 논리적 계층 구조로 구성됩니다.

  • 카탈로그: Amazon Redshift의 스키마, 테이블, 뷰 또는 구체화된 뷰와 같은 데이터 스토어의 객체를 보관하는 논리적 컨테이너입니다. 레이크하우스로 가져오는 데이터 소스의 계층 수준에 맞게 카탈로그를 다른 카탈로그 아래에 중첩할 수 있습니다.
  • 데이터베이스: 데이터베이스를 사용하여 레이크하우스의 테이블 및 뷰와 같은 데이터 객체를 구성할 수 있습니다.
  • 테이블 및 뷰: 테이블 및 뷰는 스키마, 파티션, 저장 위치, 저장 형식, 데이터에 액세스하기 위한 SQL 쿼리 등, 기반 데이터에 액세스하는 방법을 설명하는 데이터베이스의 데이터 객체입니다.

SageMaker Lakehouse 메타데이터는 AWS Glue API에서 액세스할 수 있습니다. 메타데이터 스토리지 및 API 요청의 경우 AWS 프리 티어를 포함한 AWS Glue Data Catalog 메타데이터 요금이 적용됩니다. 자세한 내용은 AWS Glue 요금을 참조하세요.

데이터 저장 및 액세스: SageMaker Lakehouse를 사용하여 Amazon S3 또는 RMS에서 데이터를 읽고 쓸 수 있습니다. 레이크하우스에 데이터를 저장하기 위해 선택한 스토리지 유형에 따라, 기반 스토리지에 액세스하는 데 드는 추가 스토리지 및 컴퓨팅 비용이 발생합니다. 스토리지 유형의 스토리지 및 컴퓨팅 요금에 대한 자세한 내용은 AWS Glue 요금을 참조하세요.

통계 및 Apache Iceberg 테이블 유지 관리: SageMaker Lakehouse에서는 Amazon S3의 데이터 레이크 테이블에 대한 통계 수집을 자동화하여 쿼리 실행 속도를 높이고, Apache Iceberg 테이블 유지 관리 기능(예: 압축)을 통해 Apache Iceberg 테이블의 스토리지 레이아웃을 최적화할 수 있습니다. 이러한 기능을 활성화하면 추가 요금이 부과됩니다. 자세한 내용은 AWS Glue 요금을 참조하세요.

권한: SageMaker Lakehouse의 세분화된 권한은 AWS Lake Formation을 기반으로 합니다. SageMaker Lakehouse에 대한 권한은 무료입니다. 자세한 내용은 Lake Formation 요금을 참조하세요.

제로 ETL 통합 비용

SageMaker는 애플리케이션과의 제로 ETL 통합 방식을 사용하므로, 추출, 전환, 적재(ETL) 파이프라인을 구축하고 관리할 필요가 없습니다. 지원되는 애플리케이션으로는 Salesforce, ServiceNow, Zendesk 등이 있습니다.

이러한 통합은 유연성을 제공하므로 애플리케이션의 특정 데이터 테이블을 선택하여 Amazon Redshift에 자동으로 복제할 수 있습니다. 이 유연성 덕분에 여러 애플리케이션과 데이터 소스에서 통합 분석을 실행할 수 있습니다. 제로 ETL 통합에 대한 추가 요금은 부과되지 않습니다. 제로 ETL 통합을 생성하고 제로 ETL 통합의 일부로 생성되는 변경 데이터를 처리하는 데 사용한 기존 리소스에 대한 요금이 부과됩니다. 여기에는 복제된 데이터를 저장하기 위한 추가 Amazon Redshift 스토리지, 데이터 복제 처리를 위한 컴퓨팅 리소스(또는 Amazon Redshift Serverless의 RPU), 소스에서 대상으로 데이터를 이동하는 데 드는 AZ 간 데이터 전송 비용이 포함됩니다. 제로 ETL 통합을 통한 지속적인 데이터 변경 처리는 추가 비용 없이 제공됩니다. 자세한 내용은 Amazon Aurora 요금, Amazon Relational Database(Amazon RDS) for MySQL 요금, Amazon DynamoDB 요금AWS Glue 요금을 참조하세요.