Amazon SageMaker Lakehouse FAQ

일반

Amazon SageMaker Lakehouse는 Amazon Simple Storage Service(Amazon S3) 데이터 레이크와 Amazon Redshift 데이터 웨어하우스 전반의 모든 데이터를 통합합니다. 그러므로 데이터 복사본 하나로 효율적인 분석 및 AI/ML 애플리케이션을 구축할 수 있습니다. SageMaker Lakehouse는 모든 Apache Iceberg 호환 도구와 엔진을 통해 데이터에 액세스하고 쿼리할 수 있는 유연성을 제공합니다. 권한을 정의하여 레이크하우스의 데이터를 보호할 수 있습니다. 이러한 권한은 모든 분석 및 기계 학습(ML) 도구와 엔진에 적용됩니다. 제로 ETL 통합을 통해 운영 데이터베이스 및 애플리케이션의 데이터를 레이크하우스로 거의 실시간으로 가져올 수 있습니다. 또한 서드 파티 데이터 소스 전반에서 연합 쿼리 기능을 통해 데이터를 현재 위치에서 액세스하고 쿼리할 수 있습니다.

SageMaker Lakehouse:

a) Amazon S3 데이터 레이크 및 Amazon Redshift 데이터 웨어하우스 전반에서 데이터에 대한 통합 액세스를 제공하여 데이터 사일로를 줄입니다. 노코드 또는 로우 코드 추출, 전환, 적재(ETL) 파이프라인을 사용하여 분석 및 ML을 위해 운영 데이터베이스 및 애플리케이션의 데이터를 레이크하우스에 거의 실시간으로 수집할 수 있습니다. 또한 수백 개의 커넥터와 13개의 연합 쿼리 기능을 사용하여 AWS 및 AWS 외부 소스의 데이터에 액세스할 수 있습니다.

b) Apache Iceberg와 호환되는 다양한 AWS 서비스, 오픈 소스/서드 파티 도구 및 엔진에서 모든 데이터를 현재 위치에서 액세스하고 쿼리할 수 있는 유연성을 제공합니다. SQL, Apache Spark, 비즈니스 인텔리전스(BI), AI/ML 도구 등 원하는 분석 도구 및 엔진을 사용하고 Amazon S3 또는 Amazon Redshift에 저장된 단일 데이터 복사본으로 협업할 수 있습니다.

c) Amazon Redshift, Amazon Athena, Amazon EMR 또는 서드 파티 Apache Iceberg 호환 엔진과 같은 통합 AWS 서비스에서 액세스할 때 데이터를 보호하는 액세스 제어 메커니즘이 내장되어 기업 보안을 개선합니다.

SageMaker Lakehouse는 Amazon SageMaker Unified Studio(평가판)에서 직접 액세스할 수 있습니다. 다양한 소스의 데이터는 SageMaker Lakehouse의 카탈로그라는 논리적 컨테이너에 정리됩니다. 각 카탈로그는 Amazon Redshift 데이터 웨어하우스, 데이터 레이크 또는 데이터베이스와 같은 기존 데이터 소스의 데이터를 나타냅니다. 레이크하우스에서 직접 새 카탈로그를 생성하여 Amazon S3 또는 Amazon Redshift 관리형 스토리지(RMS)에 데이터를 저장할 수 있습니다. SageMaker Lakehouse의 데이터는 Apache Spark, Athena, Amazon EMR과 같은 Apache Iceberg 호환 엔진에서 액세스할 수 있습니다. 또한 이러한 카탈로그는 Amazon Redshift 데이터 웨어하우스에서 데이터베이스로 검색할 수 있으므로 SQL 도구를 사용하고 레이크하우스 데이터를 분석할 수 있습니다.

기능

SageMaker Lakehouse는 데이터에 대한 액세스 제어를 두 가지 기능으로 통합합니다. 1) SageMaker Lakehouse를 사용하면 세분화된 권한을 정의할 수 있습니다. 이러한 권한은 Amazon EMR, Athena, Amazon Redshift와 같은 쿼리 엔진에 의해 적용됩니다. 2) SageMaker Lakehouse를 사용하면 데이터를 현재 위치에서 액세스할 수 있으므로 데이터 복사본을 생성할 필요가 없습니다. 단일 데이터 복사본과 단일 액세스 제어 정책 세트를 유지 관리하여 SageMaker Lakehouse에서 세분화된 통합 액세스 제어의 이점을 활용할 수 있습니다.

SageMaker Lakehouse는 AWS Glue Data Catalog, Lake Formation, Amazon Redshift의 여러 기술 카탈로그를 기반으로 구축되어 데이터 레이크 및 데이터 웨어하우스 전반에서 통합된 데이터 액세스를 제공합니다. SageMaker Lakehouse는 AWS Glue Data Catalog와 Lake Formation을 사용하여 테이블 정의 및 권한을 저장합니다. Lake Formation 세분화된 권한은 SageMaker Lakehouse에 정의된 테이블에 사용할 수 있습니다. AWS Glue Data Catalog에서 테이블 정의를 관리하고 테이블 수준, 열 수준, 셀 수준 권한과 같은 세분화된 권한을 정의하여 데이터를 보호할 수 있습니다. 또한 교차 계정 데이터 공유 기능을 사용하면 제로 복사 데이터 공유를 활성화하여 안전한 협업에 데이터를 사용할 수 있습니다.

예. SageMaker Lakehouse에 액세스하려면 오픈 소스 Apache Iceberg 클라이언트 라이브러리가 필요합니다. Apache Spark, Trino와 같은 서드 파티 또는 자체 관리형 오픈 소스 엔진을 사용하는 고객은 SageMaker Lakehouse에 액세스하기 위해 쿼리 엔진에 Apache Iceberg 클라이언트 라이브러리를 포함해야 합니다.

예. Apache Iceberg 클라이언트 라이브러리를 사용하면 Amazon EMR, AWS Glue, Athena 및 Amazon SageMaker 또는 서드 파티 Apache Spark와 같은 AWS 서비스의 Apache Spark 엔진을 통해 기존 Amazon Redshift에서 데이터를 읽고 쓸 수 있습니다. 하지만 테이블에 데이터를 쓰려면 해당 테이블에 대한 적절한 쓰기 권한이 있어야 합니다.

예. Apache Spark와 같은 원하는 엔진을 사용하여 여러 데이터베이스 간에 Amazon S3의 데이터 레이크 테이블을 Amazon Redshift 데이터 웨어하우스의 테이블과 조인할 수 있습니다.

마이그레이션

아니요. SageMaker Lakehouse를 사용하기 위해 데이터를 마이그레이션할 필요는 없습니다. SageMaker Lakehouse를 사용하면 Apache Iceberg의 개방형 표준을 사용하여 데이터를 현재 위치에서 액세스하고 쿼리할 수 있습니다. Amazon S3 데이터 레이크와 Amazon Redshift 데이터 웨어하우스에 있는 데이터에 직접 액세스할 수 있습니다. 인프라 또는 복잡한 파이프라인을 유지 관리하지 않고도 사용 가능한 제로 ETL 통합을 통해 운영 데이터베이스 및 애플리케이션의 데이터를 거의 실시간으로 레이크하우스로 수집할 수 있습니다. 또한 연합 쿼리 기능을 사용하여 데이터를 현재 위치에서 액세스할 수 있습니다. 이 외에도 수백 개의 AWS Glue 커넥터를 사용하여 기존 데이터 소스와 통합할 수 있습니다.

이미 Amazon Redshift 사용자인 경우 데이터를 마이그레이션하지 않고도 몇 가지 간단한 단계를 거쳐 Amazon Redshift 데이터 웨어하우스를 SageMaker Lakehouse에 등록할 수 있습니다. 개발자 안내서의 단계를 따르세요.

AWS Glue Data Catalog를 사용하여 Amazon S3 데이터 레이크를 구성한 경우에는 아무것도 변경할 필요가 없습니다.

제로 ETL 통합

SageMaker Lakehouse는 Amazon DynamoDB, Amazon Aurora 및 Amazon RDS for MySQL 그리고 Zoho CRM, Salesforce, Salesforce Pardot, ServiceNow, Facebook Ads, Instagram Ads, Zendesk, SAP 등 8개 애플리케이션과의 제로 ETL 통합을 지원합니다.

AWS Glue를 사용하는 Amazon SageMaker 데이터 처리 내에서 AWS Glue 콘솔을 통해 제로 ETL 통합을 구성하고 모니터링할 수 있습니다. 데이터가 수집되면 Apache Iceberg와 호환되는 쿼리 엔진에서 데이터에 액세스하고 쿼리할 수 있습니다. 자세한 내용은 제로 ETL 통합을 참조하세요.

요금에 대해 자세히 알아보려면 SageMaker LakehouseAWS Glue 요금 페이지를 참조하세요.

요금

자세한 내용은 SageMaker Lakehouse 요금을 참조하세요.

가용성

SageMaker Lakehouse는 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(오리건), 아시아 태평양(홍콩), 아시아 태평양(서울), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(도쿄), 캐나다(중부), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(스톡홀름) 및 남아메리카(상파울루) 리전에서 사용 가능합니다.

예. SageMaker Lakehouse는 AWS Glue Data Catalog에 메타데이터를 저장하고 Amazon Glue와 동일한 SLA를 제공합니다.

시작하기

시작하려면 SageMaker Unified Studio에서 기업(예: Okta) 자격 증명을 사용하여 SageMaker 도메인에 로그인할 수 있습니다. SageMaker Unified Studio에서 몇 가지 간단한 단계를 통해 관리자는 특정 프로젝트 프로필을 선택하여 프로젝트를 생성할 수 있습니다. 그런 다음 SageMaker Lakehouse에서 작업할 프로젝트를 선택할 수 있습니다. 프로젝트를 선택하면 데이터, 쿼리 엔진, 개발자 도구를 한 곳에서 통합된 뷰로 볼 수 있습니다. 그러면 데이터 엔지니어, 데이터 분석가와 같은 사용자가 원하는 도구를 사용하여 데이터를 쿼리할 수 있습니다. 예를 들어 데이터 엔지니어가 노트북을 사용하고 Spark 명령을 실행하여 테이블을 나열하면 액세스 권한이 있는 모든 데이터 웨어하우스 및 데이터 레이크 테이블이 검색됩니다. 그런 다음 명령을 실행하여 Amazon S3 데이터 레이크 또는 Amazon Redshift 데이터 웨어하우스에 물리적으로 저장된 테이블에서 데이터를 읽고 쓸 수 있습니다. 마찬가지로 데이터 분석가가 SQL 편집기에서 Amazon Redshift SQL 명령을 실행하면 동일한 통합 데이터 뷰를 얻고 이러한 테이블에서 데이터를 읽고 쓸 수 있습니다. 선호하는 도구(SQL 편집기 또는 노트북)를 사용하여 Amazon S3 또는 Amazon Redshift에서 새 테이블을 생성할 수 있습니다. 데이터 레이크 테이블의 성능을 가속화하려면 Amazon Redshift 구체화된 뷰를 쿼리합니다. SageMaker Lakehouse는 SageMaker Unified Studio 외에도 AWS Management Console, AWS Glue API, AWS Command Line Interface(AWS CLI) 또는 AWS SDK에서도 액세스할 수 있습니다. 자세한 내용은 설명서 페이지를 참조하세요.