Цены на SageMaker Lakehouse
Хранилище в озере данных Amazon SageMaker объединяет все ваши данные в озерах данных Amazon Simple Storage Service (Amazon S3) и хранилищах данных Amazon Redshift, помогая создавать мощные аналитические приложения и приложения искусственного интеллекта, а также машинного обучения, используя одну копию данных. Хранилище в озере данных SageMaker предоставляет гибкие возможности для доступа к данным и выполнения запросов с помощью всех инструментов и движков, совместимых с Apache Iceberg. Это защищает ваши данные в озере, позволяя детально определять разрешения, которые будут согласованно применяться к всем инструментам и движкам аналитики и машинного обучения (ML). Помимо этих преимуществ, вы можете получать доступ к данным из операционных баз данных и приложений с помощью интеграции с нулевым использованием ETL, а также к данным из сторонних источников с помощью функций объединенных запросов в озере.
Хранилище в озере данных Amazon SageMaker можно использовать напрямую из Единой студии Amazon SageMaker (ознакомительная версия). Данные из различных источников упорядочиваются в логические контейнеры, которые в хранилище в озере данных Amazon SageMaker называются каталогами. В каждом каталоге представлены данные из существующих источников данных, таких как хранилища данных и сторонние базы данных, или данные, созданные непосредственно в озере для хранения данных в Amazon S3 или управляемом хранилище Amazon Redshift (RMS). Механизмы запросов могут подключаться к этим каталогам и получать доступ к данным на месте с помощью API-интерфейсов Apache Iceberg. Вы можете использовать любой совместимый с Apache Iceberg движок, такой как Apache Spark, Trino, Amazon Athena или Amazon EMR, для доступа к данным в виде таблиц Apache Iceberg и запроса данных из собственных и сторонних механизмов запросов. Точно так же каталоги монтируются в сторонние движки запросов, такие как кластеры и рабочие группы Amazon Redshift, в качестве баз данных. Подключайтесь к базам данных с помощью инструментов запросов через Java Database Connectivity (JDBC) или Редактор запросов Amazon Redshift V2 для выполнения запросов с использованием SQL.
В основе хранилища в озере данных SageMaker лежат следующие основные компоненты. Вы платите за компоненты, которые используете в этом хранилище.
Метаданные хранилища в озере данных SageMaker. Определения данных организованы в виде логической иерархии каталогов, баз данных и таблиц с использованием Каталога данных AWS Glue.
- Каталог. Логический контейнер, в котором хранятся объекты из хранилища данных, такие как схемы, таблицы, представления или материализованные представления из Amazon Redshift. Каталоги можно размещать в других каталогах, чтобы они соответствовали уровням иерархий из источника данных, из которого в переносите их в озеро.
- База данных. Базы данных можно использовать для организации объектов данных, таких как таблицы и представления в озере.
- Таблицы и представления. Таблицы и представления – это объекты данных в базе данных, описывающие способы доступа к основным данным, таким как схема, разделы, место хранения, формат хранения и SQL-запрос для доступа к данным.
Доступ к метаданным в хранилище в озере данных SageMaker можно получить из API AWS Glue. На хранилище метаданных и запросы API распространяются цены метаданных в Каталоге данных AWS Glue, включая уровень бесплатного пользования AWS. Подробнее см. на странице цен на AWS Glue.
Хранение данных и доступ к ним. С помощью хранилища в озере данных SageMaker можно читать и записывать данные в Amazon S3 или RMS. В зависимости от типа хранилища, который вы выберете для хранения данных в озере, вы понесете дополнительные затраты на хранение и вычислительные ресурсы для доступа к основному хранилищу. Подробнее о ценах на хранилище и вычислительные ресурсы для этих типов хранилищ см. на странице цен на AWS Glue.
Статистика и обслуживание таблиц Apache Iceberg. Хранилище в озере данных SageMaker позволяет автоматизировать сбор статистики по таблицам озера данных в Amazon S3, чтобы ускорить выполнение запросов и обслуживание таблиц Apache Iceberg, например сжатие, для оптимизации структуры хранилища таблиц Apache Iceberg. При включении этих функций с вас будет взиматься дополнительная плата. Подробнее см. на странице цен на AWS Glue.
Разрешения. Подробные разрешения в хранилище в озере данных SageMaker предоставляются на базе AWS Lake Formation. Разрешения в хранилище в озере данных SageMaker бесплатны. Для получения дополнительной информации ознакомьтесь с ценами на Lake Formation.
Стоимость интеграции с нулевым использованием ETL
В SageMaker реализованы интеграции с нулевым использованием ETL с приложениями, что избавляет от необходимости создавать конвейеры извлечения, преобразования и загрузки (ETL) и управлять ими. Поддерживаются такие приложения, как Salesforce, ServiceNow, Zendesk и другие.
Эти интеграции обеспечивают гибкость, поэтому вы можете выбрать определенные таблицы данных в приложении для автоматической репликации в Amazon Redshift. С помощью такой гибкости можно проводить унифицированную аналитику в нескольких приложениях и источниках данных. AWS не взимает дополнительную плату за интеграцию с нулевым использованием ETL. Вы платите за существующие ресурсы, применяемые для создания и обработки данных изменений, которые разработаны в рамках интеграции с нулевым использованием ETL. Сюда входят дополнительное хранилище Amazon Redshift для сберегания реплицированных данных, вычислительные ресурсы для обработки репликации данных (или RPU в бессерверном Amazon Redshift) и затраты на передачу данных между зонами доступности при перемещении информации из источника в целевой объект. Непрерывная обработка данных об изменениях с помощью интеграции с нулевым использованием ETL выполняется бесплатно. Дополнительные сведения см. в разделе цен на Amazon Aurora, цен на реляционную базу данных Amazon (Amazon RDS) для MySQL, цен на Amazon DynamoDB и цен на AWS Glue.