Preços do Amazon SageMaker Lakehouse
O Amazon SageMaker Lakehouse unifica todos os dados nos data lakes do Amazon Simple Storage Service (Amazon S3) e nos data warehouses do Amazon Redshift, ajudando você a desenvolver aplicações avançadas de analytics e de IA e ML com uma única cópia dos dados. O SageMaker Lakehouse proporciona flexibilidade para acessar e consultar os dados, utilizando todas as ferramentas e mecanismos compatíveis com o Apache Iceberg. Ele protege os dados no lakehouse ao definir permissões detalhadas que são aplicadas de forma consistente em todas as ferramentas e mecanismos de analytics e machine learning (ML). Além desses benefícios, acesse os dados de bancos de dados e aplicações operacionais por meio de integrações ETL zero e dados de fontes de terceiros por meio de recursos de consultas federadas no lakehouse.
O SageMaker Lakehouse é acessível diretamente no Estúdio Unificado Amazon SageMaker (pré-visualização). No SageMaker Lakehouse, os dados provenientes de diferentes fontes são organizados em contêineres lógicos denominados catálogos. Cada catálogo representa dados de fontes de dados existentes, como data warehouses e bancos de dados de terceiros, ou criados diretamente no lakehouse para armazenar dados no Amazon S3 ou no Amazon Redshift Managed Storage (RMS). Os mecanismos de consulta podem se conectar a esses catálogos e acessar dados no local com as APIs do Apache Iceberg. Você pode usar qualquer mecanismo compatível com o Apache Iceberg, como Apache Spark, Trino, Amazon Athena ou Amazon EMR, para acessar os dados como tabelas do Apache Iceberg e consultá-los nos seus mecanismos de consulta primários e de terceiros. Da mesma forma, os catálogos são montados em mecanismos de consulta primários, como clusters e grupos de trabalho do Amazon Redshift como bancos de dados. Conecte-se aos bancos de dados em ferramentas de consulta por meio do Java Database Connectivity (JDBC) ou do Editor de Consultas V2 do Amazon Redshift para consultar usando SQL.
O SageMaker Lakehouse tem os componentes subjacentes abaixo. Você paga pelos componentes que usa no lakehouse.
Metadados do SageMaker Lakehouse: as definições de dados são organizadas em uma hierarquia lógica de catálogos, bancos de dados e tabelas usando o Catálogo de Dados do AWS Glue.
- Catálogo: um contêiner lógico que contém objetos de um armazenamento de dados, como esquemas, tabelas, visualizações ou visões materializadas do Amazon Redshift. Você pode agrupar catálogos em um catálogo para corresponder aos níveis de hierarquias da fonte de dados que você está trazendo para o lakehouse.
- Banco de dados: os bancos de dados podem ser usados para organizar os objetos de dados, como tabelas e visualizações no lakehouse.
- Tabelas e visualizações: tabelas e visualizações são objetos de dados em um banco de dados que descrevem como acessar os dados subjacentes, como esquema, partições, local de armazenamento, formato de armazenamento e consulta SQL para acessar os dados.
Os metadados do SageMaker Lakehouse podem ser acessados nas APIs do AWS Glue. Os preços dos metadados do Catálogo de Dados do AWS Glue se aplicam ao armazenamento de metadados e as solicitações de API, incluindo o nível gratuito da AWS. Para obter mais informações, consulte os preços do AWS Glue.
Acesso e armazenamento de dados: usando o SageMaker Lakehouse, você pode ler e gravar dados no Amazon S3 ou RMS. Com base no tipo de armazenamento que você escolher para armazenar dados no lakehouse, você incorrerá em custos adicionais de armazenamento e computação para acessar o armazenamento subjacente. Consulte os preços do AWS Glue para obter mais detalhes sobre preços de armazenamento e computação para os tipos de armazenamento.
Estatísticas e manutenção de tabelas do Apache Iceberg: no SageMaker Lakehouse, você pode automatizar a coleta de estatísticas em tabelas de data lakes no Amazon S3 para acelerar a execução de consultas e a manutenção de tabelas do Apache Iceberg, como compactação, para otimizar o layout de armazenamento de suas tabelas do Apache Iceberg. Você incorrerá em cobranças adicionais ao habilitar esses atributos. Para obter mais informações, consulte os preços do AWS Glue.
Permissões: as permissões refinadas no SageMaker Lakehouse são baseadas no AWS Lake Formation. As permissões no SageMaker Lakehouse são gratuitas. Para obter mais detalhes, consulte os preços do Lake Formation.
Custos da Integração ETL zero
O SageMaker tem integrações ETL zero com aplicações, eliminando a necessidade de criar e gerenciar pipelines de extração, transformação e carregamento (ETL). As aplicações compatíveis incluem Salesforce, ServiceNow, Zendesk e muito mais.
Essas integrações oferecem flexibilidade para que você possa escolher tabelas de dados específicos em uma aplicação para replicar automaticamente para o Amazon Redshift. Essa flexibilidade permite que você execute um analytics unificado em várias aplicações e fontes de dados. A AWS não cobra uma taxa adicional pela Integração ETL zero. Você paga pelos recursos existentes usados para criar e processar os dados de alterações criados como parte de uma Integração ETL zero. Isso inclui armazenamento adicional do Amazon Redshift para armazenar dados replicados, recursos de computação para processar a replicação de dados (ou RPUs no Amazon Redshift sem servidor) e custos de transferência de dados em zonas de disponibilidade para mover dados da origem para o destino. O processamento contínuo de alterações de dados pela Integração ETL zero é oferecido sem custo adicional. Para obter mais informações, acesse Definição de preço do Amazon Aurora, Preço do Amazon RDS para MySQL, Preço do Amazon DynamoDB e AWS Glue pricing.