Perguntas frequentes sobre o Amazon SageMaker Lakehouse

Geral

O Amazon SageMaker Lakehouse unifica todos os dados entre os data lakes do Amazon Simple Storage Service (Amazon S3) e os data warehouses do Amazon Redshift, ajudando você a desenvolver aplicações avançadas de analytics e de IA/ML com uma única cópia dos dados. O SageMaker Lakehouse proporciona flexibilidade para acessar e consultar os dados, utilizando todas as ferramentas e mecanismos compatíveis com o Apache Iceberg. Garanta a segurança dos seus dados no lakehouse ao definir permissões, que são aplicadas em todas as ferramentas e mecanismos de analytics e de machine learning (ML). Transfira dados de bancos de dados operacionais e de aplicações para o seu lakehouse praticamente em tempo real por meio de integrações ETL zero. Além disso, é possível acessar e consultar dados diretamente ao usar as funcionalidades de consulta federada em fontes de dados de entidades externas.

SageMaker Lakehouse:

a) Reduz os silos de dados ao fornecer acesso unificado aos seus dados em data lakes do Amazon S3 e em data warehouses do Amazon Redshift. Os dados de bancos de dados operacionais e de aplicações podem ser ingeridos em seu lakehouse praticamente em tempo real para analytics e ML, utilizando pipelines de extração, transformação e carregamento (ETL) sem código ou com pouco código. É possível usar centenas de conectores e 13 funcionalidades de consultas federadas para acessar dados tanto da AWS quanto de fontes externas à AWS.

b) Proporciona a flexibilidade de acessar e de consultar todos os seus dados diretamente, usando uma ampla variedade de serviços da AWS, além de ferramentas e mecanismos de código aberto e de entidades externas, compatíveis com o Apache Iceberg. É possível usar ferramentas e mecanismos de análise de sua preferência, como SQL, Apache Spark, ferramentas de business intelligence (BI) e AI/ML, e colaborar com uma única cópia dos dados armazenados no Amazon S3 ou no Amazon Redshift.

c) Aprimora a segurança empresarial com um mecanismo de controle de acesso incorporado que protege seus dados quando acessados por meio de serviços da AWS integrados, como o Amazon Redshift, o Amazon Athena ou o Amazon EMR, ou de mecanismos de entidades externas compatíveis com Apache Iceberg.

O SageMaker Lakehouse é acessível diretamente do Amazon SageMaker Unified Studio (versão prévia). No SageMaker Lakehouse, os dados provenientes de diferentes fontes são organizados em contêineres lógicos chamados catálogos. Cada catálogo representa dados provenientes de fontes de dados existentes, incluindo data warehouses do Amazon Redshift, data lakes ou bancos de dados. É possível criar novos catálogos diretamente no lakehouse para armazenar dados no Amazon S3 ou no armazenamento gerenciado do Amazon Redshift (RMS). Os dados no SageMaker Lakehouse podem ser acessados por meio de mecanismos compatíveis com Apache Iceberg, como o Apache Spark, o Athena ou o Amazon EMR. Além disso, esses catálogos podem ser descobertos como bancos de dados em data warehouses do Amazon Redshift, permitindo o uso de suas ferramentas SQL para analisar os dados do lakehouse.

Funções

O SageMaker Lakehouse unifica o controle de acesso aos seus dados por meio de duas funcionalidades: 1) O SageMaker Lakehouse permite a definição de permissões granulares. Essas permissões são aplicadas pelos mecanismos de consulta, como o Amazon EMR, o Amazon Athena e o Amazon Redshift. 2) O SageMaker Lakehouse possibilita o acesso direto aos seus dados, dispensando a necessidade de criar cópias de dados. Você pode manter uma única cópia dos dados e um único conjunto de políticas de controle de acesso para aproveitar o controle de acesso granular unificado no SageMaker Lakehouse.

O SageMaker Lakehouse foi desenvolvido com base em diversos catálogos técnicos, como o Catálogo de Dados do AWS Glue, o Lake Formation e o Amazon Redshift, para fornecer acesso unificado aos dados em data lakes e em data warehouses. O SageMaker Lakehouse usa o Catálogo de Dados do AWS Glue e o Lake Formation para armazenar definições e permissões de tabelas. As permissões granulares do Lake Formation estão disponíveis para as tabelas definidas no SageMaker Lakehouse. É possível gerenciar as definições de suas tabelas no Catálogo de Dados do AWS Glue e definir permissões granulares, como permissões em nível de tabela, em nível de coluna e em nível de célula, para garantir a segurança dos dados. Além disso, ao usar as funcionalidades de compartilhamento de dados entre contas, você pode habilitar o compartilhamento de dados sem cópias, garantindo que os dados fiquem disponíveis para uma colaboração segura.

Sim. A biblioteca cliente do Apache Iceberg de código aberto é necessária para acessar o SageMaker Lakehouse. Os clientes que usam mecanismos de código aberto, como o Apache Spark ou o Trino, de entidades externas ou autogerenciados, precisam incluir a biblioteca cliente do Apache Iceberg em seus mecanismos de consulta para acessar o SageMaker Lakehouse.

Sim. Com uma biblioteca cliente do Apache Iceberg, é possível realizar a leitura e a gravação de dados no Amazon Redshift já existente ao usar mecanismos Apache Spark em serviços da AWS, como o Amazon EMR, o AWS Glue, o Amazon Athena, e o Amazon SageMaker, ou até mesmo no Apache Spark de entidades externas. No entanto, é necessário ter as permissões de gravação adequadas nas tabelas para realizar a gravação de dados.

Sim. É possível combinar as tabelas do seu data lake no Amazon S3 com as tabelas do seu data warehouse no Amazon Redshift em diferentes bancos de dados, usando o mecanismo de sua preferência, como o Apache Spark.

Migração

Não. Não é necessário migrar os dados para usar o SageMaker Lakehouse. O SageMaker Lakehouse permite o acesso e a consulta aos dados diretamente, utilizando o padrão aberto do Apache Iceberg. É possível acessar diretamente seus dados nos data lakes do Amazon S3 e nos data warehouses do Amazon Redshift. Os dados provenientes de bancos de dados operacionais e de aplicações podem ser ingeridos para o lakehouse praticamente em tempo real por meio de integrações ETL zero disponíveis, sem a necessidade de manutenção de uma infraestrutura ou de pipelines complexos. Você também pode usar as funcionalidades de consulta federada para acessar seus dados diretamente. Além disso, é possível usar centenas de conectores do AWS Glue para integrar-se com suas fontes de dados existentes.

Se você for um usuário do Amazon Redshift, poderá efetuar o registro do seu data warehouse ao SageMaker Lakehouse em algumas etapas simples, sem a necessidade de migrar os dados. Siga as etapas apresentadas no guia do desenvolvedor.

Se você configurou seu data lake no Amazon S3 usando o Catálogo de Dados do AWS Glue, não é necessário fazer nenhuma alteração.

Integrações ETL zero

O SageMaker Lakehouse possibilita integrações ETL zero com o Amazon DynamoDB, o Amazon Aurora, o Amazon RDS para MySQL e oito aplicações, incluindo Zoho CRM, Salesforce, Salesforce Pardot, ServiceNow, anúncios no Facebook, anúncios no Instagram, Zendesk e SAP.

É possível configurar e monitorar as integrações ETL zero por meio do console do AWS Glue dentro do Amazon SageMaker Data Processing com o AWS Glue. Após a ingestão dos dados, você pode acessá-los e consultá-los ao usar mecanismos de consulta compatíveis com o Apache Iceberg. Para obter mais detalhes, acesse a página de documentos sobre as integrações ETL zero.

Para obter mais informações sobre os preços, acesse as páginas de preços do SageMaker Lakehouse e do AWS Glue.

Preços

Acesse a página de preços do SageMaker Lakehouse para obter mais detalhes.

Disponibilidade

O SageMaker Lakehouse está disponível nas seguintes regiões: Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Seul), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), Canadá (Central), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Estocolmo) e América do Sul (São Paulo).

Sim. O SageMaker Lakehouse armazena metadados no Catálogo de Dados do AWS Glue e oferece o mesmo SLA do Amazon Glue.

Conceitos básicos

Para começar a usar, você pode fazer login no seu domínio do SageMaker ao usar suas credenciais corporativas (por exemplo, Okta) no SageMaker Unified Studio (versão prévia). Em algumas etapas simples no SageMaker Unified Studio, os administradores podem criar projetos ao selecionar um perfil de projeto específico. Em seguida, é possível selecionar um projeto para trabalhar com o SageMaker Lakehouse. Após um projeto ser selecionado, você obterá uma visão unificada dos dados, dos mecanismos de consulta e das ferramentas de desenvolvimento em um único local. Usuários, como engenheiros de dados e analistas de dados, podem consultar os dados ao usar a ferramenta de sua preferência. Por exemplo, quando um engenheiro de dados usa um caderno e emite um comando do Spark para listar tabelas, ele descobre todas as tabelas dos data warehouses e dos data lakes aos quais tem acesso. Em seguida, podem executar comandos para a leitura e para a gravação de dados nas tabelas que estão fisicamente armazenadas, tanto em data lakes no Amazon S3 quanto em data warehouses no Amazon Redshift. De forma semelhante, quando um analista de dados executa comandos SQL do Redshift usando um editor SQL, ele obtém a mesma visão unificada dos dados e pode realizar a leitura e a gravação de dados nessas tabelas. Com suas ferramentas preferidas (editor SQL ou caderno), é possível criar novas tabelas no Amazon S3 ou no Amazon Redshift. Consulte as visões materializadas do Amazon Redshift para acelerar a performance das tabelas do seu data lake. Além do SageMaker Unified Studio, o SageMaker Lakehouse também pode ser acessado usando o Console de Gerenciamento da AWS, as APIs do AWS Glue, a AWS Command Line Interface (AWS CLI) ou os AWS SDKs. Para obter mais detalhes, acesse a página de documentação.