- Amazon SageMaker›
- Amazon SageMaker Lakehouse›
- Perguntas frequentes
Perguntas frequentes sobre o Amazon SageMaker Lakehouse
Tópicos da página
GeralGeral
O que é o Amazon SageMaker Lakehouse?
O Amazon SageMaker Lakehouse unifica todos os dados entre os data lakes do Amazon Simple Storage Service (Amazon S3) e os data warehouses do Amazon Redshift, ajudando você a desenvolver aplicações avançadas de analytics e de IA/ML com uma única cópia dos dados. O SageMaker Lakehouse proporciona flexibilidade para acessar e consultar os dados, utilizando todas as ferramentas e mecanismos compatíveis com o Apache Iceberg. Garanta a segurança dos seus dados no lakehouse ao definir permissões, que são aplicadas em todas as ferramentas e mecanismos de analytics e de machine learning (ML). Transfira dados de bancos de dados operacionais e de aplicações para o seu lakehouse praticamente em tempo real por meio de integrações ETL zero. Além disso, é possível acessar e consultar dados diretamente ao usar as funcionalidades de consulta federada em fontes de dados de entidades externas.
Quais são os benefícios do SageMaker Lakehouse?
SageMaker Lakehouse:
a) Reduz os silos de dados ao fornecer acesso unificado aos seus dados em data lakes do Amazon S3 e em data warehouses do Amazon Redshift. Os dados de bancos de dados operacionais e de aplicações podem ser ingeridos em seu lakehouse praticamente em tempo real para analytics e ML, utilizando pipelines de extração, transformação e carregamento (ETL) sem código ou com pouco código. É possível usar centenas de conectores e 13 funcionalidades de consultas federadas para acessar dados tanto da AWS quanto de fontes externas à AWS.
b) Proporciona a flexibilidade de acessar e de consultar todos os seus dados diretamente, usando uma ampla variedade de serviços da AWS, além de ferramentas e mecanismos de código aberto e de entidades externas, compatíveis com o Apache Iceberg. É possível usar ferramentas e mecanismos de análise de sua preferência, como SQL, Apache Spark, ferramentas de business intelligence (BI) e AI/ML, e colaborar com uma única cópia dos dados armazenados no Amazon S3 ou no Amazon Redshift.
c) Aprimora a segurança empresarial com um mecanismo de controle de acesso incorporado que protege seus dados quando acessados por meio de serviços da AWS integrados, como o Amazon Redshift, o Amazon Athena ou o Amazon EMR, ou de mecanismos de entidades externas compatíveis com Apache Iceberg.
De que maneira o SageMaker Lakehouse funciona?
O SageMaker Lakehouse é acessível diretamente do Amazon SageMaker Unified Studio (versão prévia). No SageMaker Lakehouse, os dados provenientes de diferentes fontes são organizados em contêineres lógicos chamados catálogos. Cada catálogo representa dados provenientes de fontes de dados existentes, incluindo data warehouses do Amazon Redshift, data lakes ou bancos de dados. É possível criar novos catálogos diretamente no lakehouse para armazenar dados no Amazon S3 ou no armazenamento gerenciado do Amazon Redshift (RMS). Os dados no SageMaker Lakehouse podem ser acessados por meio de mecanismos compatíveis com Apache Iceberg, como o Apache Spark, o Athena ou o Amazon EMR. Além disso, esses catálogos podem ser descobertos como bancos de dados em data warehouses do Amazon Redshift, permitindo o uso de suas ferramentas SQL para analisar os dados do lakehouse.
Funções
De que maneira o SageMaker Lakehouse fornece controle de acesso unificado aos dados?
O SageMaker Lakehouse unifica o controle de acesso aos seus dados por meio de duas funcionalidades: 1) O SageMaker Lakehouse permite a definição de permissões granulares. Essas permissões são aplicadas pelos mecanismos de consulta, como o Amazon EMR, o Amazon Athena e o Amazon Redshift. 2) O SageMaker Lakehouse possibilita o acesso direto aos seus dados, dispensando a necessidade de criar cópias de dados. Você pode manter uma única cópia dos dados e um único conjunto de políticas de controle de acesso para aproveitar o controle de acesso granular unificado no SageMaker Lakehouse.
De que maneira o SageMaker Lakehouse funciona em conjunto com os serviços da AWS, como o Catálogo de Dados do AWS Glue, o AWS Lake Formation e o Amazon Redshift?
O SageMaker Lakehouse foi desenvolvido com base em diversos catálogos técnicos, como o Catálogo de Dados do AWS Glue, o Lake Formation e o Amazon Redshift, para fornecer acesso unificado aos dados em data lakes e em data warehouses. O SageMaker Lakehouse usa o Catálogo de Dados do AWS Glue e o Lake Formation para armazenar definições e permissões de tabelas. As permissões granulares do Lake Formation estão disponíveis para as tabelas definidas no SageMaker Lakehouse. É possível gerenciar as definições de suas tabelas no Catálogo de Dados do AWS Glue e definir permissões granulares, como permissões em nível de tabela, em nível de coluna e em nível de célula, para garantir a segurança dos dados. Além disso, ao usar as funcionalidades de compartilhamento de dados entre contas, você pode habilitar o compartilhamento de dados sem cópias, garantindo que os dados fiquem disponíveis para uma colaboração segura.
Devo instalar algum software-cliente para acessar as APIs do Apache Iceberg disponibilizadas pelo SageMaker Lakehouse?
Sim. A biblioteca cliente do Apache Iceberg de código aberto é necessária para acessar o SageMaker Lakehouse. Os clientes que usam mecanismos de código aberto, como o Apache Spark ou o Trino, de entidades externas ou autogerenciados, precisam incluir a biblioteca cliente do Apache Iceberg em seus mecanismos de consulta para acessar o SageMaker Lakehouse.
É possível usar o SageMaker Lakehouse para gravar dados no data warehouse do Amazon Redshift ao usar o Apache Spark?
Sim. Com uma biblioteca cliente do Apache Iceberg, é possível realizar a leitura e a gravação de dados no Amazon Redshift já existente ao usar mecanismos Apache Spark em serviços da AWS, como o Amazon EMR, o AWS Glue, o Amazon Athena, e o Amazon SageMaker, ou até mesmo no Apache Spark de entidades externas. No entanto, é necessário ter as permissões de gravação adequadas nas tabelas para realizar a gravação de dados.
É possível combinar meu data lake com as tabelas do data warehouse do Amazon Redshift no SageMaker Lakehouse?
Sim. É possível combinar as tabelas do seu data lake no Amazon S3 com as tabelas do seu data warehouse no Amazon Redshift em diferentes bancos de dados, usando o mecanismo de sua preferência, como o Apache Spark.
Migração
Devo realizar a migração dos meus dados para usar o SageMaker Lakehouse?
Não. Não é necessário migrar os dados para usar o SageMaker Lakehouse. O SageMaker Lakehouse permite o acesso e a consulta aos dados diretamente, utilizando o padrão aberto do Apache Iceberg. É possível acessar diretamente seus dados nos data lakes do Amazon S3 e nos data warehouses do Amazon Redshift. Os dados provenientes de bancos de dados operacionais e de aplicações podem ser ingeridos para o lakehouse praticamente em tempo real por meio de integrações ETL zero disponíveis, sem a necessidade de manutenção de uma infraestrutura ou de pipelines complexos. Você também pode usar as funcionalidades de consulta federada para acessar seus dados diretamente. Além disso, é possível usar centenas de conectores do AWS Glue para integrar-se com suas fontes de dados existentes.
No momento, uso o Amazon Redshift. De que maneira é possível integrar meu data warehouse do Amazon Redshift para o SageMaker Lakehouse?
Se você for um usuário do Amazon Redshift, poderá efetuar o registro do seu data warehouse ao SageMaker Lakehouse em algumas etapas simples, sem a necessidade de migrar os dados. Siga as etapas apresentadas no guia do desenvolvedor.
No momento, uso um data lake do Amazon S3. De que maneira é possível integrar meu data lake para o SageMaker Lakehouse?
Se você configurou seu data lake no Amazon S3 usando o Catálogo de Dados do AWS Glue, não é necessário fazer nenhuma alteração.
Integrações ETL zero
Quais tipos de integrações ETL zero estão disponíveis com o SageMaker Lakehouse?
O SageMaker Lakehouse possibilita integrações ETL zero com o Amazon DynamoDB, o Amazon Aurora, o Amazon RDS para MySQL e oito aplicações, incluindo Zoho CRM, Salesforce, Salesforce Pardot, ServiceNow, anúncios no Facebook, anúncios no Instagram, Zendesk e SAP.
De que maneira é possível acessar as integrações ETL zero com o SageMaker Lakehouse?
É possível configurar e monitorar as integrações ETL zero por meio do console do AWS Glue dentro do Amazon SageMaker Data Processing com o AWS Glue. Após a ingestão dos dados, você pode acessá-los e consultá-los ao usar mecanismos de consulta compatíveis com o Apache Iceberg. Para obter mais detalhes, acesse a página de documentos sobre as integrações ETL zero.
Qual é o modelo de preços da integração ETL zero?
Para obter mais informações sobre os preços, acesse as páginas de preços do SageMaker Lakehouse e do AWS Glue.
Preços
Qual é o preço do SageMaker Lakehouse?
Acesse a página de preços do SageMaker Lakehouse para obter mais detalhes.
Disponibilidade
Em quais regiões da AWS o SageMaker Lakehouse está disponível?
O SageMaker Lakehouse está disponível nas seguintes regiões: Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Seul), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), Canadá (Central), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Estocolmo) e América do Sul (São Paulo).
O SageMaker Lakehouse disponibiliza um SLA?
Sim. O SageMaker Lakehouse armazena metadados no Catálogo de Dados do AWS Glue e oferece o mesmo SLA do Amazon Glue.
Conceitos básicos
De que maneira é possível começar a usar o SageMaker Lakehouse?
Para começar a usar, você pode fazer login no seu domínio do SageMaker ao usar suas credenciais corporativas (por exemplo, Okta) no SageMaker Unified Studio (versão prévia). Em algumas etapas simples no SageMaker Unified Studio, os administradores podem criar projetos ao selecionar um perfil de projeto específico. Em seguida, é possível selecionar um projeto para trabalhar com o SageMaker Lakehouse. Após um projeto ser selecionado, você obterá uma visão unificada dos dados, dos mecanismos de consulta e das ferramentas de desenvolvimento em um único local. Usuários, como engenheiros de dados e analistas de dados, podem consultar os dados ao usar a ferramenta de sua preferência. Por exemplo, quando um engenheiro de dados usa um caderno e emite um comando do Spark para listar tabelas, ele descobre todas as tabelas dos data warehouses e dos data lakes aos quais tem acesso. Em seguida, podem executar comandos para a leitura e para a gravação de dados nas tabelas que estão fisicamente armazenadas, tanto em data lakes no Amazon S3 quanto em data warehouses no Amazon Redshift. De forma semelhante, quando um analista de dados executa comandos SQL do Redshift usando um editor SQL, ele obtém a mesma visão unificada dos dados e pode realizar a leitura e a gravação de dados nessas tabelas. Com suas ferramentas preferidas (editor SQL ou caderno), é possível criar novas tabelas no Amazon S3 ou no Amazon Redshift. Consulte as visões materializadas do Amazon Redshift para acelerar a performance das tabelas do seu data lake. Além do SageMaker Unified Studio, o SageMaker Lakehouse também pode ser acessado usando o Console de Gerenciamento da AWS, as APIs do AWS Glue, a AWS Command Line Interface (AWS CLI) ou os AWS SDKs. Para obter mais detalhes, acesse a página de documentação.