O que é ETL zero?
ETL zero corresponde a um conjunto de integrações que elimina ou minimiza a necessidade de desenvolver pipelines de dados de ETL. Extração, transformação e carregamento (ETL) é o processo de combinar, limpar e normalizar dados de diferentes fontes para prepará-los para workloads de análise, inteligência artificial (IA) e machine learning (ML). Os processos de ETL tradicionais são demorados e complexos de desenvolver, manter e escalar. Em vez disso, as integrações ETL zero facilitam a movimentação de dados ponto a ponto sem a necessidade de criar pipelines de dados de ETL. A integração de ETL zero também pode habilitar consultas em silos de dados sem a necessidade de movimentação de dados.
Quais desafios de ETL a integração ETL zero resolve?
As integrações ETL zero resolvem muitos dos desafios existentes na movimentação de dados em processos de ETL tradicionais.
Aumento da complexidade do sistema
Os pipelines de dados de ETL adicionam mais uma camada de complexidade às suas iniciativas de integração de dados. O mapeamento de dados para corresponder ao esquema de destino desejado envolve regras complexas associadas a esse processo e requer o tratamento de inconsistências e de conflitos de dados. É necessário implementar mecanismos eficazes de tratamento, registro em log e notificação de erros para diagnosticar problemas. Os requisitos de segurança de dados aumentam ainda mais as restrições do sistema.
Custos adicionais
Os pipelines de ETL são dispendiosos no começo, mas os custos podem aumentar à medida que o volume de dados cresce. O armazenamento de dados duplicados entre sistemas pode não ser acessível para grandes volumes de dados. Além disso, a escalabilidade dos processos de ETL geralmente requer atualizações caras de infraestrutura, otimização da performance das consultas e técnicas de processamento em paralelo. Se os requisitos forem alterados, a engenharia de dados precisa monitorar e testar constantemente o pipeline durante o processo de atualização, aumentando os custos de manutenção.
Atraso em análises, IA e ML
Normalmente, ETL requer que os engenheiros de dados criem um código personalizado e que os engenheiros de DevOps implantem e gerenciem a infraestrutura necessária para escalar a workload. Em caso de alterações nas fontes de dados, os engenheiros de dados precisam modificar manualmente o código e implantá-lo novamente. O processo pode demorar semanas, causando atrasos na execução das workloads de análises, inteligência artificial e machine learning. Além disso, o tempo necessário para desenvolver e implantar pipelines de dados de ETL torna os dados impróprios para casos de uso quase em tempo real, como a colocação de anúncios on-line, a detecção de transações fraudulentas ou a análise da cadeia de suprimentos em tempo real. Nesses cenários, a chance de aprimorar as experiências do cliente, abordar novas oportunidades de negócios ou reduzir os riscos de negócios é perdida.
Quais são os benefícios de ETL zero?
A integração de ETL zero oferece vários benefícios para a estratégia de dados de uma organização.
Aumento da agilidade
O ETL zero simplifica a arquitetura de dados e reduz os esforços de engenharia de dados. Isso permite a inclusão de novas fontes de dados sem a necessidade de reprocessar grandes quantidades de dados. Essa flexibilidade aumenta a agilidade ao oferecer suporte para a tomada de decisão orientada a dados e a inovação rápida.
Eficiência de custos
ETL zero utiliza tecnologias de integração de dados que são nativas de nuvem e escaláveis, permitindo que as empresas otimizem os custos com base nas necessidades reais de uso e de processamento de dados. As organizações reduzem os custos de infraestrutura, os esforços gastos em desenvolvimento e as despesas gerais de manutenção.
Tempo de obtenção de insights mais rápido
Geralmente, os processos de ETL tradicionais envolvem atualizações periódicas em lote, o que resulta em atrasos na disponibilidade de dados. ETL zero, por outro lado, fornece acesso a dados em tempo real, ou quase, garantindo dados mais atualizados para análises, IA/ML e geração de relatórios. Você obtém insights mais precisos e com rapidez para casos de uso, como painéis em tempo real, experiências de jogos otimizadas, monitoramento de qualidade dos dados e análises de comportamento dos clientes. As organizações fazem previsões orientadas a dados com mais confiança, aprimoram as experiências do cliente e promovem insights orientados a dados em toda a empresa.
Quais são os diferentes casos de uso para ETL zero?
Existem três casos de uso principais para ETL zero.
Ingestão rápida de dados
As empresas precisam ingerir e analisar rapidamente diferentes tipos de dados para tomar decisões em tempo real. O ETL zero fornece uma abordagem flexível para ingerir dados rapidamente diretamente em data warehouses e data lakehouses. Isso elimina a necessidade de canais de ETL tradicionais, permitindo que as organizações se adaptem às mudanças nos requisitos de negócios com facilidade.
Ingestão de streaming
As plataformas de streaming de dados e enfileiramento de mensagens transmitem dados em tempo real de várias fontes. Uma integração ETL zero com um data warehouse permite ingerir dados de vários desses fluxos e apresentá-los para análise quase instantaneamente. Não há necessidade de preparar os dados de streaming, pois essas plataformas também oferecem transformações e análises avançadas enquanto os dados estão em movimento.
Replicação instantânea
Tradicionalmente, mover dados de um banco de dados operacional e transacional para um data warehouse e um data lakehouse central sempre exigia uma solução de ETL complexa. Atualmente, o ETL zero pode atuar como uma ferramenta de replicação de dados, duplicando instantaneamente os dados do banco de dados operacional, do banco de dados transacional e das aplicações para o data warehouse e o data lakehouse. O mecanismo de duplicação usa técnicas de captura de dados de alteração (CDC) e pode ser incorporado ao data warehouse e data lakehouse. A duplicação é invisível para os usuários, portanto, as aplicações armazenam dados no banco de dados transacional e os analistas consultam os dados do warehouse sem problemas.
Como a AWS pode ajudar você nas suas iniciativas de ETL zero?
A AWS está investindo em um futuro com ETL zero. A seguir são apresentados exemplos de serviços que oferecem suporte integrado para ETL zero.
O Amazon SageMaker Lakehouse e o Amazon Redshift oferecem suporte para integrações ETL zero a partir de aplicações, o que automatiza a extração e o carregamento de dados de aplicações no Amazon SageMaker Lakehouse e no Amazon Redshift.
A integração ETL zero do Amazon DynamoDB com o Amazon SageMaker Lakhouse automatiza a extração e o carregamento de dados do Amazon DynamoDB no Amazon SageMaker Lakehouse, um data lake transacional criado no Amazon S3.
A integração ETL zero do Amazon OpenSearch Service com o Amazon CloudWatch Logs permite a consulta direta e a visualização de dados de log quase em tempo real, centralizando o gerenciamento de logs sem pipelines complexos ou pré-processamento.
A integração ETL zero do Amazon OpenSearch Service com o Amazon Security Lake permite a pesquisa e a análise diretas de dados de segurança, eliminando os desafios de integração de dados e reduzindo a complexidade, a sobrecarga operacional e os custos por meio da aceleração de dados sob demanda e de recursos analíticos avançados.
A integração ETL zero do Amazon Aurora com o Amazon Redshift possibilita análises e machine learning (ML) quase em tempo real. Essa tecnologia usa o Amazon Redshift para workloads de análise em petabytes de dados transacionais do Aurora. É uma solução totalmente gerenciada para disponibilizar dados transacionais no Amazon Redshift depois de eles serem gravados em um cluster de banco de dados do Aurora.
A integração ETL zero do Amazon RDS para MySQL com o Amazon Redshift ajuda a obter insights holísticos em muitas aplicações e a romper silos de dados na organização, simplificando a análise de dados de uma ou várias instâncias do Amazon RDS para MySQL no Amazon Redshift.
A integração ETL zero do Amazon DynamoDB com o Amazon OpenSearch Service oferece aos clientes recursos avançados de pesquisa, como texto completo e pesquisa vetorial, para dados do Amazon DynamoDB.
A integração ETL zero do Amazon DocumentDB com o Amazon OpenSearch Service fornece aos clientes recursos avançados de pesquisa, como pesquisa difusa, pesquisa de coleções cruzadas e pesquisa multilíngue, em seus documentos do Amazon DocumentDB usando a API do OpenSearch.
A integração ETL zero do Amazon OpenSearch Service com o Amazon S3, uma nova forma eficiente de os clientes consultarem logs operacionais em data lakes do Amazon S3, sem precisar alternar entre ferramentas para analisar os dados.
A integração ETL zero do Amazon Aurora PostgreSQL com o Amazon Redshift permite executar análises e machine learning (ML) praticamente em tempo real usando o Amazon Redshift para analisar petabytes de dados transacionais do Aurora.
A integração ETL zero do Amazon DynamoDB com o Amazon Redshift permite que os clientes executem análises de alto desempenho em seus dados do DynamoDB no Amazon Redshift sem impacto nas workloads de produção em execução no DynamoDB.
Comece a usar ETL zero na AWS criando uma conta hoje mesmo.
Próximas etapas na AWS
Obtenha acesso instantâneo ao nível gratuito da AWS.