Atributos do AWS Glue

Por que usar o Glue?

O AWS Glue é um serviço de integração de dados escalável e com tecnologia sem servidor que facilita a descoberta, preparação, movimentação e integração de dados de várias fontes para análise, machine learning e desenvolvimento de aplicações. Através da assistência de IA generativa, o AWS Glue oferece todos os recursos necessários para a integração dos dados. Isso permite obter insights e utilizar dados em questão de minutos, em vez de meses. Com o AWS Glue, não existe nenhuma infraestrutura a configurar ou gerenciar. Você paga apenas pelos recursos consumidos durante a execução dos trabalhos.

Discover

O Catálogo de Dados do AWS Glue é um armazenamento persistente de metadados para todos os ativos de dados, independentemente da localização. O catálogo de dados contém definições de tabelas e trabalhos, esquemas e outras informações de controle que ajudam a gerenciar o ambiente do AWS Glue. Ele calcula estatísticas e registra partições de forma automática, possibilitando consultas de dados com eficiência e economia. Além disso, ele mantém um histórico de versões de schemas abrangente para que você possa compreender como os dados mudam com o tempo.

Os crawlers do AWS Glue conectam-se ao armazenamento de dados de origem ou de destino, percorrem uma lista priorizada de classificadores para determinar o esquema dos dados e criam metadados no Catálogo de Dados do AWS Glue. Os metadados são armazenados em tabelas no Catálogo de Dados e são utilizados no processo de autoria de trabalhos de extração, transformação e carregamento (ETL). Você pode executar crawlers de forma programada, sob demanda ou acionando-os com base em um evento para garantir que os metadados estejam atualizados.

O Registro de esquema do AWS Glue, um recurso de tecnologia sem servidor do AWS Glue, ajuda a validar e a controlar a evolução dos dados de streaming usando esquemas Apache Avro registrados, sem custo adicional. Por meio de serializadores e desserializadores licenciados pelo Apache, o Registro de esquema do AWS Glue se integra a aplicações Java desenvolvidas para o Apache Kafka/Amazon Managed Streaming for Apache Kafka (Amazon MSK), o Amazon Kinesis Data Streams, o Apache Flink/Amazon Kinesis Data Analytics for Apache Flink e o AWS Lambda. Quando aplicações de streaming de dados são integradas ao Registro de esquema do AWS Glue, você pode melhorar a qualidade dos dados e se proteger contra mudanças inesperadas usando verificações de compatibilidade que controlam a evolução do esquema. E mais, você pode criar ou atualizar tabelas e partições do AWS Glue usando esquemas armazenados no registro.

O ajuste de escala automático, um recurso de tecnologia sem servidor no AWS Glue, aumenta e reduz verticalmente os recursos de maneira dinâmica com base na workload. Com o ajuste de escala automático, seu trabalho é atribuído a operadores somente quando necessário. À medida que o trabalho avança e passa por transformações avançadas, o AWS Glue adiciona e remove recursos dependendo do quanto é possível dividir a workload. Você não precisa mais se preocupar com o provisionamento excessivo de recursos, gastar tempo otimizando o número de operadores ou pagar por recursos ociosos.

Preparar-se

O AWS Glue ajuda a limpar e a preparar seus dados para análise sem que você precise se tornar um especialista em ML. O recurso FindMatches desduplica e encontra registros que são correspondências imperfeitas entre si. Por exemplo, use FindMatches para encontrar registros duplicados em seu banco de dados de restaurantes, como quando um registro lista “Joe's Pizza” no endereço “121 Main St.”, e outro mostra “Joseph's Pizzeria” no endereço “121 Main”. O recurso FindMatches apenas solicitará que você rotule os conjuntos de registros como “correspondentes” ou “não correspondentes”. O sistema então aprenderá seus critérios para chamar um par de registros de “correspondência” e criará um trabalho de ETL que pode ser usado para encontrar registros duplicados em um banco de dados ou registros correspondentes em dois bancos de dados.

Se você optar por desenvolver interativamente o código de ETL, o AWS Glue fornecerá endpoints de desenvolvimento para editar, depurar e testar o código gerado para você. Você pode usar seu ambiente de desenvolvimento integrado (IDE) ou bloco de anotações favorito. Leitores, gravadores ou transformações personalizados podem ser criados e importados para trabalhos de ETL do AWS Glue como bibliotecas personalizadas. Também é possível usar e compartilhar código com outros desenvolvedores em nosso repositório do GitHub. O AWS Glue Interactive Sessions, um recurso de tecnologia sem servidor para desenvolvimento de trabalhos, simplifica o desenvolvimento de trabalhos de integração de dados. Os engenheiros também podem explorar, testar e processar dados interativamente usando o IDE ou o bloco de anotações de sua escolha.

O AWS Glue DataBrew fornece uma interface visual interativa, do tipo apontar e clicar, para que usuários como analistas de dados e cientistas de dados limpem e normalizem dados sem escrever código. É fácil visualizar, limpar e normalizar os dados diretamente de data lakes, data warehouses e bancos de dados, incluindo Amazon Simple Storage Service (Amazon S3), Amazon Redshift, Amazon Aurora e Amazon Relational Database Service (Amazon RDS). Você pode escolher entre mais de 250 transformações integradas para combinar, girar e migrar os dados, além de automatizar tarefas de preparação de dados aplicando as transformações salvas diretamente nos novos dados recebidos.

O AWS Glue Sensitive Data Detection ajuda a definir, identificar e processar dados sigilosos no pipeline de dados e no data lake. Uma vez identificados, você pode corrigir dados sigilosos ocultando, substituindo ou relatando dados de informações de identificação pessoal (PII) e outros tipos de dados considerados sigilosos. O AWS Glue Sensitive Data Detection simplifica a identificação e o mascaramento de dados sigilosos, incluindo PII, como nome, número de seguro social, endereço, e-mail e carteira de motorista.

Os desenvolvedores gostam do Python por sua facilidade de uso e rica coleção de bibliotecas de processamento de dados integradas. Eles querem usar o tipo primitivo familiar do Python para processar grandes conjuntos de dados. O AWS Glue para Ray ajuda os engenheiros de dados a processar grandes conjuntos de dados usando Python e bibliotecas Python bem conhecidas. O AWS Glue para Ray usa o Ray.io, uma estrutura de computação unificada de código aberto, que ajuda a ajustar a escala das workloads do Python de um único nó para centenas de nós. O AWS Glue para Ray usa a tecnologia sem servidor; portanto, não há infraestrutura para gerenciar.

O AWS Glue ajuda a criar transformações visuais personalizadas para que você possa definir, reutilizar e compartilhar a lógica ETL. Com as transformações visuais personalizadas do AWS Glue, os engenheiros de dados podem escrever e compartilhar a lógica Apache Spark específica do negócio, reduzindo a dependência dos desenvolvedores do Spark e tornando mais simples manter os trabalhos de ETL atualizados. Essas transformações estão disponíveis para todos os trabalhos em sua conta da AWS, sejam visuais ou baseados em código.

O AWS Glue fornece recursos de IA generativa para analisar automaticamente seus trabalhos do Spark e gerar planos de upgrade para versões mais recentes. Isso reduz o tempo e o esforço necessários para manter suas tarefas do Spark modernas, seguras e eficientes, automatizando a identificação e a atualização de scripts e configurações.

O AWS Glue usa a IA generativa para identificar e resolver rapidamente problemas em trabalhos do Spark. Ele analisa metadados do trabalho, logs de execução e configurações para fornecer análises de causa raiz e recomendações acionáveis, reduzindo o tempo de solução de problemas de dias para minutos.

Integrar

O AWS Glue Interactive Sessions, um recurso de tecnologia sem servidor para desenvolvimento de trabalhos, simplifica o desenvolvimento de trabalhos de integração de dados. Com o AWS Glue Interactive Sessions, os engenheiros de dados exploram e preparam os dados de modo interativo. Os engenheiros também podem explorar, testar e processar dados interativamente usando o IDE ou o bloco de anotações de sua escolha.

O AWS Glue Studio Job Notebooks fornece blocos de anotações de tecnologia sem servidor com configuração mínima no AWS Glue Studio para que os desenvolvedores possam dar os primeiros passos rapidamente. Com os AWS Glue Studio Job Notebooks, você tem acesso a uma interface integrada para o AWS Glue Interactive Sessions, na qual você pode salvar e programar o código do bloco de anotações como trabalhos do AWS Glue.

Os trabalhos do AWS Glue podem ser chamados por agendamento, sob demanda ou com base em um evento. É possível iniciar vários trabalhos em paralelo ou especificar dependências entre trabalhos para criar pipelines de ETL complexos. O AWS Glue processará todas as dependências entre trabalhos, filtrará dados inválidos e tentará executar novamente os trabalhos que falharem. Todos os logs e notificações são enviados ao Amazon CloudWatch para que você possa monitorar e obter alertas em um serviço central. O Amazon Managed Workflows for Apache Airflow (MWAA) é um serviço gerenciado para o Apache Airflow que permite que você use a plataforma atual e familiar do Apache Airflow para orquestrar seus fluxos de trabalho. Ao usar o MWAA, é possível orquestrar diversos processos de ETL que usam diversas tecnologias em um fluxo de trabalho de ETL complexo.

O AWS Glue se integra ao Git, o sistema de controle de versões de código aberto amplamente utilizado. É possível usar o GitHub e o AWS CodeCommit para manter um histórico de mudanças em trabalhos do AWS Glue e aplicar práticas de DevOps existentes para implantá-las. A integração do AWS Glue com o Git funciona para todos os tipos de trabalho do AWS Glue, tanto visuais quanto baseados em código. Isso inclui a integração com o GitHub e o CodeCommit, além de simplificar o uso de ferramentas de automação, como o Jenkins e o AWS CodeDeploy para implantar trabalhos do AWS Glue.

O AWS Glue Flex é uma classe de trabalho de execução flexível que permite reduzir em até 35% o custo de suas workloads de integração de dados não urgentes (por exemplo, trabalhos de pré-produção, testes e carregamentos de dados). O AWS Glue tem duas classes de execução de trabalho: padrão e flexível. A classe de execução padrão é ideal para workloads sensíveis ao tempo que exigem inicialização rápida do trabalho e recursos dedicados. O AWS Glue Flex é apropriado para trabalhos não sensíveis ao tempo, cujos horários de início e conclusão podem variar.

O AWS Glue oferece suporte nativo a três estruturas de código aberto, incluindo Apache Hudi, Apache Iceberg e Linux Foundation Delta Lake. Essas estruturas ajudam a gerenciar dados de maneira transacionalmente consistente para uso no data lake baseado no Amazon S3.

O AWS Glue Data Quality ajuda a melhorar a qualidade e a confiança dos dados. Ele mede, monitora e gerencia automaticamente a qualidade dos dados em seus data lakes e pipelines. Ele também calcula estatísticas automaticamente, recomenda regras de qualidade, monitora e alerta você quando a qualidade se deteriora, facilitando a identificação de dados ausentes, obsoletos ou incorretos antes que eles afetem seus negócios.

O AWS Glue 5.0 e as versões posteriores ajudam a simplificar a segurança e a governança em data lakes transacionais ao fornecerem controles de acesso em permissões de nível de tabela, de coluna e de linha com seus trabalhos do Apache Spark acessando tabelas do Apache Iceberg, do Apache Hudi e do Delta.

Transformar

O AWS Glue Studio permite criar trabalhos ETL altamente escalonáveis para o processamento distribuído sem ser especialista em Apache Spark. Defina o processo ETL no editor de tarefas de arrastar e soltar e o AWS Glue gerará automaticamente o código para extrair, transformar e carregar seus dados. O código é gerado em Scala ou Python para o Apache Spark.

Crie trabalhos de ETL usando linguagem natural com a integração de dados do Amazon Q no AWS Glue. Basta descrever suas necessidades de transformação de dados e obter um código Apache Spark gerado automaticamente que você pode personalizar, testar e implantar como trabalhos de produção.

Os trabalhos ETL de streaming sem servidor no AWS Glue consomem dados continuamente de fontes de streaming, incluindo o Amazon Kinesis e o Amazon MSK, são limpos e transformados em trânsito, e disponibilizados para análise em segundos em seu armazenamento de dados de destino. Use esse recurso para processar dados de eventos como streams de eventos da IoT, sequências de cliques e logs da rede. Os trabalhos ETL de transmissão do AWS Glue podem enriquecer e agregar dados, unir fontes em lote e de transmissão, e fazer diversas operações complexas de análise de dados e machine learning.

Otimização

O Catálogo de Dados do AWS Glue oferece suporte para a otimização de tabelas do Apache Iceberg.

O Catálogo de Dados do AWS Glue oferece suporte à compactação de dados que compacta pequenos arquivos de dados para reduzir o uso de armazenamento e aprimorar a performance de leitura.

O Catálogo de Dados do AWS Glue oferece suporte ao otimizador de retenção de snapshots que pode ajudar a gerenciar a sobrecarga de armazenamento ao retor somente os snapshots necessários e ao remover os snapshots mais antigos e desnecessários e os arquivos subjacentes associados.

O Catálogo de Dados do AWS Glue oferece suporte à identificação e à remoção periódica de arquivos desnecessários não referenciados, liberando espaço de armazenamento.

O Catálogo de Dados do AWS Glue fornece suporte para o cálculo e para a atualização do número de valores distintos (NDVs) para cada coluna em tabelas do Iceberg, resultando em uma melhor otimização de consultas, gerenciamento de dados e eficiência de performance para engenheiros e cientistas de dados que trabalham com conjuntos de dados em grande escala.

O Catálogo de Dados do AWS Glue oferece suporte para estatísticas em nível de coluna em formatos de dados como Parquet, ORC, JSON, ION, CSV e XML. Os serviços de análises da AWS, como o Amazon Redshift e o Amazon Athena, podem usar essas estatísticas de coluna para gerar planejamentos de execução de consulta e escolher o plano ideal que aprimorará a performance da consulta.