Perguntas frequentes sobre o Amazon Athena

Geral

O Athena é um serviço de análise interativa que simplifica a análise de dados no Amazon Simple Storage Service (S3) usando SQL. O Athena não usa servidor, de forma que não existe uma infraestrutura para configurar ou gerenciar. É possível começar a analisar os dados imediatamente. Não é necessário nem mesmo carregar dados no Athena. Ele trabalha diretamente com os dados armazenados no Amazon S3. O Amazon Athena para SQL usa Trino e Presto, com suporte completo a SQL padrão, e funciona com diversos formatos de dados padrão, como CSV, JSON, Apache ORC, Apache Parquet e Apache Avro. O Athena para Apache Spark é compatível com SQL e permite usar o Apache Spark, um sistema de processamento distribuído de código aberto utilizado para workloads de big data. Para começar a usá-lo, faça login no Console de Gerenciamento do Athena e comece a interagir com os dados usando o editor de consultas ou os cadernos.

Com o Athena, você pode analisar dados armazenados no S3 e em 30 fontes de dados diferentes, incluindo fontes de dados on-premises ou outros sistemas de nuvem. É possível usar o Athena para executar análises interativas usando SQL ANSI ou Python sem a necessidade de agregar ou carregar os dados no Athena. O Athena pode processar conjuntos de dados estruturados, semiestruturados e não estruturados. Alguns exemplos são os formatos de dados CSV, JSON e Avro, além dos formatos de dados colunares, como Parquet e ORC. O Amazon Athena for SQL se integra ao Amazon QuickSight para visualização de dados ou criação de painéis. Você também pode usar o Athena para gerar relatórios ou explorar dados com ferramentas de business intelligence ou clientes SQL conectados por meio de um driver ODBC ou JDBC

Faça login no Console de Gerenciamento da AWS para o Athena e crie seu esquema escrevendo instruções Data Definition Language (DDL) no console ou usando um assistente de criação de tabelas. Depois, você pode começar a consultar dados usando um editor de consultas incorporado. O Athena consulta dados diretamente pelo Amazon S3, para que nenhum carregamento seja necessário.

Amazon Athena for SQL

É possível acessar o Amazon Athena for SQL pelo Console de Gerenciamento da AWS, AWS SDK e CLI ou por um driver ODBC ou JDBC do Athena. Você pode executar consultas e adicionar tabelas ou partições de forma programática usando o driver ODBC ou JDBC.

O Athena for SQL usa o Trino com suporte completo a SQL padrão, e funciona com diversos formatos de dados padrão, como CSV, JSON, ORC, Avro e Parquet. O Athena consegue lidar com análises complexas, inclusive grandes associações, funções de janela e matrizes. Com o mecanismo SQL do Amazon Athena versão 3 criado no Trino, continuamos a aumentar a performance e a fornecer novos recursos, semelhante à nossa abordagem no mecanismo do Amazon Athena versão 2 criado no Presto. Um dos aspectos mais empolgantes da v3 é sua nova abordagem de integração contínua para gerenciamento de software de código aberto, que manterá os clientes atualizados com os projetos Trino e PrestoDB. Nosso objetivo é ficar entre 60 e 90 dias após o lançamento do Trino com código aberto. A equipe de desenvolvimento do Athena está contribuindo ativamente com correções de bugs e aprimoramentos de segurança, escalabilidade, performance e recursos para essas bases de código aberto. O objetivo é que qualquer pessoa que use o Trino, o Presto e o Apache Iceberg possa se beneficiar das contribuições da equipe.

O Athena for SQL usa um Catálogo de Dados do AWS Glue gerenciado para armazenar informações e esquemas sobre os bancos de dados e as tabelas que você cria para os dados armazenados no S3. Nas regiões em que o AWS Glue está disponível, você pode fazer upgrade para usar o Catálogo de Dados com o Athena. Nas regiões em que o AWS Glue não está disponível, o Athena usa um catálogo interno.

 

Você pode modificar o catálogo usando instruções DDL ou pelo Console de Gerenciamento da AWS. Todos os esquemas que você definir serão automaticamente salvos, a menos que você explicitamente os exclua. O Athena usa a tecnologia esquema na leitura, o que significa que suas definições de tabela serão aplicadas aos dados no S3 quando as consultas estiverem sendo executadas. Não é necessário carregar nem transformar dados. Você pode excluir as definições de tabela e o esquema sem afetar os dados subjacentes armazenados no S3.

AWS Glue é um serviço totalmente gerenciado de extração, transformação e carregamento (ETL). O AWS Glue tem três componentes principais: 1) um crawler que automaticamente verifica fontes de dados, identifica formatos de dados e infere esquemas, 2) um serviço totalmente gerenciado de ETL que permite transformar e migrar dados para vários destinos e 3) um Catálogo de Dados que armazena informações de metadados sobre tabelas e bancos de dados armazenados no S3 ou em um datastore compatível com ODBC ou JDBC. Para aproveitar os benefícios do AWS Glue, faça upgrade, deixando de usar o catálogo interno de dados do Athena e adotando o Catálogo de Dados do Glue.

Os benefícios do upgrade para o Catálogo de Dados são:

  • Repositório de metadados unificado: o AWS Glue é integrado a vários serviços da AWS. O AWS Glue aceita dados armazenados no Amazon Aurora, no Amazon Relational Database Service (RDS) for MySQL, no Amazon RDS para PostgreSQL, no Amazon Redshift e no S3, bem como nos bancos de dados MySQL e PostgreSQL da Virtual Private Cloud (Amazon VPC) em execução no Amazon Elastic Compute Cloud (EC2). O AWS Glue disponibiliza integração pronta para uso com os serviços Amazon Athena, Amazon EMR e Amazon Redshift Spectrum e com aplicações compatíveis com o metastore do Apache Hive.
  • Reconhecimento automático de esquema e partição: o AWS Glue faz automaticamente crawling de fontes de dados, identifica formatos de dados e sugere esquemas e transformações. Os crawlers podem ajudar a automatizar a criação de tabelas e o carregamento automático de partições.

Para saber mais sobre o Catálogo de Dados, acesse a página da Web AWS Glue.

Sim. Para ver o processo detalhado, leia o Guia do usuário do Amazon Athena: Integration with AWS Glue (Integração com o AWS Glue).

Para ver os detalhes da disponibilidade do serviço Athena por região, consulte a Lista de serviços regionais da AWS.

Para saber mais sobre os limites do serviço, leia o Guia do usuário do Amazon Athena: Service Quotas.

Criação de tabelas, formatos de dados e partições

O Athena usa a DDL do Apache Hive para definir tabelas. Você pode executar instruções DDL por meio do console do Athena, de um driver ODBC ou JDBC, da API ou do assistente de criação de tabelas do Athena. Se você usa o Catálogo de Dados com o Athena, também pode usar os crawlers do AWS Glue para inferir automaticamente esquemas e partições. Um crawler do AWS Glue se conecta a um datastore, analisa uma lista priorizada de classificadores para extrair o esquema dos dados e de outras estatísticas e, por fim, preenche o Catálogo de Dados com os metadados obtidos. Os crawlers podem ser executados periodicamente para detectar a disponibilidade de novos dados, bem como alterações feitas nos dados atuais, inclusive alterações de definição de tabela. Os crawlers adicionam automaticamente novas tabelas, novas partições para tabelas atuais e novas versões de definições de tabela. É possível personalizar os crawlers do AWS Glue para classificar seus próprios tipos de arquivos. 

Quando você cria um esquema de tabela no Athena, ele é armazenado no Catálogo de Dados e usado ao realizar consultas, mas não modifica os dados no S3. O Athena usa uma abordagem conhecida como esquema na leitura, que permite projetar o esquema nos dados ao realizar uma consulta. Isso elimina a necessidade de carregar ou transformar dados. Saiba mais sobre criação de tabelas

O Athena é compatível com vários formatos de dados, como CSV, TSV, JSON ou Textfiles, e com formatos colunares de código aberto, como ORC e Parquet. Ele também é compatível com dados compactados em formato Snappy, Zlib, LZO e GZIP. Você pode melhorar a performance e reduzir os custos compactando, particionando e usando formatos colunares. 

O Athena é compatível com tipos de dados simples, como INTEGER, DOUBLE, VARCHAR, e com tipos de dados complexos, como MAPS, ARRAY e STRUCT.  

O Athena só usa o Hive para DDL e criação/modificação e exclusão de tabelas ou partições. Para ver a lista completa de instruções aceitas, leia o Guia do usuário do Amazon Athena: DDL statements (Instruções DDL). O Athena usa o Trino e o Presto para realizar consultas SQL no S3. Você pode executar instruções SELECT de SQL compatíveis com ANSI para consultar seus dados no S3.

SerDe é a sigla de Serializer/Deserializer (serializador/desserializador), que são bibliotecas que dizem ao Hive como interpretar formatos de dados. As instruções DDL do Hive exigem que você especifique um SerDe, de forma que o sistema saiba como interpretar os dados para os quais você está apontando. O Athena usa SerDes para interpretar os dados lidos pelo S3. O conceito de SerDes no Athena é o mesmo que o conceito usado no Hive. O Amazon Athena é compatível com os seguintes SerDes:

  • Logs do Apache Web: "org.apache.hadoop.hive.serde2.RegexSerDe"
  • CSV: "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe"
  • TSV: "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe"
  • Delimitadores personalizados: "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe"
  • Parquet: "org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe"
  • Orc: "org.apache.hadoop.hive.ql.io.orc.OrcSerde"
  • JSON: “org.apache.hive.hcatalog.data.JsonSerDe” ou "org.openx.data.jsonserde.JsonSerDe"

Atualmente, não é possível adicionar seu próprio SerDe ao Athena. Como valorizamos seu feedback, se houver algum SerDe que você gostaria de adicionar, entre em contato com a equipe do Athena pelo endereço athena-feedback@amazon.com.

Sim, arquivos Parquet e ORC criados com Spark podem ser lidos no Athena.

Se os dados do Kinesis Data Firehose estiverem armazenados no S3, você poderá consultá-los usando o Athena. Basta criar um esquema para os dados no Athena e iniciar a consulta. Recomendamos que você organize os dados em partições para otimizar a performance. Você pode adicionar partições criadas pelo Data Firehose usando instruções DDL ALTER TABLE. Saiba mais sobre particionamento de dados

Sim. Você pode particionar seus dados em qualquer coluna com o Athena. As partições permitem limitar a quantidade de dados lidos a cada consulta, economizando custos e acelerando a performance. Você pode especificar o esquema de particionamento usando a cláusula PARTITIONED BY na instrução CREATE TABLE. O Amazon Athena oferece suporte a índices de partição do Catálogo de Dados do AWS Glue para otimizar o planejamento de consultas e reduzir o runtime de consultas. Quando você consulta uma tabela contendo um grande número de partições, o Athena recupera as partições disponíveis do Catálogo de Dados do AWS Glue e determina quais delas são exigidas pela sua consulta. À medida que novas partições são adicionadas, o tempo necessário para recuperar as partições aumenta e pode fazer com que o tempo de execução da consulta aumente. O Catálogo de Dados do AWS Glue permite que os clientes criem índices de partição que reduzem o tempo necessário para recuperar e filtrar metadados de partições em tabelas com dezenas e centenas de milhares de partições.

Se os seus dados forem particionados, você precisará realizar uma consulta de metadados (ALTER TABLE ADD PARTITION) para adicionar a partição ao Athena depois que novos dados forem disponibilizados no S3. Se eles não estiverem particionados, a simples adição de novos dados (ou arquivos) ao prefixo existente adicionará automaticamente os dados ao Athena. Saiba mais sobre particionamento de dados.

Sim, o Athena simplifica a realização de consultas SQL padrão nos dados de log existentes. O Athena consulta os dados diretamente pelo Amazon S3, então não é necessário mover nem carregar dados. Basta definir seu esquema usando instruções DDL e iniciar imediatamente a consulta dos dados.

Consultas, formatos de dados e multinuvem

O Athena oferece suporte a consultas SQL ANSI. O Athena usa o Trino, um mecanismo SQL distribuído na memória e de código aberto, e é capaz de lidar com análises complexas, inclusive grandes junções, funções de janela e arrays.

Sim. O Athena se integra ao QuickSight, então você pode visualizar os dados armazenados no S3 sem problema. 

Sim. O Athena vem com um driver ODBC e JDBC que você pode usar com outras ferramentas de BI ou clientes SQL. Saiba mais sobre como usar um driver ODBC ou JDBC com o Athena. 

Saiba mais sobre as funções compatíveis com o Athena. 

Você pode melhorar a performance da sua consulta compactando, particionando ou convertendo os dados em formatos colunares. O Athena aceita formatos de dados colunares de código aberto, como Parquet e ORC. A conversão dos dados em um formato compactado e colunar diminui o custo e melhora a performance da consulta permitindo que o Athena examine menos dados do S3 ao realizar a consulta.

Sim. O Athena é compatível com UDFs, então você pode escrever funções escalares personalizadas e chamá-las em consultas SQL. Embora o Athena tenha funções internas, as UDFs ajudam a realizar um processamento personalizado, como compactar e descompactar dados, eliminar dados sigilosos ou aplicar descriptografia personalizada.

Você pode escrever suas UDFs em Java usando o SDK Athena Query Federation. Quando uma UDF é usada em uma consulta SQL enviada ao Athena, ela é chamada e executada no AWS Lambda. As UDFs podem ser usadas nas cláusulas SELECT e FILTER de uma consulta SQL. Você pode chamar várias UDFs na mesma consulta. 

Você pode usar o SDK Athena Query Federation para escrever sua UDF. Veja alguns exemplos de UDF. Você pode carregar sua função no Lambda e depois chamá-la na sua consulta do Athena. Para saber como fazer isso, consulte o Guia do usuário do Amazon Athena: Creating and deploying a UDF using Lambda (Criar e implantar uma UDF usando o Lambda).

O Athena chamará a sua UDF em um lote de linhas do conjunto de dados para aprimorar a performance. 

Sim, o Athena oferece vários conectores de fonte de dados que você pode usar para analisar dados em outros provedores de serviços de nuvem e outros serviços de armazenamento em nuvem sem mover ou transformar os dados. Os conectores de fonte de dados estão disponíveis para 30 fontes de dados, incluindo Azure Synapse, Azure Data Lake Storage, Google BigQuery e Google Cloud Storage. Saiba mais sobre as soluções da AWS para ambientes híbridos e multinuvem.

Consulta federada

Se você tiver dados em fontes diferentes do S3, poderá usar o Athena para consultar os dados no local ou criar pipelines que extraem dados de várias fontes de dados e os armazenam no S3. Com o Athena Federated Query, você pode realizar consultas SQL em dados armazenados em fontes de dados relacionais, não relacionais, de objetos e personalizadas.

As organizações geralmente armazenam dados em uma fonte de dados que atende às necessidades de suas aplicações ou processos de negócios. Alguns exemplos são bancos de dados relacionais, de chave-valor, de documento, na memória, de pesquisa, de grafos, de séries temporais e ledger para armazenar dados em um data lake do S3. A realização de análises em fontes tão diversas pode ser complexa e demorada, porque normalmente requer aprender novas linguagens de programação ou estruturas de banco de dados e criar pipelines complexos para extrair, transformar e duplicar dados antes que possam ser usados para análise. O Athena reduz essa complexidade permitindo realizar consultas SQL nos dados onde estão. Você pode usar estruturas SQL conhecidas para consultar dados em várias fontes de dados para uma análise rápida ou usar consultas SQL agendadas para extrair e transformar dados de várias fontes de dados e armazená-los no S3 para análises adicionais.

O Athena fornece conectores integrados para 30 armazenamentos de dados populares da AWS, on-premises e outros armazenamentos de dados na nuvem, incluindo Amazon Redshift, Amazon DynamoDB, Google BigQuery, Google Cloud Storage, Azure Synapse, Azure Data Lake Storage, Snowflake e SAP Hana. Você pode usar esses conectores para habilitar casos de uso de análise SQL em estruturados, semiestruturados, objetos, gráficos, séries temporais e outros tipos de armazenamento de dados. Para obter uma lista de fontes compatíveis, consulte Usar conectores de fonte de dados do Athena.


Você também pode usar o SDK do conector de dados do Athena para criar um conector de fonte de dados personalizado e consultá-lo com o Athena. Comece lendo a documentação e conferindo o exemplo de implementação do conector.

Com o Athena, você pode usar seu conhecimento existente sobre SQL para extrair insights de várias fontes de dados sem aprender uma nova linguagem, desenvolver scripts para extrair (e duplicar) dados nem gerenciar infraestrutura. Usando o Amazon Athena, você pode realizar as seguintes tarefas:

  • Realizar análises sob demanda em dados espalhados por vários datastores usando uma única ferramenta e dialeto SQL.
  • Visualizar dados em aplicações de BI que enviam junções complexas e de várias fontes para o mecanismo de computação distribuída do Athena por meio de interfaces ODBC e JDBC.
  • Projetar pipelines de ETL de autoatendimento e fluxos de trabalho de processamento de dados baseados em eventos com a integração do Athena ao AWS Step Functions.
  • Unificar diversas fontes de dados para criar recursos de entrada avançados para fluxos de trabalho de treinamento de modelos de ML.
  • Desenvolver aplicações de dados como um produto voltadas para o usuário que apresentam insights em arquiteturas de malha de dados.
  • Possibilitar casos de uso de análise enquanto sua organização migra fontes on-premises para a AWS.

O Athena salva os resultados da consulta em um arquivo no S3. Por isso, você pode usar o Athena para disponibilizar dados federados para outros usuários e aplicações. Se você deseja realizar análises nos dados usando o Athena sem consultar repetidamente a fonte subjacente, use a função CREATE TABLE AS do Athena. Você também pode usar a função UNLOAD do Athena para consultar os dados e armazenar os resultados em um formato de arquivo específico no S3

Um conector de fonte de dados é um trecho de código executado no Lambda que faz a tradução entre sua fonte de dados de destino e o Athena. Quando usar um conector de fonte de dados para registrar um datastore no Athena, você poderá realizar consultas SQL em datastores federados. Quando uma consulta é realizada em uma fonte federada, o Athena chama a função do Lambda e a encarrega de executar as partes da consulta que são específicas à fonte federada. Para saber mais, consulte o Guia do usuário do Amazon Athena: Usar o Amazon Athena Federated Query

Machine learning

É possível invocar seus modelos do SageMaker AI em uma consulta SQL do Athena para executar a inferência. A capacidade de usar modelos de ML em consultas SQL simplifica tarefas complexas como detecção de anomalias, análise de coorte de clientes e previsões de vendas, para que sejam tão simples quanto escrever uma consulta SQL. O Athena torna simples para qualquer pessoa com experiência em SQL executar modelos de ML implantados no SageMaker AI.

Os casos de uso do Athena para ML abrangem diferentes setores, como nos exemplos a seguir. Os analistas de dados de risco financeiro podem executar análises hipotéticas e simulações de Monte Carlo. Os analistas de negócios podem executar modelos de regressão linear ou de previsão para prever valores futuros que os ajudam a criar painéis de negócios mais sofisticados e prospectivos que preveem receitas. Os analistas de marketing podem usar modelos de clustering de k-means para ajudar a determinar seus diferentes segmentos de clientes. Os analistas de segurança podem usar modelos de regressão logística para encontrar anomalias e detectar incidentes de segurança de logs.

O Athena pode invocar qualquer modelo de ML implantado no SageMaker. Você tem a flexibilidade de treinar seu próprio modelo usando seus dados proprietários ou usar um modelo pré-treinado e implantado no SageMaker. Por exemplo, a análise de cluster provavelmente seria treinada com seus próprios dados, pois você deseja categorizar novos registros nas mesmas categorias usadas nos registros anteriores. Já para prever eventos esportivos reais, você poderia usar um modelo disponível ao público, pois os dados de treinamento usados já seriam de domínio público. As previsões específicas do domínio ou do setor geralmente serão treinadas com seus próprios dados no SageMaker, e as necessidades indiferenciadas de ML poderão usar modelos externos.

Não é possível treinar nem implantar os modelos de ML no SageMaker AI usando o Athena. Você pode treinar seu modelo de ML ou usar um modelo existente e treinado previamente que esteja implantado no SageMaker AI por meio do Athena. Leia a documentação que detalha as etapas de treinamento no SageMaker AI.

O Athena fornece suporte somente para a invocação de modelos de ML implantados no SageMaker AI. Agradecemos o feedback sobre outros serviços que você deseja usar com o Athena. Envie seu feedback para: athena-feedback@amazon.com.

Melhorias de performance operacional estão sendo constantemente adicionadas aos nossos recursos e serviços. Para aprimorar a performance das consultas de ML no Athena, as linhas são agrupadas ao invocar seu modelo do SageMaker AI para inferência. No momento, substituições de tamanho de lote de linhas fornecidas pelo usuário não são permitidas.

O Athena oferece recursos de inferência (previsão) de ML envolvidos por uma interface SQL. Você também pode chamar uma UDF do Athena para invocar a lógica de pré ou pós-processamento no seu conjunto de resultados. As entradas podem incluir qualquer coluna, registro ou tabela e várias chamadas podem ser agrupadas em lote para maior escalabilidade. Você pode executar a inferência na fase Selecionar ou na fase Filtrar. Para saber mais, consulte o Guia do usuário do Amazon Athena: Usar machine learning (ML) com o Amazon Athena.

O SageMaker AI é compatível com diferentes algoritmos de machine learning (ML). Além disso, você pode criar seu modelo de ML proprietário e implantá-lo no SageMaker AI. Por exemplo, a análise de cluster provavelmente seria treinada com seus próprios dados, pois você deseja categorizar novos registros nas mesmas categorias usadas nos registros anteriores. Já para prever eventos esportivos reais, você poderia usar um modelo disponível ao público, pois os dados de treinamento usados seriam de domínio público.

Esperamos que as previsões específicas de domínio ou de setor serão, em sua maioria, treinadas com seus dados no SageMaker AI, enquanto as necessidades de ML não diferenciadas, a como tradução automática, utilizarão modelos externos.

Segurança e disponibilidade

O Amazon Athena possibilita um controle de acesso mais granular com o Amazon SageMaker Lakehouse. O Amazon SageMaker Lakehouse permite o gerenciamento centralizado de permissões e controle de acesso para recursos do catálogo de dados. É possível aplicar políticas de controle de acesso granular nas consultas do Athena para dados armazenados em qualquer formato de arquivo compatível ao usar formatos de tabela como o Apache Iceberg, o Apache Hudi, o Apache Hive e as fontes de dados federadas registradas no Amazon SageMaker Lakehouse. Com o Athena, você tem a flexibilidade de escolher o formato de tabela e de arquivo mais adequados para o seu caso de uso, além de contar com os benefícios da governança de dados para garantir a segurança no acesso às informações. Por exemplo, você pode usar o formato de tabelas do Iceberg para armazenar dados em um data lake do S3 e conseguir transações de gravação confiáveis em grande escala, em conjunto com filtros de segurança por linha no Lake Formation para que analistas de dados residentes em países diferentes tenham acesso apenas aos dados dos clientes de seu próprio país para cumprir requisitos regulatórios. Independentemente do formato da tabela ou do tipo de fonte de dados de consulta federada, é possível usar o mesmo conjunto de recursos no Amazon SageMaker Lakehouse para governar seus dados, simplificando a compreensão de alguns conceitos de governança e sua aplicação de forma consistente por parte dos usuários. O Athena também permite controlar o acesso aos seus dados usando políticas do AWS Identity and Access Management (IAM), listas de controle de acesso (ACLs) e políticas de bucket do S3. Com as políticas do IAM, você pode conceder aos usuários do IAM controle fino aos buckets do S3. Ao controlar o acesso aos dados no S3, você pode restringir quais usuários podem fazer consultas usando o Athena.

Sim, você pode consultar dados criptografados usando a criptografia do lado do servidor (SSE) com chaves de criptografia gerenciadas pelo S3, a SSE com chaves gerenciadas pelo AWS Key Management Service (KMS) e a criptografia do lado do cliente (CSE) com as chaves gerenciadas pelo AWS KMS. O Athena também tem integração com o AWS KMS e oferece uma opção de criptografar seus conjuntos de resultados.

Sim. O Athena tem alta disponibilidade e realiza consultas usando recursos computacionais em vários locais, encaminhando automaticamente as consultas da forma adequada se determinada unidade não estiver acessível. O Athena usa o S3 como datastore subjacente, conferindo alta disponibilidade e durabilidade aos seus dados. O S3 oferece uma infraestrutura durável para armazenar dados importantes. Seus dados são armazenados com redundância em várias instalações e diversos dispositivos em cada instalação.

Sim, você pode oferecer acesso entre contas ao S3.

Definição de preço e faturamento

Com o Athena, você pode optar por pagar por consulta com base nos dados verificados ou com base na computação necessária para suas consultas. O preço por consulta é baseado na quantidade de dados verificados, em terabytes (TB), pela consulta. Você pode armazenar dados em vários formatos no S3. Se você compactar seus dados, particioná-los ou convertê-los em formatos de armazenamento colunar, pagará menos, pois suas consultas examinam menos dados. A conversão dados em um formato colunar permite que o Athena leia somente as colunas de que precisa para processar a consulta. Com a capacidade provisionada, você paga um preço por hora pela capacidade de processamento de consultas, não pelos dados verificados. Você pode usar o faturamento por consulta e o faturamento baseado em computação na mesma conta. Para ver mais detalhes, acesse a página de preços do Amazon Athena.

Com o faturamento por consulta, o Athena cobra com base na quantidade de dados verificados por consulta. Compactar seus dados permite que o Athena verifique menos dados. A conversão dos dados em formatos colunares permite que o Athena leia seletivamente apenas as colunas necessárias para processar os dados. Particionar seus dados também permite que o Athena restrinja a quantidade de dados examinados. Isso economiza custos e melhora a performance. Para ver mais detalhes, acesse a página de preços do Amazon Athena.

Com o faturamento por consulta, você pode economizar de 30% a 90% por consulta e obter melhor performance compactando, particionando e convertendo seus dados em formatos colunares. Cada uma dessas operações reduz a quantidade de dados verificados e o tempo necessário para a execução. Essas operações também são recomendadas ao usar a capacidade provisionada, pois costumam reduzir a quantidade de tempo que uma consulta gasta em execução.

Com o preço por consulta, você não é cobrado por consultas que falharem.

Sim. Se você cancelar uma consulta, a quantidade de dados examinados até o ponto em que cancelou a consulta será cobrada.

O Athena consulta dados diretamente pelo S3, então seus dados de origem são cobrados segundo as taxas do S3. Quando o Athena realiza uma consulta, ele armazena os resultados no bucket do S3 de sua preferência. Depois, você recebe a cobrança calculada com as taxas-padrão do S3 referentes a esses conjuntos de resultados. É recomendado que você monitore esses buckets e use políticas de ciclo de vida para controlar quantos dados ficam retidos.

Sim. O uso do Catálogo de Dados é cobrado separadamente. Para saber mais sobre os preços do Catálogo de Dados, acesse a página de preços do AWS Glue

Amazon Athena para Apache Spark

O Athena oferece suporte à estrutura do Apache Spark para permitir que analistas e engenheiros de dados tenham a experiência interativa e totalmente gerenciada do Athena. O Apache Spark é um sistema popular de processamento distribuído de código aberto que foi otimizado para workloads rápidas de análise com dados de qualquer tamanho e que funciona como um sistema avançado para bibliotecas de código aberto. Agora você pode criar aplicações Spark em linguagens expressivas, como Python, tendo uma experiência simplificada de notebook no console do Athena ou pelas APIs do Athena. É possível consultar dados de várias fontes, vincular diversos cálculos e visualizar os resultados das análises. Para aplicações Spark interativas, você passa menos tempo esperando e aumenta a produtividade, pois o Athena começa a executar aplicações em menos de um segundo. Os clientes têm uma experiência simplificada e personalizada do Spark que minimiza o trabalho necessário para upgrades de versão, ajuste de performance e integração com outros serviços da AWS.

Use o Athena para Apache Spark quando precisar de uma experiência interativa e totalmente gerenciada de análise e uma forte integração com os serviços da AWS. Você pode usar o Spark para realizar análises no Athena usando linguagens familiares e expressivas, como Python e o ambiente crescente de pacotes do Spark. Também é possível abrir aplicações Spark pelas APIs do Athena ou notebooks simplificados no console do Athena e começar a executar aplicações Spark em menos de um segundo sem configurar nem ajustar a infraestrutura subjacente. Além dos recursos de consulta SQL, o Athena oferece uma experiência gerenciada do Spark e realiza automaticamente o ajuste de performance, as configurações de máquina e a aplicação de patches em software para que você não precise se preocupar em sempre fazer upgrade de versões. E mais: o Athena tem forte integração com outros serviços de análise do sistema da AWS, como o Catálogo de Dados. Por isso, você pode criar aplicações Spark com dados em data lakes do S3 referenciando tabelas do seu Catálogo de Dados.

Abra um notebook no console do Athena ou inicie uma sessão usando a AWS Command Line Interface (AWS CLI) ou uma API do Athena. No notebook, você pode começar a abrir e desativar aplicações Spark usando Python. O Athena se integra ao Catálogo de Dados, então você pode trabalhar com qualquer fonte de dados referenciada no catálogo, inclusive com dados diretamente de data lakes do S3. Agora, usando os notebooks, você pode consultar dados de várias fontes, vincular diversos cálculos e visualizar os resultados das análises. Nas aplicações Spark, você pode verificar o status de execução, além de ver logs e o histórico de execução no console do Athena.

O Athena para Apache Spark é baseado na versão estável Spark 3.2. Como um mecanismo totalmente gerenciado, o Athena disponibiliza uma build personalizada do Spark e realiza automaticamente a maioria das atualizações de versão do Spark de maneira retrocompatível sem que você precise se envolver

Você paga apenas pelo tempo que sua aplicação Apache Spark leva para ser executada. É cobrada uma taxa por hora com base no número de unidades de processamento de dados (ou DPUs) usadas para executar a aplicação do Apache Spark. Uma única DPU fornece 4 vCPUs e 16 GB de memória. Você será cobrado em incrementos de 1 segundo, arredondado para o minuto mais próximo.

Quando você inicia uma sessão do Spark iniciando um caderno no console do Athena ou usando a API do Athena, dois nós são provisionados para sua aplicação: um nó de caderno que atuará como servidor para a interface do usuário do caderno e um nó de driver Spark que coordena essa aplicação Spark e se comunica com todos os nós de processamento do Spark. No Athena haverá cobrança pelos nós de driver e processamento durante a duração da sessão. O Amazon Athena fornece cadernos no console como uma interface de usuário para criar, enviar e executar aplicações Apache Spark e os oferece a você sem custo adicional. No Athena não há cobrança pelos nós de caderno usados durante a sessão do Spark.

Quando usar o Athena em vez de outros serviços de big data

Serviços de consulta, como o Athena, data warehouses, como o Amazon Redshift, e estruturas sofisticadas de processamento de dados, como o Amazon EMR, atendem a diferentes necessidades e casos de uso. Você só precisa escolher a ferramenta certa para o trabalho. O Amazon Redshift tem a maior rapidez na performance de consulta para relatórios corporativos e workloads de business intelligence, especialmente naquelas que envolvem SQL extremamente complexo com várias junções e subconsultas. O Amazon EMR simplifica o processo e oferece boa relação custo-benefício para a execução de estruturas de processamento altamente distribuídas, como Apache Hadoop, Spark e Presto, em comparação com implantações on-premises. O Amazon EMR é flexível: você pode executar aplicações e códigos personalizados, além de definir parâmetros específicos de computação, memória, armazenamento e aplicações para otimizar os requisitos analíticos. O Athena é a maneira mais fácil de executar consultas interativas para dados no S3 sem a necessidade de configurar nem gerenciar servidores.

O Amazon Athena e o Amazon Redshift Serverless atendem a diferentes necessidades e casos de uso, mesmo que ambos os serviços sejam sem servidor e permitam usuários de SQL.

Com sua arquitetura Massively Parallel Processing (MPP) que separa recursos de otimização automática de armazenamento e computação e machine learning, um data warehouse como o Amazon Redshift, seja sem servidor ou provisionado, é uma ótima opção para clientes que precisam da melhor performance de preço em qualquer escala para workloads complexas de BI e análise. O Redshift é mais adequado para gerar análises escalonadas e conjuntos de dados maciços, estruturados e semiestruturados. Ele tem uma boa performance para relatórios corporativos e workloads de business intelligence, especialmente aquelas que envolvem SQL extremamente complexo com múltiplas junções e subconsultas. O Redshift oferece integração profunda com banco de dados, análises e serviços de ML da AWS para que os clientes acessem os dados no local ou ingiram/movam dados facilmente para o warehouse a fim de promover análises de alta performance, por meio de ETL mínimo e métodos sem código. Com recursos de consulta federada, Amazon Redshift Spectrum, integração com Amazon Aurora, AWS Data Exchange, serviços de dados de streaming e outros, o Redshift permite que você use dados de várias fontes, combine com os dados no warehouse e conduza análises e machine learning no topo disso. O Redshift oferece opções provisionadas e sem servidor para começar a analisar facilmente sem gerenciamento de infraestrutura.

O Athena é adequado para análises interativas e exploração de dados no Amazon Simple Storage Service (S3) ou qualquer fonte de dados por meio de um framework extensível de conectores (inclui mais de 30 conectores prontos para uso para aplicações e sistemas de análise on-premises ou em nuvem ) com uma sintaxe SQL fácil de usar. O Amazon Athena é baseado em mecanismos e frameworks de código aberto, como Spark, Presto e Apache Iceberg, oferecendo aos clientes a flexibilidade de usar Python ou SQL ou trabalhar em formatos de dados abertos. Se os clientes quiserem fazer análises interativas usando frameworks de código aberto e formatos de dados, o Amazon Athena é um ótimo lugar para começar. É totalmente sem servidor, o que significa que não há infraestrutura para gerenciar ou configurar. A abertura do Athena aumenta a portabilidade de dados, permitindo que nosso cliente mova dados entre diferentes aplicações, programas e até provedores de serviços em nuvem. Ele adotou recentemente uma nova abordagem de integração contínua para o gerenciamento de software de código aberto que integrará constantemente os recursos mais recentes dos projetos Trino, PrestoDB e Apache Iceberg.

O Amazon EMR vai muito além da simples execução de consultas SQL. Com o Amazon EMR, você pode executar diversas tarefas de processamento de dados com aumento da escala horizontal para aplicações como machine learning (ML), análise de grafos, transformação de dados, streaming de dados e praticamente qualquer coisa que você puder programar. Use o Amazon EMR se utilizar código personalizado para processar e analisar conjuntos de dados grandes com as estruturas mais recentes de processamento de big data, como Apache HBase, Spark, Hadoop ou Presto. O Amazon EMR lhe dá controle total sobre a configuração dos seus clusters e do software instalado neles.

Use o Athena se quiser realizar consultas SQL interativas nos dados no S3 sem ter de gerenciar infraestruturas ou clusters.

O EMR Serverless é a maneira mais fácil de executar aplicações Spark e Hive na nuvem e a única solução Hive sem servidor do setor. Com o EMR Serverless, você pode eliminar a sobrecarga operacional de ajuste, redimensionamento, proteção, aplicação de patches e gerenciamento de clusters e pagar apenas pelos recursos que suas aplicações realmente usam. Com o tempo de execução otimizado para performance do EMR, você obtém performance duas vezes mais rápida do que o código aberto padrão, para que suas aplicações sejam executados mais rapidamente, e reduz seus custos de computação. O tempo de execução otimizado para performance do EMR é 100% compatível com API com código aberto padrão, portanto você não precisa reescrever suas aplicações para executá-las no EMR. Você também não precisa de profundo conhecimento do Spark para ativá-las, pois elas são ativadas por padrão. O EMR oferece a opção de executar aplicações em clusters do EMR, clusters do EKS ou EMR Serverless. Os clusters do EMR são perfeitos para clientes que precisam de controle e flexibilidade máximos sobre o modo de execução das aplicações. Com os clusters do EMR, os clientes podem escolher o tipo de instância do EC2, personalizar a Amazon Linux Image AMI, personalizar a configuração da instância do EC2, personalizar e estender estruturas de código aberto e instalar software personalizado adicional em instâncias de cluster. O EMR no EKS é perfeito para clientes que desejam padronizar no EKS para gerenciar clusters entre aplicações ou usar versões diferentes de um framework de código aberto no mesmo cluster. O EMR Serverless é perfeito para clientes que desejam evitar o gerenciamento e a operação de clusters e querem apenas executar aplicações usando frameworks de código aberto.

Se os clientes quiserem uma ativação instantânea, uma experiência interativa semelhante à de consulta baseada em SQL com o Amazon Athena, eles podem escolher o Amazon Athena para Apache Spark. A experiência do cliente no Athena é otimizada para aplicações interativas com tempos de execução curtos e que exigem um tempo de inicialização inferior a um segundo. O Amazon Athena lida com o ajuste de performance, configurações, aplicação de patches de software e atualizações automaticamente sem o envolvimento do cliente. Para o analista de dados e desenvolvedor com profundidade na linguagem de programação PySpark e interesse na exploração de dados e execução de análises interativas imediatamente, o Amazon Athena para Apache Spark oferece uma experiência fácil de usar.

Sim, o Athena é compatível com muitos dos mesmos formatos de dados que o Amazon EMR. O Catálogo de Dados do Athena é compatível com o metastore do Hive. Se você estiver usando o Amazon EMR e já tiver um metastore do Hive, basta executar as instruções DDL no Athena e começar a consultar os dados imediatamente, sem afetar os trabalhos no Amazon EMR. 

A consulta federada no Athena permite realizar consultas SQL em várias fontes de dados relacionais, não relacionais e personalizadas de modo unificado.

É possível invocar modelos de ML implantados no Amazon SageMaker AI por meio de consultas SQL no Athena. Você pode especificar a localização do S3 em que deseja armazenar os resultados dessas consultas SQL do Athena.