Perché scegliere Glue?
Con AWS Glue, ottieni una tariffa oraria, fatturata al secondo, per le operazioni dei crawler (individuazione di dati) e di estrazione, trasformazione e caricamento (ETL), (elaborazione e caricamento dei dati). Per il Catalogo dati AWS Glue, è prevista una tariffa mensile semplificata per l'archiviazione e l'accesso ai metadati. Il primo milione di oggetti memorizzato è gratuito, così come il primo milione di accessi. Se esegui il provisioning di un endpoint per sviluppare in modo interattivo il codice ETL, ti sarà addebitata una tariffa oraria, fatturata al secondo. Per AWS Glue DataBrew, le sessioni interattive sono fatturate a sessione e le attività DataBrew sono fatturate al minuto. L'uso del Registro degli schemi di AWS Glue è offerto senza costi aggiuntivi.
Nota: i prezzi possono variare in base alla Regione AWS.
-
Processi ETL e sessioni interattive
-
Catalogo dati
-
Crawler
-
Sessioni interattive di DataBrew
-
Processi DataBrew
-
Qualità dei dati
-
Zero-ETL
-
Processi ETL e sessioni interattive
-
Esempi di prezzo
Processo ETL: si consideri un processo AWS Glue Apache Spark che viene eseguito per 15 minuti e utilizzi 6 DPU. Il prezzo di 1 DPU all'ora è 0,44 USD. Poiché il processo è stato eseguito per 15 minuti e ha utilizzato 6 DPU, AWS fatturerà 6 DPU * 0,25 ore * 0,44 USD, o 0,66 USD.
Notebook di processi di AWS Glue Studio Job e sessioni interattive: si assuma di utilizzare un notebook in AWS Glue Studio per sviluppare il codice ETL in maniera interattiva. Per impostazione predefinita, una sessione interattiva ha 5 DPU. Il prezzo di 1 DPU all'ora è 0,44 USD. Se si mantiene la sessione in esecuzione per 24 minuti, verranno addebitate 5 DPU * 0,4 ore * 0,44 USD, ovvero 0,88 USD.
-
Catalogo dati
-
Catalogo dati AWS Glue è il repository di metadati tecnici centralizzato per tutte le risorse di dati provenienti da varie origini dati, tra cui Amazon S3, Amazon Redshift e origini dati di terze parti. È possibile accedere al Catalogo dati da Amazon SageMaker Lakehouse per dati, analisi e intelligenza artificiale. Fornisce un'interfaccia unificata per organizzare i dati come cataloghi, database e tabelle, e interrogarli da Amazon Redshift, Amazon Athena e Amazon EMR. Le capacità di AWS Lake Formation nel Catalogo dati consentono di centralizzare la governance dei dati in AWS. Gestisci le risorse di dati utilizzando autorizzazioni di dati granulari e funzionalità consuete in stile database.
Quando si utilizza il Catalogo dati, verranno addebitati i costi per l'archiviazione e l'accesso ai metadati delle tabelle e per l'esecuzione di processi di elaborazione dati che processano le statistiche delle tabelle e le ottimizzazioni.
Prezzi dei metadati
Con il Catalogo dati, è possibile archiviare gratuitamente fino a un milione di oggetti. Se si esegue l'archiviazione di oltre un milione di oggetti, verrà addebitato il costo di 1,00 USD per 100.000 oggetti eccedenti il primo milione, al mese. Un oggetto metadati in Catalogo dati può essere una tabella, una versione di tabella, una partizione, indici di partizione, statistiche, un database o un catalogo.
Manutenzione della tabella e statistiche
Catalogo dati fornisce una compattazione gestita per le tabelle Apache Iceberg nell'archiviazione di oggetti Amazon S3, compattando piccoli oggetti in oggetti più grandi per migliorare le prestazioni di lettura dei servizi di analisi AWS come Amazon Redshift, Athena, Amazon EMR e i processi ETL di AWS Glue. Viene addebitata una tariffa oraria calcolata sul numero di unità di elaborazione dati (Data Processing Unit, DPU) utilizzate per la compattazione della tabella. Una singola unità di elaborazione dati (DPU) fornisce 4 vCPU e 16 GB di memoria. La fatturazione prevede incrementi di 1 secondo, arrotondati al secondo più vicino, con una durata minima di 1 minuto per ciascuna esecuzione.
Catalogo dati supporta anche le statistiche delle tabelle a livello di colonna per le tabelle AWS Glue. Queste statistiche si integrano con il sistema di ottimizzazione basato sui costi (cost-based optimizer, CBO) in Athena e nell'interrogazione del data lake di Amazon Redshift, migliorando le prestazioni delle query e riducendo potenzialmente i costi.
Ottimizzazione
- 0,44 USD per DPU all'ora per l'ottimizzazione delle tabelle Apache Iceberg, fatturati al secondo con un minimo di 1 minuto.
Statistiche:
- 0,44 USD per DPU all'ora per la generazione di statistiche, fatturati al secondo con un minimo di 1 minuto.
Utilizzo e costi aggiuntivi
Archiviazione
Utilizzando il Catalogo dati, puoi creare e gestire tabelle in Amazon S3 e Amazon Redshift e ti verranno addebitate rispettivamente le tariffe standard di Amazon S3 o Amazon Redshift per l'archiviazione delle tabelle. Non sono previsti costi di archiviazione aggiuntivi nel Catalogo dati.
1. Quando vengono archiviati dati in Amazon S3, saranno però addebitati i costi standard di Amazon S3 per archiviazione, richieste e trasferimento di dati. Per maggiori informazioni, consulta la pagina dei prezzi di Amazon S3.2. Quando si archiviano dati in Amazon Redshift, vengono addebitate le tariffe standard di Amazon Redshift per l'archiviazione. Per maggiori informazioni, consulta i prezzi di Amazon Redshift.
Calcolo
Quando si accede alle tabelle Amazon Redshift da Amazon EMR, AWS Glue, Athena o da qualsiasi motore open source o di terze parti compatibile con Apache Iceberg, per le risorse di calcolo viene utilizzato un gruppo di lavoro Amazon Redshift serverless gestito dal servizio. Il gruppo di lavoro Amazon Redshift serverless gestito viene utilizzato per filtrare i risultati delle tabelle e vengono addebitate le risorse di calcolo utilizzate in base alle tariffe standard di Amazon Redshift serverless. Non sono previsti costi separati per interrogare le tabelle archiviate in Amazon Redshift utilizzando Amazon Redshift. Visita la pagina dei prezzi di Amazon Redshift per saperne di più.
Autorizzazioni Lake Formation
Lake Formation si integra con Catalogo dati e fornisce autorizzazioni a livello di database, tabella, colonna, riga e cella utilizzando controlli di accesso basati su tag o nomi e condivisione tra account. Non sono previsti costi separati per la creazione di autorizzazioni di Lake Formation o l'utilizzo delle autorizzazioni di Lake Formation con servizi AWS integrati.
Esempi di prezzo
Catalogo dati nel piano gratuito AWS: supponi di archiviare un milione di oggetti di metadati nel Catalogo dati in un determinato mese e di effettuare 1 milione di richieste di metadati per accedere a queste tabelle. Il costo addebitato equivale a 0 USD, dal momento che il tuo utilizzo verrà coperto dal piano gratuito del Catalogo dati AWS Glue. Puoi eseguire l'archiviazione del primo milione di oggetti di metadati ed effettuare un milione di richieste di metadati al mese gratuitamente.
Catalogo dati al livello standard: ora supponi che l'utilizzo dell'archiviazione dei metadati rimanga la stessa con 1 milione di oggetti di metadati al mese, ma le tue richieste raddoppiano, arrivando a 2 milioni di richieste di metadati al mese. Ipotizziamo che utilizzi anche crawler per individuare nuove tabelle e che questi siano in esecuzione per 30 minuti e consumino 2 DPU.
Il costo di archiviazione è comunque pari a 0 USD, dal momento che l'archiviazione del tuo primo milione di oggetti metadati è gratuita. Anche il tuo primo milione di richieste è gratuito. Verrà addebitato il costo per il milione di richieste eccedenti il piano gratuito di Catalogo dati, ovvero 1 USD.
Utilizzo di Catalogo dati con altri servizi:
Ad esempio, quando si interrogano le tabelle in Amazon Redshift utilizzando Athena SQL in SageMaker Lakehouse, verranno addebitati: l'archiviazione delle tabelle in Amazon Redshift in base ai prezzi standard di Amazon Redshift; la richiesta di metadati effettuata a Catalogo dati in base ai prezzi di richiesta standard di Catalogo dati; l'archiviazione dei metadati per l'archiviazione dei metadati di cataloghi, database e tabelle in Catalogo dati; ore di RPU di Amazon Redshift serverless calcolate al secondo (con un addebito minimo di 60 secondi) per filtrare i risultati delle tabelle di Amazon Redshift e numero di byte scansionati dalla query Athena, arrotondato al megabyte più vicino, con un minimo di 10 MB di dati per query utilizzando i prezzi standard di Athena.
In un altro scenario in cui si interrogano le tabelle in Amazon Redshift utilizzando Amazon EMR serverless, verranno addebitati: l'archiviazione delle tabelle in Amazon Redshift in base ai prezzi standard di Amazon Redshift; la richiesta di metadati effettuata al Catalogo dati in base ai prezzi di richiesta standard di Catalogo dati; l'archiviazione dei metadati per l'archiviazione dei metadati di cataloghi, database e tabelle in Catalogo dati; ore di RPU di Amazon Redshift serverless calcolate al secondo (con un addebito minimo di 60 secondi) per filtrare i risultati delle tabelle di Amazon Redshift e la quantità di vCPU, memoria e risorse di archiviazione consumata dai lavoratori in un'applicazione Amazon EMR.
In un altro scenario in cui si interrogano le tabelle Apache Iceberg nell'archiviazione di oggetti Amazon S3 utilizzando Amazon Redshift serverless, verranno addebitati: l'archiviazione delle tabelle Apache Iceberg in Amazon S3 in base ai prezzi standard di Amazon S3; la richiesta di metadati effettuata a Catalogo dati in base ai prezzi di richiesta standard di Catalogo dati; l'archiviazione dei metadati per l'archiviazione dei metadati di catalogo, database e tabella in Catalogo dati; e le ore di calcolo (ore RPU) in base ai prezzi standard di Amazon Redshift.
I crawler di AWS Glue vengono fatturati a 0,44 USD per DPU all'ora, quindi pagherai un costo pari a 2 DPU * 0,5 ore a 0,44 USD per DPU all'ora, ovvero 0,44 USD.
Se generi statistiche per una tabella AWS Glue e la loro esecuzione richiede 10 minuti e consuma 1 DPU, riceverai un addebito di 1 DPU * 0,1666 ore * 0,44 USD per DPU all'ora, ovvero 0,07 USD.
Se compatti le tabelle Apache Iceberg archiviate nell'archiviazione di oggetti Amazon S3 e la compattazione viene eseguita per 30 minuti e consuma 2 DPU, riceverai un addebito di 2 DPU * 0,5 ore * 0,44 USD per DPU all'ora, ovvero 0,44 USD.
- 0,44 USD per DPU all'ora per l'ottimizzazione delle tabelle Apache Iceberg, fatturati al secondo con un minimo di 1 minuto.
-
Crawler
-
-
Sessioni interattive di DataBrew
-
Esempi di prezzo
AWS Glue DataBrew: il prezzo di ogni sessione interattiva di 30 minuti è di 1,00 USD. Se inizi una sessione alle 9:00, esci immediatamente dalla console e torni a lavorarvi dalle 9:20 alle 9:30, verrà utilizzata 1 sessione per un totale di 1,00 USD.
Se avvii una sessione alle 9:00 e interagisci con la console DataBrew fino alle 9:50, esci dallo spazio del progetto DataBrew e torni per effettuare l'interazione finale alle 10:15, verranno utilizzate 3 sessioni e ti verranno addebitati 1,00 USD per sessione per un totale di 3,00 USD.
-
Processi DataBrew
-
Esempi di prezzo
AWS Glue DataBrew: se un processo DataBrew è in esecuzione per 10 minuti e consuma 5 nodi DataBrew, il prezzo sarà 0,40 USD. Dal momento che il processo è rimasto in esecuzione per 1/6 di un'ora con un consumo di 5 nodi, ti verrà fatturato l'equivalente di 5 nodi * 1/6 ora * 0,48 USD per ora/nodo per un totale di 0,40 USD.
-
Qualità dei dati
-
Qualità dei dati di AWS Glue rende i dati affidabili aiutandoti a renderli di alta qualità. Misura, monitora e gestisce automaticamente la qualità dei dati nei data lake e nelle pipeline, facilitando l'identificazione di dati mancanti, vecchi o errati.
È possibile accedere alle funzionalità di qualità dei dati tramite il Catalogo dati e AWS Glue Studio oppure tramite le API di AWS Glue.
Prezzi della gestione della qualità dei dati dei set di dati presenti nel Catalogo dati:È possibile scegliere un set di dati dal Catalogo dati e generare suggerimenti. Questa operazione crea un'attività di suggerimento per la quale verrà effettuato il provisioning dell'unità di elaborazione dati (DPU). Dopo aver ottenuto i suggerimenti, puoi modificare o aggiungere nuove regole e pianificarle. Queste attività sono chiamate “attività di qualità dei dati”, per le quali verrà effettuato il provisioning delle DPU. Sono necessarie almeno 2 DPU con una durata di fatturazione minima di 1 minuto.
Prezzi della gestione della qualità dei dati dei set di dati elaborati su AWS Glue ETL:Inoltre, è possibile aggiungere controlli di qualità dei dati ai processi ETL per evitare l'ingresso di dati errati nel data lake. Queste regole relative alla qualità dei dati risiederanno nei processi ETL e comporteranno un incremento del runtime o del consumo di DPU. In alternativa, è possibile utilizzare l'esecuzione flessibile per carichi di lavoro non sensibili agli SLA.
Prezzi del rilevamento delle anomalie in AWS Glue ETL:
Rilevamento delle anomalie:
Si dovranno sostenere i costi di 1 DPU per statistica in aggiunta alle DPU dei processi ETL per il tempo necessario a rilevare le anomalie. In media, il rilevamento di un'anomalia per 1 statistica richiede dai 10 ai 20 secondi. Supponiamo di aver configurato due regole (regola 1: il volume dei dati deve essere superiore a 1000 record, regola 2: il conteggio delle colonne deve essere superiore a 10) e un analizzatore (analizzatore 1: monitora la completezza di una colonna). Questa configurazione genererà tre statistiche: numero di righe, numero di colonne e percentuale di completezza di una colonna. Verranno addebitate 3 DPU aggiuntive per il tempo necessario a rilevare le anomalie con almeno 1 secondo. Vedi l'esempio 4 per maggiori dettagli.
Riaddestramento:
È possibile escludere le esecuzioni di processi o le statistiche anomale in modo che l'algoritmo di rilevamento delle anomalie preveda con precisione le anomalie successive. A tale scopo, AWS Glue consente di escludere o includere statistiche. Si dovranno sostenere i costi di 1 DPU per riaddestrare il modello per il tempo necessario per questa operazione. In media, il riaddestramento richiede dai 10 secondi ai 20 minuti per statistica. Vedi l'esempio 5 per maggiori dettagli.
Archiviazione delle statistiche:
L'archiviazione delle statistiche raccolte è gratuita. Esiste un limite di 100.000 statistiche per account, che verranno archiviate per 2 anni.
Costi aggiuntivi:
AWS Glue elabora i dati direttamente da Amazon Simple Storage Service (Amazon S3). Non sono previsti costi di archiviazione aggiuntivi per la lettura dei dati con AWS Glue. Saranno però addebitati i costi standard di Amazon S3 per archiviazione, richieste e trasferimento di dati. In base alla configurazione impostata, i file temporanei, i risultati della qualità dei dati e i file casuali vengono archiviati in un bucket S3 di tua scelta e fatturati secondo le tariffe standard di S3.
Se utilizzi il Catalogo dati, ti saranno addebitate le tariffe standard del Catalogo dati. Per ulteriori dettagli, seleziona la tabella dell'archiviazione e delle richieste del Catalogo dati.
Esempi di prezzo
Esempio 1: ottieni suggerimenti per una tabella nel Catalogo datiAd esempio, considera un'attività di suggerimento con 5 DPU che si realizza in 10 minuti. Pagherai 5 DPU * 1/6 ore * 0,44 USD, ovvero 0,37 USD.
Esempio 2: valuta la qualità dei dati di una tabella nel Catalogo datiDopo aver esaminato i suggerimenti, puoi modificarli, se necessario, e successivamente pianificare le attività di qualità dei dati allocando delle DPU. Per esempio, considera un'attività di valutazione della qualità dei dati con 5 DPU che si realizza in 20 minuti.
Pagherai 5 DPU * 1/3 ore * 0,44 USD, ovvero 0,73 USD.
Esempio 3: valuta la qualità dei dati in un processo ETL di AWS GluePuoi anche aggiungere questi controlli di qualità dei dati ai tuoi processi ETL di AWS Glue per evitare l'ingresso di dati errati nel data lake. Per farlo, puoi aggiungere Data Quality Transform su AWS Glue Studio o utilizzare le API AWS Glue all'interno del codice che scrivi nei notebook AWS Glue Studio. Considera un processo AWS Glue eseguito dove sono configurate le regole di qualità dei dati all'interno della pipeline e che si realizza in 20 minuti (1/3 ora) con 6 DPU. Pagherai 6 DPU * 1/3 ore * 0,44 USD, ovvero 0,88 USD. In alternativa, puoi utilizzare Flex e pagherai 6 DPU x 1/3 di ora x 0,29 USD, ovvero 0,58 USD.
Esempio 4: valuta la qualità dei dati in un processo ETL di AWS Glue con il rilevamento delle anomalie
Consideriamo un processo di AWS Glue che legge i dati da Amazon S3, li trasforma ed esegue controlli di qualità dei dati prima di caricarli su Amazon Redshift. Supponiamo che questa pipeline contenga 10 regole e 10 analizzatori, con conseguente raccolta di 20 statistiche. Inoltre, supponiamo che l'estrazione, il processo di trasformazione, il caricamento, la raccolta di statistiche e la valutazione della qualità dei dati richiedano 20 minuti. Se il rilevamento delle anomalie non è abilitato, al cliente verranno addebitati 6 DPU x 1/3 di ora (20 minuti) x 0,44 USD, ovvero 0,88 USD (A). Se il rilevamento delle anomalie è abilitato, verrà aggiunta 1 DPU per ogni statistica e saranno necessari in media 15 secondi per rilevare le anomalie. In questo esempio, il cliente dovrà sostenere costi pari a 20 statistiche x 1 DPU x 15/3600 (0,0041 ora/statistica) x 0,44 USD (costo per DPU/ora) = 0,037 USD (B). Il costo totale del processo sarà pari a 0,88 USD (A) + 0,037 USD (B) = 0,917 USD.
Esempio 5 — RiaddestramentoSupponiamo che il processo con Glue abbia rilevato un'anomalia. Decidiamo di escludere l'anomalia dal modello in modo che l'algoritmo di rilevamento delle anomalie possa prevedere con precisione le anomalie future. A tale scopo, è possibile riaddestrare il modello escludendo questa statistica anomala. Si dovranno sostenere i costi di 1 DPU per statistica per il tempo necessario per riaddestrare il modello. In media, questa operazione può richiedere 15 secondi. Supponendo di escludere 1 punto dati, in questo esempio i costi saranno pari a 1 statistica x 1 DPU x 15/3600 (0,0041 ora/statistica) x 0,44 USD = 0,00185 USD.
-
Zero-ETL
-
Zero-ETL è un set di integrazioni completamente gestite da AWS che riduce al minimo la necessità di creare pipeline di dati di estrazione, trasformazione e caricamento (ETL) per casi d'uso comuni di importazione e replica nelle iniziative di analisi e intelligenza artificiale. AWS non addebita costi aggiuntivi per l'integrazione Zero-ETL. Si paga per le risorse di origine e destinazione utilizzate per creare ed elaborare i dati di modifica creati come parte di un'integrazione Zero-ETL.
Supporto di Amazon SageMaker Lakehouse e Amazon Redshift per integrazioni Zero-ETL dalle applicazioni
Amazon SageMaker Lakehouse e Amazon Redshift assicurano il supporto per le integrazioni Zero-ETL a partire dalle applicazioni, che automatizza l'estrazione e il caricamento dei dati dalle applicazioni in Amazon SageMaker Lakehouse e Amazon Redshift. Consulta la documentazione di AWS Glue Zero-ETL per l'elenco completo delle origini Zero-ETL supportate.
AWS Glue addebita una commissione per l'importazione dei dati di origine delle applicazioni supportati dall'integrazione Zero-ETL. Si paga per le risorse AWS Glue utilizzate per recuperare inserti, aggiornamenti ed eliminazioni dall'applicazione. L'addebito viene effettuato in base al volume di dati ricevuti dall'applicazione e non viene addebitato l'avvio della richiesta di importazione dei dati. Ogni richiesta di importazione effettuata da AWS Glue ha un volume minimo di 1 megabyte (MB).
Quando i dati importati vengono scritti su Amazon Redshift, si pagano le risorse utilizzate per elaborare i dati modificati, creati come parte dell'integrazione Zero-ETL secondo i prezzi di Amazon Redshift.
Quando i dati importati vengono scritti su SageMaker Lakehouse, si pagano le risorse utilizzate per elaborare i dati modificati, creati come parte dell'integrazione Zero-ETL. La risorsa di calcolo utilizzata si basa sul tipo di archiviazione scelto per SageMaker Lakehouse.
- Per l'archiviazione gestita di Amazon Redshift, il costo è basato sul calcolo serverless di Amazon Redshift. Per maggiori informazioni, consulta la pagina dei prezzi di Amazon Redshift.
- Per Amazon Simple Storage Service (S3), l'addebito viene calcolato in base al calcolo di AWS Glue per unità di elaborazione dati all'ora (DPU all'ora), fatturato al secondo con un minimo di 1 minuto.
Integrazione Zero-ETL di Amazon DynamoDB con Amazon SageMaker Lakehouse
L'integrazione di Amazon DynamoDB Zero-ETL con Amazon SageMaker Lakehouse automatizza l'estrazione e il caricamento dei dati, abilitando l'analisi e l'intelligenza artificiale per i dati dalle tabelle DynamoDB nel data lakehouse.
DynamoDB prevede un addebito per l'esportazione dei dati dai backup continui DynamoDB (ripristino point-in-time). Per maggiori informazioni, consulta la pagina dei prezzi di Amazon DynamoDB.
Quando i dati importati vengono scritti su Amazon SageMaker Lakehouse, si pagano le risorse utilizzate per elaborare i dati modificati, creati come parte dell'integrazione Zero-ETL in base al tipo di archiviazione scelta per Amazon SageMaker Lakehouse.
- Per l'archiviazione gestita di Amazon Redshift, il costo è basato sul calcolo serverless di Amazon Redshift. Per maggiori informazioni, consulta la pagina dei prezzi di Amazon Redshift.
- Per Amazon Simple Storage Service (S3), l'addebito viene calcolato in base al calcolo di AWS Glue per unità di elaborazione dati all'ora (DPU all'ora), fatturato al secondo con un minimo di 1 minuto.
Nota: i prezzi possono variare in base alla regione.
Per ulteriori informazioni sulla disponibilità di AWS Glue, consulta la tabella delle regioni a livello globale.