¿Por qué utilizar Glue?
Con AWS Glue, paga una tarifa por hora, que se factura por segundo, para los rastreadores (detección de datos) y los trabajos de extracción, transformación y carga (ETL) (procesamiento y carga de datos). Con el Catálogo de datos de AWS Glue, paga una tarifa mensual simplificada para almacenar los metadatos y acceder a ellos. El primer millón de objetos que almacene y el primer millón de accesos son gratuitos. Si aprovisiona un punto de conexión de desarrollo para desarrollar interactivamente su código ETL, paga una tarifa por hora, que se factura por segundo. En AWS Glue DataBrew, las sesiones interactivas se facturan por sesión y los trabajos de DataBrew, por minuto. El uso del registro de esquemas de AWS Glue se ofrece sin cargos adicionales.
Nota: los precios pueden variar según la región de AWS.
-
Trabajos de ETL y sesiones interactivas
-
Catálogo de datos
-
Rastreadores
-
Sesiones interactivas de DataBrew
-
Trabajos de DataBrew
-
Calidad de los datos
-
Sin ETL
-
Trabajos de ETL y sesiones interactivas
-
Ejemplos de precios
Trabajo de ETL: suponga que tiene un trabajo de Apache Spark para AWS Glue que se ejecuta durante 15 minutos y utiliza 6 DPU. El precio de 1 hora de DPU es de 0,44 USD. Dado que el trabajo se ejecutó durante 15 minutos y utilizó 6 DPU, AWS le facturará 6 DPU * 0,25 hora * 0,44 USD, o 0,66 USD.
Blocs de notas de trabajos de AWS Glue Studio y sesiones interactivas: suponga que utiliza un bloc de notas en AWS Glue Studio para desarrollar el código ETL de manera interactiva. Una sesión interactiva tiene 5 DPU de forma predeterminada. El precio de 1 hora de DPU es de 0,44 USD. Si ejecuta la sesión durante 24 minutos, se le facturarán 5 DPU * 0,4 horas* 0,44 USD. o 0,88 USD.
-
Catálogo de datos
-
El Catálogo de datos de AWS Glue es el repositorio de metadatos técnicos centralizado para todos sus activos de datos en varios orígenes de datos, lo cual incluye Amazon S3, Amazon Redshift y orígenes de datos de terceros. Se puede acceder al catálogo de datos desde el almacén de lago de Amazon SageMaker para obtener datos, análisis e inteligencia artificial. Proporciona una interfaz unificada para organizar los datos como catálogos, bases de datos y tablas y consultarlos desde Amazon Redshift, Amazon Athena y Amazon EMR. Las capacidades de AWS Lake Formation del catálogo de datos le permiten centralizar la gobernanza de datos en AWS. Gestione los activos de datos mediante permisos de datos detallados y características conocidas al estilo de una base de datos.
Al usar el catálogo de datos, se le factura por almacenar y acceder a los metadatos de las tablas y por ejecutar trabajos de procesamiento de datos que calculan las estadísticas de las tablas y las optimizaciones de las tablas.
Precios de metadatos
Con el catálogo de datos, puede almacenar hasta un millón de objetos de metadatos sin cargo. Si almacena más de un millón de objetos de metadatos, se le cobrará 1.00 USD cada 100 000 objetos que supere el millón, al mes. Un objeto de metadatos en el catálogo de datos es una tabla, una versión de tabla, una partición, índices de la partición o estadísticas, una base de datos o un catálogo.
Mantenimiento de tablas y estadísticas
El catálogo de datos proporciona una compactación gestionada para las tablas de Apache Iceberg en el almacenamiento de objetos de Amazon S3, se compactan objetos pequeños en objetos más grandes para lograr un mejor rendimiento de lectura por parte de los servicios de análisis de AWS, como los trabajos ETL de Amazon Redshift, Athena, Amazon EMR y AWS Glue. Se le cobra una tarifa por hora en función de la cantidad de unidades de procesamiento de datos (o DPU) que utilice para la tabla de compactación. Una única unidad de procesamiento de datos (DPU) suministra 4 CPU virtuales y 16 GB de memoria. Se cobra en incrementos de 1 segundo, redondeado al segundo más cercano, con una duración mínima de 1 minuto por ejecución.
El catálogo de datos también es compatible con las estadísticas de tablas a nivel de columna para las tablas de AWS Glue. Estas estadísticas se integran con el optimizador basado en costos (CBO) en las consultas de lagos de datos en Athena y en Amazon Redshift, lo que mejora el rendimiento de las consultas y permite ahorrar costos.
Optimización
- 0,44 USD por hora de DPU/hora para optimizar las tablas de Apache Iceberg, facturados por segundo con un mínimo de 1 minuto.
Estadísticas:
- 0,44 USD por hora de DPU para generar estadísticas, facturado por segundo con un mínimo de 1 minuto.
Uso y costos adicionales
Almacenamiento
Con el catálogo de datos, puede crear y administrar tablas en Amazon S3 y Amazon Redshift, y se le facturarán las tarifas estándar de Amazon S3 o Amazon Redshift, respectivamente, por el almacenamiento de tablas. No hay cargos de almacenamiento adicionales en el catálogo de datos.
1. Por el almacenamiento de datos en Amazon S3, se le cobran las tarifas estándar de Amazon S3 por almacenamiento, solicitudes y transferencia de datos. Consulte los precios de Amazon S3 para obtener más información.2. Al almacenar datos en Amazon Redshift, se le facturan las tarifas estándar de Amazon Redshift por el almacenamiento. Para obtener más detalles, consulte los precios de Amazon Redshift.
Computación
Cuando accede a las tablas de Amazon Redshift desde Amazon EMR, AWS Glue, Athena o cualquier motor compatible con Apache Iceberg de código abierto o de terceros, se utiliza un grupo de trabajo Amazon Redshift sin servidor administrado por servicios para los recursos informáticos. El grupo de trabajo administrado de Amazon Redshift sin servidor se usa para filtrar los resultados de las tablas y se le cobra por los recursos informáticos que usa en función de las tarifas estándar de Amazon Redshift sin servidor. La consulta de tablas almacenadas en Amazon Redshift mediante Amazon Redshift no conlleva ningún cargo adicional. Visite la sección Precios de Amazon Redshift para obtener más información.
Permisos de Lake Formation
Lake Formation se integra con el catálogo de datos y proporciona permisos a nivel de bases de datos, tablas, columnas, filas y celdas mediante controles de acceso basados en etiquetas o nombres y el uso compartido entre cuentas. No hay cargos adicionales al crear permisos de Lake Formation o al usar los permisos de Lake Formation con servicios de AWS integrados.
Ejemplos de precios
Catálogo de datos en el nivel gratuito de AWS: supongamos que almacena un millón de objetos de metadatos en el catálogo de datos en un mes determinado y realiza 1 millón de solicitudes de metadatos para acceder a estas tablas. No pagará nada por el uso porque este estará cubierto por el nivel gratuito del catálogo de datos de AWS Glue. Puede almacenar el primer millón de objetos de metadatos y llevar a cabo un millón de solicitudes de metadatos al mes de manera gratuita.
Nivel estándar de Data Catalog: ahora considere que el uso del almacenamiento de metadatos es el mismo, con 1 millón de objetos de metadatos al mes, pero sus solicitudes se duplican hasta alcanzar los 2 millones de solicitudes de metadatos al mes. Supongamos que también utiliza rastreadores para encontrar tablas nuevas y que estos se ejecutan durante 30 minutos y que consumen 2 DPU.
El costo por almacenamiento continúa siendo 0 USD, ya que el primer millón de objetos de metadatos es gratuito. El primer millón de solicitudes también es gratuito. Se le cobrará el millón de solicitudes que supera el nivel gratuito del catálogo de datos, cuyo costo sería 1 USD.
Uso del catálogo de datos con otros servicios:
Por ejemplo, cuando consulte tablas en Amazon Redshift con Athena SQL en el almacén de lago de SageMaker, se le facturará por: el almacenamiento de tablas en Amazon Redshift según los precios estándar de Amazon Redshift; la solicitud de metadatos realizada al catálogo de datos según los precios de solicitud del catálogo de datos estándar; el almacenamiento de metadatos para almacenar metadatos de catálogos, bases de datos y tablas en el catálogo de datos; las horas de RPU de Amazon Redshift sin servidor por segundo (con un cargo mínimo de 60 segundos) para filtrar los resultados de las tablas de Amazon Redshift y el número de bytes escaneados por la consulta de Athena, redondeado al megabyte más cercano, con un mínimo de 10 MB de datos por consulta según los precios estándar de Athena.
En otro escenario en el que consulte tablas en Amazon Redshift con Amazon EMR sin servidor, se le facturará por: el almacenamiento de tablas en Amazon Redshift según los precios estándar de Amazon Redshift; la solicitud de metadatos realizada al catálogo de datos según los precios de solicitud del catálogo de datos estándar; el almacenamiento de metadatos para almacenar metadatos de catálogos, bases de datos y tablas en el catálogo de datos; las horas de RPU de Amazon Redshift sin servidor por segundo (con un cargo mínimo de 60 segundos) para filtrar los resultados de las tablas de Amazon Redshift y la cantidad de recursos de CPU virtual, memoria y almacenamiento consumido por sus trabajadores en una aplicación de Amazon EMR.
En otro escenario en el que consulte tablas de Apache Iceberg en el almacenamiento de objetos de Amazon S3 con Amazon Redshift sin servidor, se le facturará por: el almacenamiento de tablas de Apache Iceberg en Amazon S3 según los precios estándar de Amazon S3; la solicitud de metadatos realizada a Data Catalog según los precios de solicitud de catálogo de datos estándar; el almacenamiento de metadatos para almacenar metadatos de catálogos, bases de datos y tablas en el catálogo de datos; y las horas de procesamiento (horas de RPU) según los precios estándar de Amazon Redshift.
Los rastreadores de AWS Glue se facturan a 0,44 USD por hora de DPU, por lo que pagará 2 DPU * 0.5 hora a 0,44 USD la hora de DPU, lo que equivale a 0,44 USD.
Si genera estadísticas en una tabla de AWS Glue y la ejecución de las estadísticas tarda 10 minutos y consume 1 DPU, se le facturará 1 DPU * 0,1666 hora * 0,44 USD por hora de DPU, lo que equivale a 0,07 USD.
Si compacta las tablas Apache Iceberg del almacenamiento de objetos de Amazon S3, y la compactación dura 30 minutos y consume 2 DPU, se le facturarán 2 DPU * 0,5 hora * 0,44 USD por hora de DPU, lo que equivale a 0,44 USD.
- 0,44 USD por hora de DPU/hora para optimizar las tablas de Apache Iceberg, facturados por segundo con un mínimo de 1 minuto.
-
Rastreadores
-
-
Sesiones interactivas de DataBrew
-
Ejemplos de precios
AWS Glue DataBrew: el precio por cada sesión interactiva de 30 minutos es de 1,00 USD. Si inicia una sesión a las 09:00 h, abandona inmediatamente la consola y regresa de 09:20 h a 09:30 h, utilizará 1 sesión por un total de 1,00 USD.
Si comienza una sesión a las 09:00 h e interactúa con la consola de DataBrew hasta las 09:50 h, sale del espacio del proyecto de DataBrew y vuelve para hacer su última interacción a las 10:15 h, esto supondrá el uso de 3 sesiones y se le facturará 1,00 USD por sesión por un total de 3,00 USD.
-
Trabajos de DataBrew
-
Ejemplos de precios
AWS Glue DataBrew: si un trabajo de DataBrew se ejecuta durante 10 minutos y consume 5 nodos de DataBrew, el precio será de 0,40 USD. Debido a que el trabajo se ejecutó durante 1/6 parte de una hora y consumió 5 nodos, se facturarán 5 nodos * 1/6 de hora * 0,48 USD por hora de nodo para un total de 0,40 USD.
-
Calidad de los datos
-
Calidad de datos de AWS Glue aumenta la confianza en sus datos ya que consigue que tengan una gran calidad. De forma automática, mide, supervisa y administra la calidad de los datos en sus lagos de datos y canalizaciones. Por ello, resulta más sencillo identificar datos inexistentes, obsoletos o erróneos.
Puede acceder a características de calidad de datos con el catálogo de datos y AWS Glue Studio y mediante las API de AWS Glue.
Precios para administrar la calidad de los conjuntos de datos catalogados en el Catálogo de datos:Puede elegir un conjunto de datos del Catálogo de datos y generar recomendaciones. Esta acción creará una tarea de recomendación, a la que aprovisionará unidades de procesamiento de datos (DPU). Tras obtener las recomendaciones, puede modificar o agregar nuevas reglas y programarlas. Estas tareas se denominan tareas de calidad de datos, a las que aprovisionará DPU. Necesitará un mínimo de 2 DPU con una duración mínima de facturación de 1 minuto.
Precios para administrar la calidad de los conjuntos de datos procesados en ETL de AWS Glue:También puede agregar comprobaciones de la calidad de datos a los trabajos de ETL para evitar que se ingresen datos erróneos en los lagos de datos. Estas reglas de calidad de datos se incluirán en los trabajos de ETL, lo que dará lugar a un mayor tiempo de ejecución o un mayor consumo de DPU. Como alternativa, puede usar la ejecución flexible para cargas de trabajo confidenciales no relacionadas al SLA.
Precios para detectar anomalías en ETL de AWS Glue ETL:
Detección de anomalías:
Incurrirá en 1 DPU por estadística, además de las DPU de trabajo de ETL, durante el tiempo necesario para detectar anomalías. En promedio, se necesitan entre 10 y 20 segundos para detectar una anomalía en una estadística. Supongamos que ha configurado dos reglas (regla 1: el volumen de datos debe ser superior a 1000 registros, regla 2: el recuento de columnas debe ser superior a 10) y un analizador (analizador 1: supervisar la integridad de una columna). Esta configuración generará tres estadísticas: recuento de filas, recuento de columnas y porcentaje de integridad de una columna. Se le cobrarán 3 DPU adicionales por el tiempo que lleve detectar anomalías con un mínimo de 1 segundo. Consulte el ejemplo 4 para obtener más información.
Reentrenamiento:
Es posible que desee excluir las ejecuciones de trabajos o las estadísticas anómalas para que el algoritmo de detección de anomalías prediga con precisión las anomalías posteriores. Para ello, AWS Glue le permite excluir o incluir estadísticas. Se necesitará 1 DPU para volver a entrenar el modelo durante el tiempo que lleve volver a entrenarlo. En promedio, el reentrenamiento demora de 10 segundos a 20 minutos por estadística. Consulte el ejemplo 5 para obtener más información.
Almacenamiento de estadísticas:
No hay ningún cargo por almacenar las estadísticas recopiladas. Hay un límite de 100 000 estadísticas por cuenta y se almacenarán durante 2 años.
Cargos adicionales:
AWS Glue procesa datos directamente de Amazon Simple Storage Service (Amazon S3). La lectura de sus datos con AWS Glue no conlleva cargos de almacenamiento adicionales. Se le cobran las tarifas estándar de Amazon S3 por almacenamiento, solicitudes y transferencia de datos. En función de su configuración, los archivos temporales, los resultados de la calidad de datos y los archivos aleatorios se almacenan en un bucket de S3 de su elección y también se facturan según las tarifas estándar de S3.
Si usa el catálogo de datos, se le cobrarán las tarifas estándar del catálogo de datos. Para más detalles, elija la pestaña Solicitudes y almacenamiento en el catálogo de datos.
Ejemplos de precios
Ejemplo 1: obtener recomendaciones para una tabla del catálogo de datosPor ejemplo, considere una tarea de recomendación con 5 DPU que se completa en 10 minutos. Pagará 5 DPU * 1/6 de hora * 0,44 USD, lo que equivale a 0,37 USD.
Ejemplo 2: evaluar la calidad de datos de una tabla del catálogo de datosTras revisar las recomendaciones, puede editarlas si fuera necesario y, a continuación, programar la tarea de calidad de datos mediante el aprovisionamiento de DPU. Por ejemplo, considere una tarea de evaluación de la calidad de datos con 5 DPU que se completa en 20 minutos.
Pagará 5 DPU * 1/3 de hora * 0,44 USD, lo que equivale a 0,73 USD.
Ejemplo 3: evaluar la calidad de datos en un trabajo de ETL de AWS GlueTambién puede agregar estas comprobaciones de la calidad de datos a los trabajos de ETL de AWS Glue para evitar que se ingresen datos erróneos en los lagos de datos. Para ello, agregue Data Quality Transform a AWS Glue Studio o use las API de AWS Glue en el código que ha creado en los blocs de notas de AWS Glue Studio. Considere que un trabajo de AWS Glue se ejecuta con reglas de calidad de datos configuradas en la canalización, y que se ejecuta durante 20 minutos (1/3 de hora) con 6 DPU. Se le cobrará 6 DPU * 1/3 de hora * 0,44 USD, lo que equivale a 0,88 USD. Como alternativa, puede usar Flex, por lo que se le cobrará 6 DPU * 1/3 de hora * 0,29 USD, lo que equivale a 0,58 USD.
Ejemplo 4: Evaluar la calidad de los datos en un trabajo de ETL de AWS Glue con Detección de anomalías
Considere un trabajo de AWS Glue que lee datos de Amazon S3, transforma datos y ejecuta comprobaciones de calidad de datos antes de cargarlos en Amazon Redshift. Suponga que esta canalización tuviera 10 reglas y 10 analizadores, con el resultado de 20 estadísticas recopiladas. Además, suponga que la extracción, el proceso de transformación, la carga, la recopilación de estadísticas y la evaluación de la calidad de los datos demorarán 20 minutos. Si la detección de anomalías no está habilitada, se le cobrarán al cliente 6 DPU * 1/3 de hora (20 minutos) * 0,44 USD, lo que equivale a 0,88 USD (A). Con la detección de anomalías activada, agregaremos 1 DPU por cada estadística y, en promedio, tardaremos 15 segundos en detectar anomalías. En este ejemplo, el cliente generará 20 estadísticas * 1 DPU * 15/3600 (0,0041 horas/estadística) * 0,44 USD (costo por DPU/hora) = 0,037 USD (B). El costo total del trabajo será de 0,88 USD (A) + 0,037 USD (B) = 0,917 USD.
Ejemplo 5: ReentrenamientoTenga en cuenta que su trabajo de Glue detectó una anomalía. Decide excluir la anomalía del modelo para que el algoritmo de detección de anomalías prediga con precisión las anomalías futuras. Para ello, puede volver a entrenar el modelo excluyendo esta estadística anómala. Incurrirá en 1 DPU por estadística durante el tiempo que lleve volver a entrenar el modelo. En promedio, esto puede demorar 15 segundos. En este ejemplo, suponiendo que excluya 1 punto de datos, incurrirá en 1 estadística * 1 DPU * 15/3600 (0,0041 hora/estadística) * 0,44 USD = 0,00185 USD.
-
Sin ETL
-
Sin ETL es un conjunto de integraciones totalmente administradas por AWS que minimiza la necesidad de crear canalizaciones de datos de extracción, transformación y carga (ETL) para casos de uso comunes de ingesta y replicación en sus iniciativas de análisis e inteligencia artificial. AWS no cobra ninguna tarifa adicional por la integración sin ETL. Debe pagar por los recursos de origen y de destino que se utilizan para crear y procesar los datos modificados creados como parte de una integración sin ETL.
El almacén de lago de Amazon SageMaker y Amazon Redshift son compatibles con integraciones sin ETL desde aplicaciones
El almacén de lago de Amazon SageMaker y Amazon Redshift son compatibles con integraciones sin ETL desde aplicaciones, lo que automatiza la extracción y la carga de datos de las aplicaciones en el almacén de lago de Amazon SageMaker y Amazon Redshift. Consulte la documentación de AWS Glue si ETL para obtener la lista completa de fuentes de sin ETL compatibles.
AWS Glue cobra una tarifa por la ingesta de datos de origen de aplicaciones compatibles con la integración sin ETL. Usted paga por los recursos de AWS Glue que se utilizan para obtener inserciones, actualizaciones y eliminaciones de su aplicación. Se le cobrará en función del volumen de datos que reciba de la aplicación y no se le cobrará por iniciar la solicitud de ingesta de datos. Cada solicitud de ingesta que realiza AWS Glue tiene un volumen mínimo de 1 megabyte (MB).
Cuando los datos ingeridos se escriben en Amazon Redshift, se le factura por los recursos utilizados para procesar los datos modificados creados como parte de la integración sin ETL en función de las tarifas de Amazon Redshift.
Cuando los datos ingeridos se escriben en el almacén de lago de SageMaker, se le factura por los recursos utilizados para procesar los datos modificados creados como parte de la integración sin ETL. El recurso informático utilizado se basa en el tipo de almacenamiento elegido para el almacén de lago de SageMaker.
- Para el almacenamiento administrado de Amazon Redshift, se factura en función del procesamiento de Amazon Redshift sin servidor. Para obtener más información, consulte los precios de Amazon Redshift.
- En el caso de Amazon Simple Storage Service (S3), se factura en función del cálculo de AWS Glue por hora de unidad de procesamiento de datos (hora DPU), facturado por segundo con un mínimo de 1 minuto.
Integración sin ETL de Amazon DynamoDB con el almacén de lago de Amazon SageMaker
La integración sin ETL de Amazon DynamoDB con el almacén de lago de Amazon SageMaker automatiza la extracción y la carga de datos, lo que permite el análisis y la inteligencia artificial para los datos de las tablas de DynamoDB en el lago de datos.
DynamoDB cobra una tarifa para exportar datos de las copias de seguridad continuas de DynamoDB (recuperación a un momento dado). Para obtener más información, consulte Amazon DynamoDB.
Cuando los datos ingeridos se escriben en el almacén de lago de Amazon SageMaker, se le factura por los recursos utilizados para procesar los datos modificados creados como parte de la integración sin ETL en función del tipo de almacenamiento elegido para el almacén de lago de Amazon SageMaker.
- Para el almacenamiento administrado de Amazon Redshift, se factura en función del procesamiento de Amazon Redshift sin servidor. Para obtener más información, consulte los precios de Amazon Redshift.
- En el caso de Amazon Simple Storage Service (S3), se factura en función del cálculo de AWS Glue por hora de unidad de procesamiento de datos (hora DPU), facturado por segundo con un mínimo de 1 minuto.
Nota: Los precios pueden variar según la región.
Consulte la tabla de regiones globales para obtener más información sobre la disponibilidad de AWS Glue.