AWS-Glue-Features

Warum Glue?

AWS Glue ist ein skalierbarer Serverless-Datenintegrationsservice, der das Erkennen, Aufbereiten, Verschieben und Integrieren von Daten aus verschiedenen Quellen für Analysen, Machine Learning und Anwendungsentwicklung erleichtert. Mit generativer KI-Unterstützung bietet AWS Glue alle Funktionen, die für die Datenintegration erforderlich sind, sodass Sie innerhalb von Minuten statt Monaten Erkenntnisse gewinnen und Ihre Daten nutzen können. Für AWS Glue müssen Sie keine Infrastruktur einrichten oder verwalten. Sie zahlen nur für die Ressourcen, die Sie verbrauchen, während Ihre Jobs laufen.

Discover

Der AWS-Glue-Datenkatalog ist Ihr dauerhafter Metadatenspeicher für alle Ihre Daten, unabhängig davon, wo diese gespeichert sind. Der Datenkatalog enthält Tabellendefinitionen, Jobdefinitionen, Schemata und andere Kontrollinformationen, die Ihnen helfen, Ihre AWS Glue-Umgebung zu verwalten. Er berechnet automatisch Statistiken und registriert Partitionen, um Anfragen zu Ihren Daten effizient und kostengünstig zu gestalten. Er unterhält auch einen umfangreichen Schemaversionsverlauf, damit Sie verstehen, wie sich Ihre Daten im zeitlichen Verlauf geändert haben.

AWS Glue-Datenausleseprogramme (sog. Crawler) verbinden sich mit Ihrem Quell- oder Zieldatenspeicher und durchlaufen eine priorisierte Liste von Klassifikatoren, um das Schema für Ihre Daten zu bestimmen und anschließend Metadaten in Ihrem AWS Glue Datenkatalog zu erstellen. Die Metadaten werden in Tabellen in Ihrem Datenkatalog gespeichert und für den Erstellungsprozess Ihrer Extract, Transform und Load-Aufträge (ETL) verwendet. Sie können die Crawler anhand eines Zeitplans, On-Demand oder ereignisgesteuert auslösen, um sicherzustellen dass Ihre Metadaten aktuell sind.

AWS Glue Schema Registry, eine Serverless-Funktion von AWS Glue, hilft Ihnen die Entwicklung von Streaming-Daten mit registrierten Apache Avros-Schemas ohne Aufpreis zu validieren und zu steuern. Durch Apache-lizensierte Serializer und Deserializer, ist AWS Glue Schema Registry in Java-Anwendungen integriert, die für Apache Kafka/ Amazon Managed Streaming for Apache Kafka (Amazon MSK), Amazon Kinesis Data Streams, Apache Flink/Amazon Kinesis Data Analytics for Apache Flink und AWS Lambda entwickelt wurden. Wenn Daten-Streaming-Anwendungen mit AWS Glue Schema Registry integriert werden, können Sie die Datenqualität verbessern und sich gegen unerwartete Änderungen schützen, indem Sie Kompatibilitätsprüfungen verwenden, die die Schemaentwicklung steuern. Des Weiteren können Sie AWS-Glue-Tabellen und -Partitionen mit Schemata erstellen oder aktualisieren, die in der Registry gespeichert sind.

Auto Scaling, eine Serverless-Funktion in AWS Glue, skaliert Ressourcen dynamisch auf und ab, je nach Workload. Beim Auto Scaling werden Ihrem Auftrag nur bei Bedarf Worker zugewiesen. Während der Auftrag fortschreitet und erweiterte Transformationen durchläuft, fügt AWS Glue Ressourcen hinzu und entfernt sie, je nachdem, wie sehr es die Workload aufteilen kann. Sie müssen sich nicht mehr um eine zu große Bereitstellung von Ressourcen kümmern, Zeit für die Optimierung der Anzahl der Worker aufwenden oder für ungenutzte Ressourcen bezahlen.

Vorbereiten

AWS Glue hilft Ihnen dabei, Ihre Daten zu bereinigen und für die Analyse vorzubereiten, ohne dass Sie ein ML-Experte werden müssen. Die FindMatches-Funktion dedupliziert und findet Datensätze, die nicht perfekt miteinander übereinstimmen. Sie können FindMatches etwa verwenden, um doppelte Datensätze in Ihrer Restaurantdatenbank zu finden, zum Beispiel, wenn ein Datensatz „Joe‘s Pizza“ unter „121 Main St.“ und ein anderer „Joseph‘s Pizzeria“ unter „121 Main“ aufführt. FindMatches fordert Sie auf, Datensätze entweder als "übereinstimmend" oder als "nicht übereinstimmend" zu kennzeichnen. Das System erlernt dann Ihre Kriterien, nach denen Datensätze "übereinstimmen" und erstellt eine ETL-Aufgabe, die Sie zur Ermittlung doppelter Datensätze in einer Datenbank oder zum Abgleich von Datensätzen in zwei Datenbanken verwenden können.

Wenn Sie sich dafür entscheiden, Ihren ETL-Code interaktiv zu entwickeln, stellt Ihnen AWS Glue Entwicklungsendpunkte zum Editieren, Debuggen und Testen des für Sie generierten Codes zur Verfügung. Sie können Ihre bevorzugte integrierte Entwicklungsumgebung (IDE) oder Ihr bevorzugtes Notebook verwenden. Sie können benutzerdefinierte Leser, Schreiber oder Transformationen schreiben und diese in Ihre AWS Glue ETL-Jobs und benutzerdefinierten Bibliotheken importieren. Über unser GitHub-Repository können Sie auch den Code anderer Entwickler verwenden oder Ihren Code teilen. AWS Glue Interactive Sessions, eine Serverless-Funktion zur Auftragsentwicklung, vereinfacht die Entwicklung von Datenintegrations-Aufträgen. Mit der IDE oder dem Notebook ihrer Wahl können Techniker auch Daten interaktiv untersuchen, mit ihnen experimentieren und sie verarbeiten.

AWS Glue DataBrew bietet eine interaktive, visuelle Point-and-Click-Oberfläche für Benutzer wie Datenanalysten und Daten-Wissenschaftler, um Daten zu bereinigen und zu normalisieren, ohne Code zu schreiben. Sie können Daten direkt aus Ihren Data Lake, Data Warehouses und Datenbanken, einschließlich Amazon Simple Storage Service (Amazon S3), Amazon Redshift, Amazon Aurora und Amazon Relational Database Service (Amazon RDS), einfach visualisieren, bereinigen und normalisieren. Sie können aus über 250 eingebauten Transformationen wählen, um die Daten zu kombinieren, zu schwenken und zu transponieren und um Datenvorbereitungs-Aufgaben zu automatisieren, indem Sie gespeicherte Transformationen direkt auf die neu eingehenden Daten anwenden.

AWS Glue Sensitive Data Detection hilft Ihnen, sensible Daten in Ihrer Data Pipeline und Data Lake zu definieren, zu identifizieren und zu verarbeiten. Nach der Identifizierung können Sie sensible Daten sanieren, indem Sie personenbezogene Daten und andere als sensibel eingestufte Datentypen unkenntlich machen, ersetzen oder melden. AWS Glue Sensitive Data Detection vereinfacht die Identifizierung und Maskierung sensibler Daten, inklusive PII wie Name, Sozialversicherungsnummer, Adresse, E-Mail und Führerschein.

Entwickler wissen Python für die einfache Nutzung und umfassende Sammlung von integrierten Datenverarbeitungsbibliotheken von Python zu schätzen. Sie möchten den vertrauten primitiven Python-Typ für die Verarbeitung großer Datensätze verwenden. Daten-Ingenieure können mit AWS Glue for Ray große Datensätze mit Python und gängigen Python-Bibliotheken verarbeiten. AWS Glue for Ray verwendet Ray.io, ein vereinheitlichtes Open-Source-Framework für die Datenverarbeitung, mit dem sich Python-Workloads von einem einzelnen Knoten auf Hunderte von Knoten skalieren lassen. AWS Glue for Ray ist ein Serverless-Service. Deshalb muss keine Infrastruktur verwaltet werden.

Mit AWS Glue können Sie benutzerdefinierte visuelle Transformationen erstellen, damit Sie ETL-Logik definieren, wiederverwenden und teilen können. Mit den benutzerdefinierten visuellen Transformationen von AWS Glue können Data Engineers eine unternehmensspezifische Apache-Spark-Logik schreiben und teilen. So lässt sich die Abhängigkeit von Spark-Entwicklern reduzieren und es wird einfacher, ETL-Jobs auf den neuesten Stand zu halten. Diese Transformationen, ob visuell oder codebasiert, sind für alle Jobs in Ihrem AWS-Konto verfügbar.

AWS Glue bietet generative KI-Funktionen zur automatischen Analyse Ihrer Spark-Jobs und zur Generierung von Upgrade-Plänen für neuere Versionen. Dies reduziert den Zeit- und Arbeitsaufwand, der erforderlich ist, um Ihre Spark-Jobs modern, sicher und leistungsfähig zu halten, indem die Identifizierung und Aktualisierung von Skripten und Konfigurationen automatisiert wird.

AWS Glue verwendet generative KI, um Probleme in Spark-Jobs schnell zu identifizieren und zu lösen. Es analysiert Job-Metadaten, Ausführungsprotokolle und Konfigurationen, um Ursachenanalysen und umsetzbare Empfehlungen bereitzustellen und so die Zeit für die Fehlerbehebung von Tagen auf Minuten zu reduzieren.

Integration

AWS Glue Interactive Sessions, eine Serverless-Funktion zur Auftragsentwicklung, vereinfacht die Entwicklung von Datenintegrations-Aufträgen. Mit AWS Glue Interactive Sessions können Datentechniker, Daten interaktiv untersuchen und aufbereiten. Mit der IDE oder dem Notebook ihrer Wahl können Techniker auch Daten interaktiv untersuchen, mit ihnen experimentieren und sie verarbeiten.

Auftrags-Notebooks von AWS Glue Studio bieten Serverless-Notebooks mit minimaler Einrichtung in AWS Glue Studio, damit Entwickler schnell loslegen können. Mit AWS Glue Studio Job Notebooks haben Sie Zugriff auf eine integrierte Oberfläche für AWS Glue Interactive Sessions, in der Sie Ihren Notebook-Code als AWS-Glue-Aufträge speichern und planen können.

AWS Glue-Jobs können anhand eines Zeitplans, On-Demand oder ereignisgesteuert aktiviert werden. Sie können mehrere Jobs parallel starten oder Abhängigkeiten zwischen Jobs festlegen, um komplexe ETL-Pipelines aufzubauen. AWS Glue bearbeitet alle Abhängigkeiten zwischen Jobs, filtert schlechte Daten aus und startet Jobs neu, falls diese fehlschlagen. Alle Protokolle und Benachrichtigungen werden zu Amazon CloudWatch übertragen, sodass Sie von einem zentralen Service aus Kontrolle ausüben und Warnmeldungen erhalten können. Amazon Managed Workflows für Apache Airflow (MWAA) ist ein verwalteter Service für Apache Airflow, mit dem Sie Ihre aktuelle, vertraute Apache-Airflow-Plattform für die Orchestrierung Ihrer Workflows nutzen können. Mit MWAA können Sie mehrere ETL-Prozesse orchestrieren, die verschiedene Technologien innerhalb eines komplexen ETL-Workflows verwenden.

AWS Glue integriert mit Git, dem weit verbreiteten Open-Source-Versionskontrollsystem. Sie können GitHub und AWS CodeCommit verwenden, um einen Änderungsverlauf ihrer AWS-Glue-Aufträge aufzuzeichnen und bestehende DevOps-Methoden anzuwenden, um diese Aufträge auszuführen. Die Git-Integration in AWS Glue funktioniert für alle AWS-Glue-Auftragstypen, ob visuell oder codebasiert. Sie umfasst die integrierte Integration mit sowohl GitHub als auch CodeCommit und erleichtert auch die Verwendung von Automatisierungstools wie Jenkins und AWS CodeDeploy zum Bereitstellen von AWS-Glue-Aufträgen.

AWS Glue Flex ist eine flexible Auftragsklasse, mit der Sie die Kosten Ihrer nicht dringenden Datenintegrationsarbeitslasten (z. B. Vorproduktionsaufträge, Tests und Datenlasten) um bis zu 35 % senken können. AWS Glue hat zwei Auftragsausführungsklassen: Standard und Flexibel. Die Standardausführungsklasse ist ideal für zeitkritische Workloads, die einen schnellen Auftragsstart und dedizierte Ressourcen erfordern. AWS Glue Flex eignet sich für nicht zeitkritische Aufträge, deren Start- und Abschlusszeiten variieren können.

AWS Glue unterstützt nativ drei Open-Source-Frameworks, einschließlich Apache Hudi, Apache Iceberg und Linux Foundation Delta Lake. Mit diesen Frameworks können Sie Daten transaktionsübergreifend konsistent verwalten, um sie in Ihrem Data Lake zu verwenden, der auf Amazon S3 basiert.

AWS Glue Data Quality hilft Ihnen, Ihre Datenqualität und Ihr Vertrauen zu verbessern. Es misst, überwacht und verwaltet automatisch die Datenqualität in Ihren Data Lakes und Pipelines. Außerdem berechnet es automatisch Statistiken, empfiehlt Qualitätsregeln, überwacht und warnt Sie, wenn sich die Qualität verschlechtert. So können Sie fehlende, veraltete oder schlechte Daten leichter erkennen, bevor sie sich auf Ihr Geschäft auswirken.

AWS Glue 5.0 und höher vereinfacht die Sicherheit und Governance von transaktionalen Data Lakes, indem es Zugriffskontrollen auf Tabellen-, Spalten- und Zeilenebene bereitstellt, während Apache-Spark-Aufträge auf Apache-Iceberg-, Apache-Hudi- und Delta-Tabellen zugreifen.

Transformation

Mit AWS Glue Studio können Sie hochgradig skalierbare ETL-Aufgaben für die verteilte Verarbeitung erstellen, ohne ein Apache-Spark-Experte zu werden. Definieren Sie Ihren ETL-Prozess im Drag-and-Drop-Aufgaben-Editor und AWS Glue generiert automatisch den Code zum Extrahieren, Transformieren und Laden Ihrer Daten. Der Code wird in Scala oder Python erstellt und für Apache Spark geschrieben.

Erstellen Sie ETL-Jobs in natürlicher Sprache mit Amazon Q Data Integration in AWS Glue. Beschreiben Sie einfach Ihre Anforderungen an die Datentransformation und erhalten Sie automatisch generierten Apache Spark-Code, den Sie anpassen, testen und als Produktionsaufträge bereitstellen können.

Serverlose ETL-Streaming-Aufgaben in AWS Glue verbrauchen kontinuierlich Daten aus Streaming-Quellen wie Amazon Kinesis und Amazon MSK, bereinigen und transformieren sie während der Übertragung und stellen sie in Sekundenschnelle in Ihrem Zieldatenspeicher zur Analyse bereit. Nutzen Sie diese Funktion, um Ereignisdaten wie IoT Event-Streams, Clickstreams und Netzwerkprotokolle zu verarbeiten. Streaming-ETL-Aufträge von AWS Glue können Daten ergänzen und aggregieren, Batch- und Streaming-Quellen verbinden und eine Vielzahl komplexer Analytik- und Machine-Learning-Vorgänge ausführen.

Optimize

Der AWS-Glue-Datenkatalog unterstützt die Optimierung von Apache Iceberg Tables.

Der AWS-Glue-Datenkatalog unterstützt die Datenkomprimierung, bei der kleine Datendateien komprimiert werden, um den Speicherverbrauch zu reduzieren und die Leseleistung zu verbessern.

Der AWS-Glue-Datenkatalog unterstützt den Snapshot-Aufbewahrungsoptimierer, der bei der Verwaltung des Speicheraufwands helfen kann, indem nur die benötigten Snapshots beibehalten und ältere, unnötige Snapshots und die zugehörigen zugrundeliegenden Dateien entfernt werden.

Der AWS-Glue-Datenkatalog unterstützt die regelmäßige Identifizierung und Entfernen unnötiger, unreferenzierter Dateien, wodurch Speicherplatz freigegeben wird.

Der AWS-Glue-Datenkatalog unterstützt die Berechnung und Aktualisierung der Anzahl der eindeutigen Werte (NDVs) für jede Spalte in Iceberg-Tabellen, was zu einer besseren Abfrageoptimierung, Datenverwaltung und Leistungseffizienz für Dateningenieure und Wissenschaftler führt, die mit großen Datensätzen arbeiten.

Der AWS-Glue-Datenkatalog unterstützt Statistiken auf Spaltenebene in Datenformaten wie Parquet, ORC, JSON, ION, CSV und XML. AWS-Analyse-Services wie Amazon Redshift und Amazon Athena können diese Spaltenstatistiken verwenden, um Abfrageausführungspläne zu erstellen und den optimalen Plan auszuwählen, der die Abfrageleistung verbessert.