Häufig gestellte Fragen zu Amazon Managed Workflows for Apache Airflow (MWAA)

Themen der Seite

Allgemeines

Allgemeines

Amazon Managed Workflows for Apache Airflows (MWAA) ist ein verwalteter Service von Apache Airflow, der zum Extrahieren von Geschäftserkenntnissen quer durch ein Unternehmen verwendet wird, indem Daten durch eine Reihe von Aufgaben, die als Workflow bezeichnet werden, kombiniert, angereichert und transformiert werden. Managed Workflows befreien Sie von der Verwaltung, Konfiguration und Skalierung der Airflow-Umgebung, während Sie Datenverarbeitungs-Workflows orchestrieren und deren Ausführung durch AWS-gestützte Protokollierungs- und Überwachungsfunktionen verwalten. Sie können Ihre bestehenden Airflow-Workflows auf Amazon MWAA ausführen und mit deren Umgebung programmatisch über die AWS-Konsole, -API und das Command Line Interface (CLI) interagieren. 

Sie sollten Amazon MWAA nutzen, um mehr Zeit für Technik und Datenwissenschaft bei der Erstellung von Workflows zu haben und weniger Zeit für die Verwaltung der Infrastruktur und der Airflow-Umgebung aufwenden zu müssen, während Sie gleichzeitig eine konsistente Leistung vom verwalteten Service erhalten. Datenentwicklungs- und Datenwissenschaftsteams verwenden Airflow als die führende Open-Source-Orchestrierungsumgebung für das Entwickeln und Ausführung von Workflows, die extract-transform-load (ETL)-Aufträge und Machine-Learning-Datenpipelines definieren. Sie werden die Fähigkeit von Airflow schätzen, Workflows in Python, der bevorzugten Sprache für die Datenverarbeitung, programmatisch zu erstellen, zu planen und zu überwachen. Das Airflow-Task-Plugin-Modell und die offene Architektur, die es Ihnen ermöglicht, benutzerdefinierte Workflows zu erstellen, einschließlich der Unterstützung für On-Premise-Datenquellen. Ein Team, das die Vorteile der programmatischen Benutzeroberfläche von Airflow nutzen möchte, muss jedoch zunächst die Server und die Überwachung konfigurieren und warten, damit sie funktionieren. Viele Kunden setzen Datentechniker ein, um die Worker-Flotte zu verwalten, Abhängigkeiten zu installieren, das System hoch- und runterzuskalieren und den Scheduler neu zu starten. Verwaltete Workflows macht diese Handgriffe mit einer verwalteten Airflow-Umgebung, die hochverfügbar, überwacht und automatisch skalierbar ist, überflüssig. 

Amazon MWAA verwaltet die Arbeit, die mit der Einrichtung von Airflow verbunden ist, von der Bereitstellung der Infrastrukturkapazität (Serverinstanzen und Speicher) über die Installation der Software bis hin zur Bereitstellung einer vereinfachten Benutzerverwaltung und -autorisierung durch AWS Identity and Access Management (IAM) und Single Sign-On (SSO). 

Amazon MWAA ist eine Workflow-Umgebung, die es Datentechniker und Datenwissenschaftlern ermöglicht, Workflows mit anderen AWS-, On-Premise- und Cloud-Services zu erstellen. Amazon-MWAA-Workflows rufen mithilfe von Athena-Abfragen Eingaben aus Quellen wie S3 ab, führen Transformationen auf EMR-Clustern durch und können die resultierenden Daten zum Trainieren von Modellen für Machine Learning (ML) auf SageMaker verwenden. Workflows in Amazon MWAA werden als gerichtete azyklische Graphen (DAGs) mit Python erstellt. Ein wesentlicher Vorteil von Airflow ist die offene Erweiterbarkeit durch Plugins, die es Ihnen ermöglicht, Aufgaben-Plugins für alle AWS- oder lokalen Ressourcen zu erstellen, die Sie für Ihre Workflows benötigen, darunter Athena, Batch, Cloudwatch, DynamoDB, DataSync, EMR, ECS/Fargate, EKS, Firehose, Glue, Lambda, Redshift, SQS, SNS, Sagemaker und S3. 

Amazon MWAA unterstützt alle über 100 bisher entwickelten Airflow-Community-Plugins sowie alle benutzerdefinierten Plugins, die Sie erstellen, indem Sie sie einfach in einem S3-Bucket ablegen. 

Amazon MWAA bietet Zugriff auf die Apache-Airflow-Benutzeroberfläche, auf der Sie Ihre Workflows mithilfe von Diagramm- und Gitteransichten überwachen und Aufgabenprotokolle und Ausführungsdetails für jeden DAG-Lauf überprüfen können. Die Gitteransicht zeigt den vollständigen Verlauf und Status jeder Aufgaben-Instance in Ihren Workflows. CloudWatch unterstützt diese Schnittstelle und zeigt wichtige Kennzahlen zum Zustand und zur Leistung Ihrer Umgebung an. CloudWatch-Protokolle helfen Ihnen dabei, Probleme während der Workflow-Ausführung zu lokalisieren und zu beheben.

Sie sollten Amazon MWAA verwenden, wenn Sie Wert auf Open Source und Portabilität legen. Airflow hat eine große und aktive Open-Source-Community, die regelmäßig neue Funktionen und Integrationen beisteuert. Amazon MWAA unterstützt bestehende Airflow-Workflows und -Integrationen ohne Änderungen am Code. Die Migration ist einfach und die Umgebung ist vertraut.

Sie sollten Step Functions verwenden, wenn Sie die Priorität auf Kosten und Leistung legen. Wenn Sie beispielsweise Streaming-Daten verarbeiten und diese in mehreren Schritten transformieren, bevor Sie sie in eine DynamoDB-Datenbank oder S3 stellen, sollten Sie Step Functions verwenden, da diese eine höhere Leistung bei geringeren Kosten bieten.