ゼロ ETL とは何ですか?
ゼロ ETL は、ETL データパイプラインを構築する必要性を排除し、または最小限に抑える一連の統合です。抽出、変換、ロード (ETL) は、さまざまなソースからのデータを結合、クリーニング、正規化して、分析、人工知能 (AI)、機械学習 (ML) のワークロードに対応できるようにするプロセスです。従来の ETL プロセスは、開発、メンテナンス、スケールに時間がかかり、複雑です。一方、ゼロ ETL 統合では、ETL データパイプラインの作成を必要とせずに、ポイントツーポイントのデータ移動を円滑に行うことができます。また、ゼロ ETL を使用することで、データを移動することなく、データサイロ全体でクエリを実行できるようになります。
ゼロ ETL 統合はどのような ETL の課題を解決しますか?
ゼロ ETL 統合は、従来の ETL プロセスでのデータ移動に関する既存の課題の多くを解決します。
システムの増大する複雑さ
ETL データパイプラインにより、データ統合の取り組みがさらに複雑になります。目的のターゲットスキーマに一致するようにデータをマッピングするには、複雑なデータマッピングルールが必要であり、データの不整合や競合の処理が必要です。問題を診断するには、効果的なエラー処理、ログ記録、および通知メカニズムを実装する必要があります。データセキュリティの要件により、システムに対する制約がさらに増大します。
追加料金
ETL パイプラインはもともと高コストですが、データ量が増加するにつれてコストが上昇する可能性があります。システム間の重複データストレージは、大量のデータを扱うにはコストがかかり過ぎる可能性があります。さらに、ETL プロセスのスケーリングには、多くの場合、高コストのインフラストラクチャのアップグレード、クエリパフォーマンスの最適化、並列処理技術が必要になります。要件が変化した場合、データエンジニアリングは更新プロセス中にパイプラインを常にモニタリングおよびテストする必要があり、メンテナンスコストが増加します。
分析、AI、ML にかかる時間の増加
ETL では通常、データエンジニアがカスタムコードを作成する必要があり、DevOps エンジニアがワークロードのスケールに必要なインフラストラクチャをデプロイおよび管理する必要があります。データソースを変更した場合、データエンジニアはコードを手動で変更し、再度デプロイする必要があります。このプロセスには数週間かかる場合があり、その結果、分析、人工知能、機械学習のワークロードの実行に遅れが生じます。さらに、ETL データパイプラインの構築とデプロイに時間がかかるため、そのようなデータは、オンライン広告の掲載、不正取引の検出、リアルタイムのサプライチェーン分析などのほぼリアルタイムのユースケースに適しているとは言えません。これらのシナリオでは、カスタマーエクスペリエンスの改善、新たなビジネスチャンスへの対処、ビジネスリスクの軽減のための機会が失われます。
ゼロ ETL にはどのような利点がありますか?
ゼロ ETL は、組織のデータ戦略にいくつかの利点をもたらします。
敏捷性の向上
ゼロ ETL はデータアーキテクチャを簡素化し、データエンジニアリングにかかる労力を軽減します。これにより、大量のデータを再処理することなく、新しいデータソースを含めることができます。この柔軟性によって俊敏性が向上し、データ駆動型の意思決定と迅速なイノベーションがサポートされます。
コスト効率
ゼロ ETL はクラウドネイティブでスケーラブルなデータ統合テクノロジーを利用しているため、企業は実際の使用量とデータ処理のニーズに基づいてコストを最適化できます。組織はインフラストラクチャのコスト、開発にかかる労力、メンテナンス関連のオーバーヘッドを削減できます。
インサイトを取得するまでの時間を短縮
従来の ETL プロセスでは定期的なバッチ更新が必要となることが多く、その結果、データが利用可能になるまでに時間がかります。一方、ゼロ ETL はリアルタイムまたはほぼリアルタイムのデータアクセスを提供し、分析、AI/ML、レポートのために、より新しいデータを利用できるようにします。リアルタイムダッシュボード、最適化されたゲームエクスペリエンス、データ品質モニタリング、顧客行動分析などのユースケースについて、より正確かつ適時のインサイトを得ることができます。組織は、より大きな自信をもってデータ駆動型の予測を実行し、カスタマーエクスペリエンスを改善して、ビジネス全体でデータ駆動型のインサイトを得られるようにします。
ゼロ ETL のさまざまなユースケースにはどのようなものがありますか?
ゼロ ETL には 3 つの主なユースケースがあります。
迅速なデータインジェスト
企業は、リアルタイムの意思決定のために、さまざまなタイプのデータを迅速に取り込み、分析する必要があります。ゼロ ETL は、データウェアハウスやデータレイクハウスにデータを直接かつ迅速に取り込むための柔軟なアプローチを提供します。これにより、従来の ETL パイプラインが不要になり、組織は変化するビジネス要件に簡単に適応できます。
ストリーミング取り込み
データストリーミングプラットフォームとメッセージキュープラットフォームは、複数のソースからリアルタイムデータをストリーミングします。データウェアハウスとのゼロ ETL 統合により、そのような複数のストリームからデータを取り込み、分析のためにほぼ瞬時に提示できます。これらのプラットフォームは、データが移動している間も変換と分析のリッチな機能を提供するため、ストリーミングデータをステージングする必要はありません。
即時のレプリケーション
これまでは、運用およびトランザクションデータベースから中心的なデータウェアハウスおよびデータレイクハウスにデータを移動するには、複雑な ETL ソリューションが常に必要でした。今日では、ゼロ ETL はデータレプリケーションツールとして機能し、運用データベース、トランザクションデータベース、アプリケーションからデータウェアハウスやデータレイクハウスにデータを即座に複製できます。複製メカニズムは変更データキャプチャ (CDC) の手法を使用しており、データウェアハウスおよびデータレイクハウスに組み込まれている場合があります。重複はユーザーには見えません。アプリケーションはトランザクションデータベースにデータを保存し、アナリストはウェアハウスからのデータに対してシームレスにクエリを実行します。
AWS はゼロ ETL の取り組みをどのようにサポートできますか?
AWS はゼロ ETL の未来に投資しています。ゼロ ETL の組み込みサポートを提供するサービスの例を以下に示します。
Amazon SageMaker Lakehouse と Amazon Redshift は、アプリケーションからのゼロ ETL 統合をサポートします。これは、アプリケーションから Amazon SageMaker Lakehouse と Amazon Redshift へのデータの抽出とロードを自動化します。
Amazon DynamoDB と Amazon SageMaker Lakhouse のゼロ ETL 統合は、Amazon DynamoDB から、Amazon S3 上に構築されたトランザクションデータレイクである Amazon SageMaker Lakehouse へのデータの抽出とロードを自動化します。
Amazon OpenSearch Service と Amazon CloudWatch Logs のゼロ ETL 統合により、ほぼリアルタイムでログデータを直接クエリおよび視覚化して、複雑なパイプラインや前処理なしでログ管理を一元化できます。
Amazon OpenSearch Service と Amazon Security Lake のゼロ ETL 統合により、セキュリティデータを直接検索および分析できるため、オンデマンドのデータアクセラレーションとリッチな分析機能を通じて、データ統合の課題が解消され、複雑さ、運用上のオーバーヘッド、コストが削減されます。
Amazon Aurora の Amazon Redshift とのゼロ ETL 統合により、ほぼリアルタイムの分析と機械学習 (ML) が可能になります。Aurora からのペタバイト規模のトランザクションデータに対する分析ワークロードには Amazon Redshift が利用されます。これは、トランザクションデータが Aurora DB クラスターに書き込まれた後、Amazon Redshift で利用できるようにするためのフルマネージドソリューションです。
Amazon RDS for MySQL と Amazon Redshift のゼロ ETL 統合は、多くのアプリケーションに関する総合的なインサイトを引き出し、組織内のデータサイロを解消するのに役立ちます。これにより、1 つまたは複数の Amazon RDS for MySQL インスタンスからのデータを Amazon Redshift 内で簡単に分析できます。
Amazon DynamoDB と Amazon OpenSearch Service のゼロ ETL 統合は、Amazon DynamoDB データに対する全文検索やベクトル検索などの高度な検索機能をお客様に提供します。
Amazon DocumentDB と Amazon OpenSearch Service のゼロ ETL 統合は、Amazon DocumentDB ドキュメントにおける、OpenSearch API を使用したファジー検索、クロスコレクション検索、多言語検索などの高度な検索機能をお客様に提供します。
お客様が Amazon S3 データレイクの運用ログをクエリするための新しい効率的な方法である Amazon OpenSearch Service と Amazon S3 のゼロ ETL 統合により、データを分析するためにツールを切り替える必要がなくなります。
Amazon Aurora PostgreSQL と Amazon Redshift のゼロ ETL 統合により、Amazon Redshift を使用してほぼリアルタイムの分析や機械学習 (ML) を行い、Aurora からの PB 規模のトランザクションデータを分析することが可能になります。
Amazon DynamoDB と Amazon Redshift のゼロ ETL 統合により、お客様は DynamoDB で実行されている本番ワークロードに影響を及ぼすことなく、Amazon Redshift の DynamoDB データに対して高性能な分析を実行できます。
今すぐ無料アカウントを作成して、AWS でゼロ ETL の使用を開始しましょう。