零 ETL 整合解決了哪些 ETL 挑戰?
零 ETL 整合可解決傳統 ETL 程序中存在的許多資料移動挑戰。
增加系統複雜性
ETL 資料管道為您的資料整合工作增加了額外的複雜性。符合所需目標結構描述的映射資料,涉及複雜的資料映射規則,並且需要處理資料不一致和衝突。您必須實作有效的錯誤處理、記錄日誌和通知機制來診斷問題。資料安全要求進一步增加了系統限制。
其他費用
ETL 管道一開始很昂貴,但隨著資料量的增長,成本可能也會增加。對於大量資料而言,可能無法負擔系統之間的重複資料儲存。此外,擴展 ETL 程序通常需要代價高昂的基礎設施升級、查詢效能最佳化和平行處理技術。如果需求發生變化,資料工程必須在更新過程中不斷監控和測試管道,從而增加維護成本。
分析、AI 和 ML 的延遲時間
ETL 通常要求資料工程師建立自訂程式碼,以及 DevOps 工程師部署和管理擴展工作負載所需的基礎設施。若資料來源發生變更,資料工程師必須手動修改其程式碼並重新予以部署。此程序可能需要數週的時間,進而導致執行分析、人工智慧和機器學習工作負載的延遲。此外,建置和部署 ETL 資料管道所需的時間,讓資料不適合近乎即時的使用案例,例如投放線上廣告、偵測詐騙交易或即時供應鏈分析。在這些案例中,將會失去改善客戶體驗、尋找新的商機或降低業務風險的機會。
零 ETL 具有哪些優勢?
零 ETL 為組織的資料策略提供了諸多優勢。
提高敏捷性
零 ETL 可簡化資料架構並減少資料工程工作。它允許包含新的資料來源,而無需重新處理大量資料。這種靈活性可增強敏捷性,支援資料驅動型決策和快速創新。
符合經濟效益
零 ETL 利用雲端原生且可擴展的資料整合技術,讓企業能夠根據實際用量和資料處理需求來最佳化成本。組織可降低基礎設施成本、開發工作和維護開銷。
更快取得洞察
傳統的 ETL 程序通常涉及定期批次更新,會導致資料可用性延遲。另一方面,零 ETL 提供即時或近乎即時的資料存取,確保為分析、AI/ML 和報告提供更新的資料。您可以更準確及時地獲得使用案例洞察,例如即時儀表板、優化遊戲體驗、資料品質監控和客戶行為分析。組織可以更有信心地進行資料導向型預測,改善客戶體驗,並在整個企業中推廣資料驅動型洞察。
零 ETL 有哪些不同的使用案例?
零 ETL 有三個主要使用案例。
快速擷取資料
企業需要快速擷取和分析不同類型的資料,以即時制定決策。零 ETL 提供可以快速將資料直接擷取至資料倉儲和資料湖倉儲中的靈活方法。這消除了對傳統的 ETL 管道的需求,使組織能夠輕鬆適應不斷變化的業務需求。
串流擷取
資料串流和訊息佇列平台會從多個來源串流即時資料。與資料倉儲的零 ETL 整合可讓您從多個此類串流中擷取資料,並以近乎即時的速度呈現,以供分析之用。因為這些平台還會在資料傳輸過程提供豐富的轉換和分析功能,所以無須準備串流資料。
即時複寫
傳統上,將資料從作業和交易資料庫移轉至中央資料倉儲和資料湖倉儲,始終需要複雜的 ETL 解決方案。如今,零 ETL 能夠作為資料複製工具,可以立即將作業資料庫、交易資料庫和應用程式的資料複製到資料倉儲和資料湖倉儲。複製機制使用變更資料擷取 (CDC) 技術,並且可以內建於資料倉儲和資料湖倉儲。複製對使用者不可見 – 應用程式會將資料儲存在交易式資料庫中,而分析師可順暢地從倉儲查詢資料。
AWS 如何支援您的零 ETL 工作?
AWS 正在投資零 ETL 的未來。以下是為零 ETL 提供內建支援的服務範例。
Amazon SageMaker Lakehouse 和 Amazon Redshift 支援從應用程式中提供零 ETL 整合,可自動從應用程式擷取資料,並將其載入至 Amazon SageMaker Lakehouse 和 Amazon Redshift 中。
Amazon DynamoDB 與 Amazon SageMaker Lakhouse 的零 ETL 整合可以從 Amazon DynamoDB 擷取資料,並將其載入至 Amazon SageMaker Lakehouse (這是一個在 Amazon S3 上建立的交易資料湖)。
Amazon OpenSearch Service 與 Amazon CloudWatch Logs 的零 ETL 整合,能夠以幾乎即時的方式直接查詢和視覺化日誌資料,從而無須複雜管道或預先處理,即可集中管理日誌。
Amazon OpenSearch Service 與 Amazon Security Lake 的零 ETL 整合可讓您直接搜尋和分析安全性資料,從而消除資料整合所帶來的挑戰,同時透過隨需資料加速和豐富的分析功能降低複雜性、營運開銷和成本。
Amazon Aurora 與 Amazon Redshift 的零 ETL 整合可實現近乎即時的分析和機器學習 (ML)。其使用 Amazon Redshift 對來自 Aurora 的 PB 級交易資料進行分析工作負載。這是一個全受管解決方案,可在將交易資料寫入 Aurora 資料庫叢集之後,於 Amazon Redshift 中提供使用。
Amazon RDS for MySQL 與 Amazon Redshift 的零 ETL 整合有助於在許多應用程式中獲得全面性見解,並打破組織中的資料孤島,從而更簡單地在 Amazon Redshift 中分析一個或多個 Amazon RDS for MySQL 執行個體的資料。
Amazon DynamoDB 與 Amazon OpenSearch Service 的零 ETL 整合可讓客戶在 Amazon DynamoDB 資料上使用全文和向量搜索等進階搜尋功能。
Amazon DocumentDB 與 Amazon OpenSearch Service 的零 ETL 整合使用 OpenSearch API,可讓客戶在其 Amazon DocumentDB 文件上使用進階搜尋功能 (例如模糊搜尋、跨集合搜尋和多語言搜尋等)。
Amazon OpenSearch Service 與 Amazon S3 的零 ETL 整合為客戶提供了一種全新且有效的方式,可以查詢 Amazon S3 資料湖中的操作日誌,無須在不同工具之間切換就能分析資料。
Amazon Aurora PostgreSQL 與 Amazon Redshift 的零 ETL 整合可讓您透過 Amazon Redshift 使用近乎即時分析和機器學習 (ML),進而分析來自 Aurora 的數 PB 交易資料。
Amazon DynamoDB 與 Amazon Redshift 的零 ETL 整合可讓客戶能夠在 Amazon Redshift 中對 DynamoDB 資料執行高效能分析,而不會影響 DynamoDB 上執行的生產工作負載。
立即建立免費帳戶,開始使用 AWS 上的零 ETL!