為什麼選擇 Glue?

使用 AWS Glue 需支付網路編目程式 (探索資料) 和擷取、轉換和載入 (ETL) 任務 (處理和載入資料) 的費用,以每小時費率按秒計費。對於 AWS Glue Data Catalog,您只需支付存放和存取中繼資料的月費。存放的前一百萬個物件免費,前一百萬次存取也免費。如果要以互動方式開發 ETL 程式碼而佈建一個開發端點,則您的費用是以每小時費率按秒計費。對於 AWS Glue DataBrew,互動式工作階段按工作階段計費,而 DataBrew 任務按分鐘計費。使用 AWS Glue 結構描述登錄檔無須額外費用。

注意:定價會視 AWS 區域而異。

  • ETL 任務和互動式工作階段
  • 定價範例

    ETL 任務:考慮一個執行 15 分鐘並使用 6 個 DPU 的 AWS Glue Apache Spark 任務。1 個 DPU 小時的價格是 0.44 USD。由於您的任務執行了 15 分鐘並使用了 6 個 DPU,AWS 將向您收取 6 個 DPU * 0.25 小時 * 0.44 USD,即 0.66 USD。

    AWS Glue Studio Job Notebooks 和互動式工作階段:假設您使用 AWS Glue Studio 中的一個筆記本以互動方式開發 ETL 程式碼。依預設,一個互動式工作階段具有 5 個 DPU。1 個 DPU 小時的價格是 0.44 USD。如果保持工作階段持續執行 24 分鐘,則會向您收取 5 個 DPU * 0.4 小時 * 0.44 USD = 0.88 USD 的費用。

  • Data Catalog
  • AWS Glue Data Catalog 是集中式技術中繼資料儲存庫,可用於儲存各種資料來源 (包括 Amazon S3、Amazon Redshift 和第三方資料來源) 中的所有資料資產。可以從 Amazon SageMaker Lakehouse 存取 Data Catalog,以取得資料、分析和 AI。該儲存庫提供統一的介面,可將資料組織為型錄、資料庫和資料表,以及從 Amazon Redshift、Amazon Athena 和 Amazon EMR 查詢它們。Data Catalog 中的 AWS Lake Formation 功能可讓您在 AWS 中集中進行資料管控。使用精細的資料許可和熟悉的資料庫式功能來管控資料資產。

    使用 Data Catalog 時,您需要為儲存和存取資料表中繼資料以及執行運算資料表統計資料和資料表最佳化的資料處理任務付費。

    中繼資料定價

    使用 Data Catalog,您最多可免費存放一百萬個中繼資料物件。如果存放超過一百萬個中繼資料物件,超出一百萬的部分每月每 100,000 個物件需支付 1.00 USD。Data Catalog 中的中繼資料物件是資料表、資料表版本、分區、分區索引、統計資料、資料庫或型錄。

    資料表維護和統計資料

    Data Catalog 為 Amazon S3 物件儲存中的 Apache Iceberg 資料表提供受管壓縮功能,可將多個小型物件壓縮成一個較大的物件,以利用 Amazon Redshift、Athena、Amazon EMR 和 AWS Glue ETL 任務作等 AWS 分析服務提供更理想的讀取效能。我們會根據您壓縮資料表所使用的資料處理單位 (或 DPU) 數量,以小時費率計費。單一資料處理單位 (DPU) 提供 4 個 vCPU 和 16GB 記憶體。按秒計費,並進位至最接近的秒數,每次執行計費的最短持續時間為 1 分鐘。

    Data Catalog 還支援 AWS Glue 資料表的欄層級資料表統計資料。這些統計資料與 AthenaAmazon Redshift 資料湖查詢中的成本型最佳化工具 (CBO) 整合,可改善查詢效能並實現可能的成本節省。

    最佳化

    • 最佳化 Apache Iceberg 資料表的費用為每 DPU 小時 0.44 USD,以每秒計費,最低 1 分鐘。

    統計資料:

    • 產生統計資料的費用為每 DPU 小時 0.44 USD,以每秒計費,最低為 1 分鐘。

    額外的用量和成本

    儲存

    使用 Data Catalog,您可以在 Amazon S3 和 Amazon Redshift 中建立和管理資料表,並且分別按照標準 Amazon S3 或 Amazon Redshift 費率支付資料表儲存費用。Data Catalog 中沒有額外的儲存費用。

        1.在 Amazon S3 中儲存資料時,針對儲存、請求和資料傳輸按照標準 Amazon S3 費率付費。如需詳細資訊,請參閱 Amazon S3 定價

        2.在 Amazon Redshift 中儲存資料時,按照標準 Amazon Redshift 費率支付儲存費用。如需詳細資訊,請瀏覽 Amazon Redshift 定價

    運算

    從 Amazon EMR、AWS Glue、Athena 或任何開放原始碼或第三方 Apache Iceberg 相容引擎存取 Amazon Redshift 資料表時,系統會使用服務受管的 Amazon Redshift Serverless 工作群組來運算資源。Amazon Redshift Serverless 受管工作群組可用於篩選資料表結果,而且您根據標準 Amazon Redshift Serverless 費率對所使用的運算資源付費。使用 Amazon Redshift 查詢儲存在 Amazon Redshift 中的資料表無需另外付費。請瀏覽 Amazon Redshift 定價以進一步了解。

    Lake Formation 許可

    Lake Formation 與 Data Catalog 整合,使用標籤型或名稱型存取控制和跨帳戶共用提供資料庫、資料表、欄、列和儲存格層級的許可。建立 Lake Formation 許可或將 Lake Formation 許可與整合式 AWS 服務搭配使用時無需單獨付費。

    定價範例

    AWS 免費方案上的 Data Catalog:假設您在給定的月份內將一百萬個中繼資料物件儲存在 Data Catalog 中,並且提出 100 萬個中繼資料請求來存取這些資料表。因為用量未超出 AWS Glue Data Catalog 免費方案的範圍,所以需要支付的費用是 0 USD。每月所存放的前一百萬個中繼資料物件和前一百萬次中繼資料請求是免費的。

    Data Catalog 標準方案:現在假設您的中繼資料儲存用量保持不變 (每月儲存 100 萬個中繼資料物件),但請求增加兩倍至每月 200 萬個中繼資料請求。假設您另外使用網路爬取程式尋找新資料表,其執行時間為 30 分鐘,使用 2 個 DPU。

    您的儲存費用仍是 0 USD,因為前一百萬個中繼資料物件的儲存免費。前一百萬次請求也是免費的。您必須支付超出 Data Catalog 免費方案的一百萬次請求的費用,金額為 1 USD。

    將 Data Catalog 與其他服務搭配使用:

    例如,在 SageMaker Lakehouse 中使用 Athena SQL 查詢 Amazon Redshift 中的資料表時,您需要為以下方面支付費用:根據標準 Amazon Redshift 定價在 Amazon Redshift 中儲存資料表;根據標準 Data Catalog 請求定價對 Data Catalog 提出中繼資料請求;用於在 Data Catalog 中儲存型錄、資料庫和資料表中繼資料的中繼資料儲存;用於篩選 Amazon Redshift 資料表結果的 Amazon Redshift Serverless RPU 小時數 (按秒收費,最低 60 秒);以及 Athena 查詢掃描的位元組數,進位到最接近的 MB (使用標準 Athena 定價,每個查詢資料最低 10 MB)。

    在使用 Amazon EMR Serverless 查詢 Amazon Redshift 中資料表的另一種情況下,您需要為以下方面支付費用:根據標準 Amazon Redshift 定價在 Amazon Redshift 中儲存資料表;根據標準 Data Catalog 請求定價對 Data Catalog 提出的中繼資料請求;用於在 Data Catalog 中儲存型錄、資料庫和資料表中繼資料的中繼資料儲存;用於篩選 Amazon Redshift 資料表結果的 Amazon Redshift Serverless RPU 小時數 (按秒收費,最低 60 秒);以及工作者在 Amazon EMR 應用程式中取用的 vCPU、記憶體和儲存資源。

    在使用 Amazon Redshift Serverless 查詢 Amazon S3 物件存儲中的 Apache Iceberg 資料表的另一種情況下,您需要為以下方面支付費用:根據標準 Amazon S3 定價將 Apache Iceberg 資料表儲存在 Amazon S3 中;根據標準 Data Catalog 請求定價對 Data Catalog 提出的中繼資料請求;用於在 Data Catalog 中儲存型錄、資料庫和資料表中繼資料的中繼資料儲存;以及根據標準 Amazon Redshift 定價的運算小時數 (RPU 小時數)。

    AWS Glue 網路爬取程式是以每 DPU 小時 0.44 USD 的費率計費,因此,我們將依照每 DPU 小時 0.44 USD 的費率,向您收取 2 個 DPU * 0.5 小時 的費用 (等於 0.44 USD)。

    如果您針對 AWS Glue 資料表產生統計資料,而且統計資料執行需要 10 分鐘並取用 1 個 DPU,則將按 1 個 DPU * 0.1666 小時 * 0.44 USD/DPU 小時計費,相當於 0.07 USD。

    如果您壓縮儲存在 Amazon S3 物件儲存中的 Apache Iceberg 資料表,並且壓縮執行 30 分鐘並取用 2 個 DPU,則將按 2 個 DPU * 0.5 小時 * 0.44 USD/DPU 小時計費,相當於 0.44 USD。

  • 網路爬取程式
  • DataBrew 互動式工作階段
  • 定價範例

    AWS Glue DataBrew:每 30 分鐘互動式工作階段的價格為 1.00 USD。如果您在上午 9 點開始工作階段,立即離開主控台,然後在上午 9 點 20 分到 9 點 30 分返回,這將使用 1 個工作階段,總計 1.00 USD。

    如果您在上午 9 點開始工作階段並在上午 9 點 50 分之前與 DataBrew 主控台互動,退出 DataBrew 專案空間,然後在上午 10 點 15 分返回進行最後的互動,這將使用 3 個工作階段,每個工作階段 1.00 USD,總計 3.00 USD。

  • DataBrew 任務
  • 定價範例

    AWS Glue DataBrew:如果一項 DataBrew 任務執行 10 分鐘並使用 5 個 DataBrew 節點,則價格為 0.40 USD。任務執行時間為 1/6 小時,使用 5 個節點,因此,我們將依照每節點小時 0.48 USD 的費率,向您收取 5 個節點 * 1/6 小時 * 每節點小時 0.48 USD,總計為 0.40 USD。

  • 資料品質
  • AWS Glue Data Quality 可協助您實現高資料品質,藉此來建立您對資料的信心。它會自動測量、監控和管理資料湖和管道中的資料品質,從而更輕鬆地識別遺失、陳舊或不良資料。

    您可以從 Data Catalog 和 AWS Glue Studio,以及透過 AWS Glue API 存取資料品質功能。

    管理 Data Catalog 中編目的資料集資料品質的定價:

    您可以從 Data Catalog 中選擇資料集並產生建議。此動作會建立一個推薦任務,您將為其佈建資料處理單元 (DPU)。取得建議後,您可以修改或新增新規則並對其排程。這些任務稱為 Data Quality 任務,您將為其佈建 DPU。您需要至少 2 個 DPU,最低帳單持續時間為 1 分鐘。

    管理 AWS Glue ETL 處理的資料集資料品質的定價:

    您還可以將資料品質檢查新增至 ETL 任務中,以防止不良資料進入資料湖。這些資料品質規則將駐留在 ETL 任務中,從而導致執行時期增加或 DPU 取用增加。或者,您也可以針對非 SLA 敏感性工作負載使用彈性執行。

    偵測 AWS Glue ETL 中異常狀況的定價:

    異常偵測︰
    除了 ETL 任務 DPU 以外,偵測異常所需時間內,每項統計都會產生 1 個 DPU。平均需要 10-20 秒會偵測 1 項統計的異常。假設您設定兩項規則 (規則 1:資料磁碟區必須大於 1000 筆記錄,規則 2:資料欄計數必須大於 10) 和一個分析器 (分析器 1:監控資料欄的完整性)。此組態會產生三項統計資料:資料列計數、資料欄計數和資料欄的完整性百分比。偵測異常所需時間內,您將需要支付 3 個額外 DPU 的費用,最低計費時間為 1 秒。請參閱範例 – 4 獲取更多詳細資訊。

    重新訓練:
    您可能想要排除異常任務執行或統計資料,以便異常偵測演算法準確預測後續異常狀況。為此,AWS Glue 可讓您排除或包含統計資料。在重新訓練所需時間內,您將需要 1 個 DPU 來重新訓練模型。 每項統計平均需要 10 秒至 20 分鐘進行重新訓練。如需詳細資訊,請參閱範例 5。

    統計資料儲存:
    存放收集的統計資料不收取任何費用。每個帳戶的統計資料限制為 100K,並將存放 2 年。

    其他費用︰
    AWS Glue 可直接處理來自 Amazon Simple Storage Service (Amazon S3) 的資料。使用 AWS Glue 讀取資料不需另付儲存費用。您只需針對儲存、請求和資料傳輸支付標準 Amazon S3 費率。根據您的組態,暫時檔案、資料品質結果和隨機顯示檔案會存放在您選擇的 S3 儲存貯體中,並依標準 S3 費率計費。


    如果您使用 Data Catalog,則會依標準 Data Catalog 費率計費。如需詳細資訊,請選擇 Data Catalog 儲存和請求標籤。

    定價範例

    範例 1 – 取得有關 Data Catalog 中資料表的建議

    例如,考慮一項具有 5 個 DPU 且在 10 分鐘內完成的推薦任務。須支付 5 個 DPU * 1/6 小時 * 0.44 USD,即 0.37 USD。

    範例 2 – 評估 Data Catalog 中資料表的資料品質

    檢閱建議後,您可以根據需要對其進行編輯,然後佈建 DPU 來排程資料品質任務。例如,考慮一項具有 5 個 DPU 且在 20 分鐘內完成的資料品質評估。
    須支付 5 個 DPU * 1/3 小時 * 0.44 USD,即 0.73 USD。

    範例 3 – 評估 AWS Glue ETL 任務中的資料品質

    您還可以將這些資料品質檢查新增至 AWS Glue ETL 任務中,以防止不良資料進入資料湖。您可以在 AWS Glue Studio 上新增 Data Quality 轉換,或在 AWS Glue Studio 筆記本編寫的程式碼中使用 AWS Glue API 來實現這一點。考慮一項 AWS Glue 任務,在管道內設定資料品質規則之處執行該任務,並使用 6 個 DPU 執行 20 分鐘(1/3 小時)。須支付 6 DPU * 1/3 小時 * 0.44 USD,即 0.88 USD。或者,您可以使用 Flex,須為此支付 6 DPU * 1/3 小時 * 0.29 USD,即 0.58 USD。

    範例 4 – 使用異常偵測來評估 AWS Glue ETL 任務中的資料品質

    假設一項 AWS Glue 任務,在載入 Amazon Redshift 之前從 Amazon S3 讀取資料、轉換資料並執行資料品質檢查。假設該管道有 10 項規則和 10 個分析器,從而收集 20 項統計資料。另外,假設擷取、轉換程序、載入、統計資料收集、資料品質評估將需要 20 分鐘。若未啟用異常偵測,客戶將支付 6 個 DPU * 1/3 小時 (20 分鐘) * 0.44 USD,相當於 0.88 USD (A)。開啟異常偵測後,我們將為每項統計資料新增 1 個 DPU,並且平均需要 15 秒來偵測異常狀況。在此範例中,客戶將產生 20 項統計資料 * 1 個 DPU * 15/3600 (0.0041 小時/統計) * 0.44 USD (每個 DPU/小時的成本) = 0.037 USD (B) 的費用。其任務總成本將為 0.88 USD (A) + 0.037 USD (B) = 0.917 USD。

    範例 5 – 重新訓練

    假設您的 Glue 任務偵測到異常狀況。您決定從模型中排除異常,以便異常偵測演算法準確預測未來的異常狀況。為此,您可以排除此異常統計資料來重新訓練模型。在重新訓練模型所需時間內,每項統計資料將產生 1 個 DPU。平均可能需要 15 秒。在此範例中,假設您排除 1 個資料點,您將產生 1 項統計資料 * 1 個 DPU * 15/3600 (0.0041 小時/統計資料) * 0.44 USD = 0.00185 USD。

  • 零 ETL
  • 零 ETL 是 AWS 的一組全受管整合,可最大限度地減少為分析和 AI 計劃中常見的擷取和複寫使用案例建置擷取、轉換和載入 (ETL) 資料管道的需求。AWS 不會對零 ETL 整合收取額外費用。您需要為用於建立和處理零 ETL 整合程序中所建立變更資料的來源和目標資源付費。

    Amazon SageMaker Lakehouse 和 Amazon Redshift 支援來自應用程式的零 ETL 整合

    Amazon SageMaker Lakehouse 和 Amazon Redshift 支援從應用程式中提供零 ETL 整合,可自動從應用程式擷取資料,並將其載入至 Amazon SageMaker Lakehouse 和 Amazon Redshift 中。如需支援的零 ETL 來源的完整清單,請參閱 AWS Glue 零 ETL 文件

    AWS Glue 會針對擷取零-ETL 整合支援的應用程式來源資料收取費用。您需要為用於從應用程式擷取插入、更新和刪除項目的 AWS Glue 資源支付費用。您需要根據從應用程式接收的資料量付費,但無需為啟動擷取資料請求付費。AWS Glue 提出的每個擷取請求的容量最低為 1 MB。

    將擷取的資料寫入 Amazon Redshift 時,您會根據 Amazon Redshift 定價費率為處理零 ETL 整合過程中所建立變更資料使用的資源付費。

    將擷取的資料寫入 SageMaker Lakehouse 時,您會為處理零 ETL 整合過程中所建立變更資料使用的資源付費。使用的運算資源是根據為 SageMaker Lakehouse 所選擇的儲存類型而定。

    • 對於 Amazon Redshift 受管儲存,您需根據 Amazon Redshift Serverless 運算付費。如需進一步的資訊,請參閱 Amazon Redshift 定價
    • 對於 Amazon Simple Storage Service (S3),您需要根據每個資料處理單位小時 (DPU 小時) 的 AWS Glue 運算支付費用,以每秒計費,最低為 1 分鐘。

     

    Amazon DynamoDB 與 Amazon SageMaker Lakehouse 進行了零 ETL 整合

    Amazon DynamoDB 與 Amazon SageMaker Lakehouse 的零 ETL 整合可自動擷取和載入資料,從而實現對來自資料湖倉中 DynamoDB 資料表的資料進行分析和 AI。

    DynamoDB 會向您收取從 DynamoDB 連續備份 (時間點復原) 匯出資料的費用。如需進一步資訊,請參閱 Amazon DynamoDB 定價

    將擷取的資料寫入 Amazon SageMaker Lakehouse 時,您會根據為 Amazon SageMaker Lakehouse 選擇的儲存類型,支付用於處理零 ETL 整合過程中所建立變更資料的資源費用。

    • 對於 Amazon Redshift 受管儲存,您需根據 Amazon Redshift Serverless 運算付費。如需進一步的資訊,請參閱 Amazon Redshift 定價
    • 對於 Amazon Simple Storage Service (S3),您需要根據每個資料處理單位小時 (DPU 小時) 的 AWS Glue 運算支付費用,以每秒計費,最低為 1 分鐘。

注意:定價會視區域而異。

請檢視全球區域表以進一步了解 AWS Glue 可用性。