Amazon SageMaker Feature Store

機械学習の特徴量のフルマネージドサービス

Amazon SageMaker Feature Store とは何ですか?

Amazon SageMaker Feature Store は、機械学習 (ML) モデルの特微量を保存、共有、管理するためのフルマネージド型の専用リポジトリです。特徴量は、トレーニングと推論で使用される機械学習モデルの入力です。例えば、音楽プレイリストを推奨するアプリケーションでは、特徴量には、曲の評価、曲を聴いている時間、リスナーの属性が含まれる場合があります。特徴量は複数のチームによって繰り返し使用されるため、精度の高いモデルを実現するためには特徴量の品質が重要です。また、オフラインでバッチ的にモデルをトレーニングするために使用した特微量をリアルタイム推論に利用する場合、2 つの特徴量ストアを同期させることは困難です。SageMaker Feature Store は、機械学習ライフサイクル全体でにわたって特徴量を大規模に処理、標準化、使用するための安全で統一されたストアを提供します。

仕組み

SageMaker 特徴量ストアのメリット

機能の再利用を促進する

トレーニングおよび推論用の機械学習モデル特徴量を保存、共有、管理し、機械学習アプリケーション間での特徴量の再利用を促進する

さまざまなデータソースのサポート

アプリケーションログ、サービスログ、クリックストリーム、センサー、AWS やサードパーティーのデータソースからの表形式データなど、ストリーミングやバッチを含むあらゆるデータソースから特徴量を取り込む

MLOps プラクティスの改善

データを機械学習の特微量に変換し、MLOps の実践をサポートする特微量パイプラインを構築し、モデルデプロイまでの時間を短縮します

特徴量の管理

特徴量の処理と取り込み

アプリケーションやサービスのログ、クリックストリーム、センサーなどのさまざまなソースからのデータ、および Amazon S3、Amazon Redshift、AWS Lake Formation、Snowflake、Databricks Delta Lake からの表形式データを SageMaker Feature Store に取り込むことができます。特徴量の処理を使用すると、バッチデータソースと特徴量変換関数 (製品ビュー数やタイムウィンドウ集計など) を指定でき、SageMaker Feature Store は取り込み時のデータを機械学習の特微量に変換します。Amazon SageMaker Data Wrangler を使用すると、SageMaker Feature Store に直接特徴量を公開できます。Apache Spark コネクタを使用すると、1 行のコードで大量のデータを一括取り込みできます。

特徴量の保存、カタログ、検索、再利用

SageMaker Feature Store は特徴量グループをタグ付けし、それらのインデックスを作成して、Amazon SageMaker Studio のビジュアルインターフェイスを通じて簡単に見つけることができるようにします。特徴量カタログを閲覧することで、チームは自信を持って再利用できる既存の特徴量を発見し、パイプラインの重複を回避することができます。SageMaker Feature Store は、デフォルトで AWS Glue Data Catalog を使用しますが、必要に応じて別のカタログを使用することも可能です。また、Amazon Athena や他の任意のクエリツールで使い慣れた SQL を使用して特徴量をクエリすることも可能です。

特徴量の一貫性

SageMaker Feature Store は、トレーニング用のオフラインストレージとリアルタイム推論用のオンラインストレージをサポートしています。トレーニングと推論は非常に異なるユースケースであるため、ストレージ要件はそれぞれ異なります。トレーニングにおいて、モデルは完全なデータセットを使用し、コンプリートするのに何時間もかかる一方で、推論はミリ秒単位で行う必要があり、通常はデータのサブセットを使用します。SageMaker Feature Store を併用することで、オフラインとオンラインのデータセットが同期された状態に保たれます。両者が乖離するとモデルの精度に悪影響を及ぼす可能性があるため、これは非常に重要なことです。

タイムトラベル

データサイエンティストは、診断前の患者の医療データなど、過去の特定時間を超えるデータ (特徴量リーケージとも呼ばれる) を含むリスクなしに、過去の特定時間の特徴量値の正確なセットでモデルをトレーニングする必要がある場合があります。SageMaker Feature Store Offline API は、ポイントインタイムクエリをサポートしており、対象となる過去の時間における各特微量の状態を取得できます。

この図は、対象となった過去の時間における各特徴量の状態を取得するための Feature Store Offline API クエリのフローを示しています

セキュリティとガバナンス

リネージトラッキング

特微量を安心して再利用するためには、データサイエンティストは特微量の構築方法と、どのモデルやエンドポイントで特微量が使用されているかを知る必要があります。SageMaker Feature Store を使用すると、データサイエンティストは SageMaker Lineage を使用して Amazon SageMaker Studio 内の特微量を追跡できます。SageMaker Lineageを使用すると、スケジュールされたパイプライン実行を追跡し、アップストリームリネージを視覚化して、特徴量をデータソースまで追跡したり、特徴量の処理コードを表示したりでき、これらはすべて 1 つの環境で行えます。

この画像は、SageMaker Studio の特徴量グループの系統を示しています

機械学習の運用

特徴量ストアは、MLOps のライフサイクルにおける重要なコンポーネントです。データセットと特徴量パイプラインを管理し、データサイエンス作業を高速化し、同じ特微量を何度も作成するような重複作業を排除します。SageMaker Feature Store は、スタンドアロンサービスとして使用することも、他の SageMaker サービスと共に MLOps のライフサイクル全体で統合的に使用することも可能です。

セキュリティとコンプライアンス

セキュリティとコンプライアンスのニーズをサポートするために、共有された機械学習特徴量にアクセスする方法を細かく制御する必要がある場合があります。このようなニーズは、テーブルや列レベルのアクセス制御だけでなく、個々の行レベルのアクセス制御にまで及ぶことがよくあります。例えば、アカウント担当者に自分のアカウントだけの売上テーブルの行を表示させ、クレジットカード番号のような機密データのプレフィックスをマスクしたい場合があります。SageMaker Feature Store と AWS Lake Formation を併用することで、特微量ストアのデータを保護し、ロールに基づいてアクセスを付与するためにきめ細かいアクセスコントロールを実装できます。

画像は、SageMaker Feature Store と AWS Lake Formation を使用してきめ細かなアクセスコントロールを実装する方法を示しています

SageMaker 特徴量ストアのリソース

Blog

次のステップ

Workshop

SageMaker 特徴量ストアの使用を開始する

Guide

ステップバイステップガイドを詳しく見る

詳細はこちら

Amazon SageMaker Feature Store

機械学習の特徴量のフルマネージドサービス