Amazon SageMaker Feature Store

Um serviço totalmente gerenciado para recursos de machine learning

O que é o Amazon SageMaker Feature Store?

O Amazon SageMaker Feature Store é um repositório totalmente gerenciado e desenvolvido para armazenar, compartilhar e gerenciar recursos para modelos de machine learning (ML). Os recursos são insumos para os modelos de ML utilizados durante o treinamento e inferência. Por exemplo, em uma aplicação que recomenda uma playlist musical, os recursos poderiam incluir classificações de músicas, duração da audição e demografia do ouvinte. Os recursos são usados repetidamente por várias equipes e a qualidade deles é essencial para garantir um modelo altamente preciso. Além disso, quando os recursos usados para treinar modelos offline em lote são disponibilizados para inferência em tempo real, é difícil manter os dois armazenamentos de recursos sincronizados. O SageMaker Feature Store fornece um armazenamento seguro e unificado para processar, padronizar e usar recursos em grande escala em todo o ciclo de vida do ML.

Como funciona?

Como funciona: Amazon SageMaker Feature Store

Benefícios do arquivo de atributos do SageMaker

Armazene, compartilhe e gerencie recursos de modelos de ML para treinamento e inferência a fim de promover a reutilização de recursos em aplicações de ML
Faça a ingestão de recursos de qualquer fonte de dados, incluindo streaming e lote, como logs de aplicações, logs de serviços, clickstreams, sensores e dados tabulares da AWS ou de fontes de dados de terceiros
Transforme dados em recursos de ML e crie pipelines de recursos que ofereçam suporte às práticas de MLOps e acelerar o tempo para a implantação do modelo

Gerenciamento de recursos

Processamento e ingestão de recursos

Você pode ingerir dados no SageMaker Feature Store de uma variedade de fontes, como logs de aplicações e serviços, clickstream, sensores e dados tabulares do fontes como o Amazon S3, Amazon Redshift, AWS Lake Formation, Snowflake e Databricks Delta Lake. Usando o processamento de recursos, você pode especificar sua fonte de dados em lote e a função de transformação de recursos (por exemplo, contagem de visualizações de produtos ou agregações de janela de tempo) e o SageMaker Feature Store transforma os dados no momento da ingestão em recursos de ML. Com o Amazon SageMaker Data Wrangler, é possível publicar recursos diretamente no SageMaker Feature Store. Com o conector do Apache Spark, é possível ingerir em lote um alto volume de dados com uma única linha de código.

Captura de tela de

Loja de recursos, catálogo, pesquisa e reutilização

O SageMaker Feature Store marca e indexa grupos de atributos para que sejam facilmente detectáveis por meio da interface visual do Amazon SageMaker Studio. A navegação no catálogo de recursos permite às equipes descobrir recursos existentes que podem reutilizar com confiança e evitar a duplicação de pipelines. O SageMaker Feature Store usa o Catálogo de dados do AWS Glue por padrão, mas permite usar um catálogo diferente se desejar. Também é possível consultar recursos usando o conhecido SQL com o Amazon Athena ou outra ferramenta de consulta de sua escolha.

A imagem mostra o catálogo do grupo de atributos

Consistência dos recursos

O SageMaker Feature Store é compatível com armazenamento offline para treinamento e armazenamento online para inferência em tempo real. Treinamento e inferência são casos de uso muito diferentes e os requisitos de armazenamento são diferentes para cada um. Durante o treinamento, muitas vezes os modelos usam o conjunto de dados completo e podem levar horas para concluir, enquanto a inferência precisa acontecer em milissegundos e geralmente usa um subconjunto dos dados. Quando usados juntos, o SageMaker Feature Store garante que os conjuntos de dados offline e online permaneçam em sincronia, o que é essencial porque, se eles divergirem, poderão ter um impacto negativo na precisão do modelo.

A imagem mostra a criação do grupo de atributos

Viagem no tempo

Os cientistas de dados podem precisar treinar modelos com o conjunto exato de valores de recursos de um tempo específico no passado sem o risco de incluir dados além desse tempo (também denominado vazamento de dados), tais como dados médicos do paciente antes de um diagnóstico. O SageMaker Feature Store Offline API é compatível com consultas de ponto no tempo para recuperar o estado de cada recurso no momento histórico de interesse.  

A imagem mostra o fluxo de consultas da API Feature Store Offline para recuperar o estado de cada recurso no momento histórico de interesse

Segurança e governança

Rastreamento de linhagem

Para permitir a reutilização dos recursos com confiança, os cientistas de dados precisam saber como os recursos foram construídos e quais modelos e pontos finais estão usando-os. O SageMaker Feature Store permite que cientistas de dados rastreiem seus recursos no Amazon SageMaker Studio com o SageMaker Lineage. O SageMaker Lineage permite que você acompanhe as execuções programadas do pipeline, visualize a linhagem upstream para rastrear os recursos até as fontes de dados e visualize o código de processamento de recursos, tudo em um único ambiente.

A imagem mostra a linhagem do grupo de atributos no SageMaker Studio

Operações de ML

As lojas de recursos são um componente importante no ciclo de vida das MLOps. Elas gerenciam conjuntos de dados e apresentam pipelines, acelerando as tarefas de ciência de dados e eliminando o trabalho duplicado de criar os mesmos recursos várias vezes. O SageMaker Feature Store pode ser usado como um serviço autônomo ou em conjunto com outros serviços do SageMaker de forma integrada durante todo o ciclo de vida das MLOps.

Segurança e conformidade

Para oferecer suporte às necessidades de segurança e conformidade, pode ser necessário um controle granular sobre como os recursos de ML compartilhados são acessados. Essas necessidades muitas vezes vão além do controle de acesso em nível de tabela e coluna para o controle de acesso individual em nível de linha. Por exemplo, para deixar os representantes de contas verem filas de uma tabela de vendas referentes apenas às contas deles e mascarar o prefixo de dados confidenciais, como números de cartão de crédito. O SageMaker Feature Store, junto com o AWS Lake Formation, pode ser usado para implementar controles de acesso detalhados para proteger dados da loja de recursos e conceder acesso baseado na função.

A imagem mostra como o SageMaker Feature Store e o AWS Lake Formation podem ser usados para implementar controles de acesso refinados

Novidades

  • Data (do mais recente ao mais antigo)
Nenhum resultado encontrado
1