O que é o Amazon SageMaker Feature Store?
Como funciona?
Benefícios do arquivo de atributos do SageMaker
Gerenciamento de recursos
Processamento e ingestão de recursos
Você pode ingerir dados no SageMaker Feature Store de uma variedade de fontes, como logs de aplicações e serviços, clickstream, sensores e dados tabulares do fontes como o Amazon S3, Amazon Redshift, AWS Lake Formation, Snowflake e Databricks Delta Lake. Usando o processamento de recursos, você pode especificar sua fonte de dados em lote e a função de transformação de recursos (por exemplo, contagem de visualizações de produtos ou agregações de janela de tempo) e o SageMaker Feature Store transforma os dados no momento da ingestão em recursos de ML. Com o Amazon SageMaker Data Wrangler, é possível publicar recursos diretamente no SageMaker Feature Store. Com o conector do Apache Spark, é possível ingerir em lote um alto volume de dados com uma única linha de código.
Loja de recursos, catálogo, pesquisa e reutilização
O SageMaker Feature Store marca e indexa grupos de atributos para que sejam facilmente detectáveis por meio da interface visual do Amazon SageMaker Studio. A navegação no catálogo de recursos permite às equipes descobrir recursos existentes que podem reutilizar com confiança e evitar a duplicação de pipelines. O SageMaker Feature Store usa o Catálogo de dados do AWS Glue por padrão, mas permite usar um catálogo diferente se desejar. Também é possível consultar recursos usando o conhecido SQL com o Amazon Athena ou outra ferramenta de consulta de sua escolha.
Consistência dos recursos
O SageMaker Feature Store é compatível com armazenamento offline para treinamento e armazenamento online para inferência em tempo real. Treinamento e inferência são casos de uso muito diferentes e os requisitos de armazenamento são diferentes para cada um. Durante o treinamento, muitas vezes os modelos usam o conjunto de dados completo e podem levar horas para concluir, enquanto a inferência precisa acontecer em milissegundos e geralmente usa um subconjunto dos dados. Quando usados juntos, o SageMaker Feature Store garante que os conjuntos de dados offline e online permaneçam em sincronia, o que é essencial porque, se eles divergirem, poderão ter um impacto negativo na precisão do modelo.
Viagem no tempo
Os cientistas de dados podem precisar treinar modelos com o conjunto exato de valores de recursos de um tempo específico no passado sem o risco de incluir dados além desse tempo (também denominado vazamento de dados), tais como dados médicos do paciente antes de um diagnóstico. O SageMaker Feature Store Offline API é compatível com consultas de ponto no tempo para recuperar o estado de cada recurso no momento histórico de interesse.
Segurança e governança
Rastreamento de linhagem
Para permitir a reutilização dos recursos com confiança, os cientistas de dados precisam saber como os recursos foram construídos e quais modelos e pontos finais estão usando-os. O SageMaker Feature Store permite que cientistas de dados rastreiem seus recursos no Amazon SageMaker Studio com o SageMaker Lineage. O SageMaker Lineage permite que você acompanhe as execuções programadas do pipeline, visualize a linhagem upstream para rastrear os recursos até as fontes de dados e visualize o código de processamento de recursos, tudo em um único ambiente.
Operações de ML
As lojas de recursos são um componente importante no ciclo de vida das MLOps. Elas gerenciam conjuntos de dados e apresentam pipelines, acelerando as tarefas de ciência de dados e eliminando o trabalho duplicado de criar os mesmos recursos várias vezes. O SageMaker Feature Store pode ser usado como um serviço autônomo ou em conjunto com outros serviços do SageMaker de forma integrada durante todo o ciclo de vida das MLOps.
Segurança e conformidade
Para oferecer suporte às necessidades de segurança e conformidade, pode ser necessário um controle granular sobre como os recursos de ML compartilhados são acessados. Essas necessidades muitas vezes vão além do controle de acesso em nível de tabela e coluna para o controle de acesso individual em nível de linha. Por exemplo, para deixar os representantes de contas verem filas de uma tabela de vendas referentes apenas às contas deles e mascarar o prefixo de dados confidenciais, como números de cartão de crédito. O SageMaker Feature Store, junto com o AWS Lake Formation, pode ser usado para implementar controles de acesso detalhados para proteger dados da loja de recursos e conceder acesso baseado na função.
Recursos para o SageMaker Feature Store
Novidades
- Data (do mais recente ao mais antigo)