Almacén de características de Amazon SageMaker

Un servicio completamente administrado para las características de machine learning

¿Por qué debería elegir el Almacén de características de Amazon SageMaker?

El almacén de características de Amazon SageMaker es un repositorio completamente administrado y creado específicamente para almacenar, actualizar, recuperar y compartir características de machine learning (ML). Las características son entradas para los modelos de ML que se usan durante el entrenamiento y la inferencia. Por ejemplo, en una aplicación que recomienda una lista de reproducción de música, las características pueden incluir clasificaciones de canciones, duración de escucha y datos demográficos de los oyentes. Muchos equipos utilizan las características de forma continua y la calidad de dichas características resulta fundamental para garantizar un modelo de alta precisión. Además, cuando las características utilizadas para entrenar modelos sin conexión en lotes están disponibles para la inferencia en tiempo real, resulta difícil mantener sincronizadas los dos almacenes de características. El almacén de características de SageMaker proporciona un almacén seguro y unificado para procesar, estandarizar y utilizar las características a escala a lo largo del ciclo de vida del aprendizaje automático.

Funcionamiento

Cómo funciona el almacén de características de Amazon SageMaker

Beneficios del almacén de características de SageMaker

Transforme los datos en características de aprendizaje automático y cree canalizaciones de características que respalden las prácticas de MLOps y aceleren el tiempo necesario para modelar el despliegue
Ingiera características de cualquier origen de datos, incluidos streaming y lotes, como registros de aplicaciones, registros de servicios, secuencias de clics, sensores y datos tabulares de AWS o orígenes de datos de terceros
Almacene, comparta y administre características de modelos de ML para el entrenamiento y la inferencia de forma que se promueva la reutilización de funciones en aplicaciones de ML

Administración de características

Procesamiento y recepción de características

Puede recibir datos en el almacén de características de SageMaker de una variedad de orígenes, tales como registros de aplicaciones y servicios, secuencias de clics, sensores y datos tabulares de Amazon S3, Amazon Redshift, AWS Lake Formation, Snowflake y Databricks Delta Lake. Mediante el procesamiento de características, puede especificar el origen de datos por lotes y la función de transformación de características (por ejemplo, el recuento de las vistas del producto o los agregados de ventanas temporales), y el almacén de características de SageMaker transforma los datos, en el momento de su recepción, en funciones de aprendizaje automático. Con Amazon SageMaker Data Wrangler, puede publicar características directamente en el almacén de características de SageMaker. Con el conector de Apache Spark, puede recibir, por lotes, un gran volumen de datos con una sola línea de código.

Captura de pantalla de

Almacenamiento, catálogo, búsqueda y reutilización de características

El almacén de características de SageMaker etiqueta e indexa los grupos de características para que puedan localizarse de manera sencilla a través de una interfaz visual en Amazon SageMaker Studio. Explorar el catálogo de características permite a los equipos descubrir características existentes que pueden reutilizar de manera fiable y evitar la duplicación de canalizaciones. El almacén de características de SageMaker utiliza el catálogo de datos de AWS Glue de forma predeterminada, pero le permite utilizar uno diferente si lo desea. También puede consultar características utilizando SQL familiar con Amazon Athena u otra herramienta de consulta que elija.

La imagen muestra el catálogo de grupos de características

Coherencia de las características

El almacén de características de SageMaker admite almacenamiento sin conexión para el entrenamiento y el almacenamiento en línea para la inferencia en tiempo real. Estos son casos de uso muy distintos y los requisitos de almacenamiento difieren para cada uno de ellos. Con frecuencia, durante el entrenamiento los modelos usan el conjunto de datos completo y pueden tardar horas en completarse, mientras que la inferencia debe producirse en cuestión de milisegundos y, por lo general, necesita un subconjunto de los datos. Cuando se usan juntos, el almacén de características de SageMaker garantiza que los conjuntos de datos en línea y sin conexión permanezcan sincronizados, lo cual es fundamental porque si divergen, puede afectar negativamente la precisión del modelo.

La imagen muestra la creación de un grupo de características

Viaje en el tiempo

Los científicos de datos pueden necesitar entrenar modelos con el conjunto exacto de valores de características de un momento específico en el pasado sin tener que correr el riesgo de incluir datos anteriores a ese momento (llamados también filtración de características), como los datos médicos del paciente antes del diagnóstico. La API fuera de línea del almacén de características de SageMaker admite consultas de un momento dado para recuperar el estado de cada característica en el momento histórico del interés.  

La imagen muestra el flujo de las consultas de la API fuera de línea del almacén de características para recuperar el estado de cada característica en el momento histórico del interés.

Seguridad y control

Seguimiento de linaje

Para habilitar la reutilización de características de forma fiable, los científicos de datos necesitan saber cómo se crearon las características y qué modelos y puntos de conexión las están utilizando. El almacén de características de SageMaker permite a los científicos de datos realizar un seguimiento de sus características en Amazon SageMaker Studio con SageMaker Lineage. SageMaker Lineage permite realizar un seguimiento de las ejecuciones de canalizaciones programadas, visualizar el linaje ascendente para rastrear las características hasta sus orígenes de datos y ver el código de procesamiento de las características, todo en un solo entorno.

La imagen muestra el linaje del grupo de características en SageMaker Studio

Operaciones de ML

Los almacenes de características son un componente clave del ciclo de vida de MLOps. Administran las canalizaciones de características y conjuntos de datos, lo que acelera las tareas de ciencia de datos y elimina el doble trabajo que supondría crear las mismas características varias veces. El almacén de características de SageMaker se puede utilizar como un servicio independiente o bien junto con otros servicios de SageMaker de manera integrada en todo el ciclo de vida de MLOps.

Seguridad y conformidad

Para respaldar las necesidades de seguridad y cumplimiento, es posible que necesite un control granular sobre cómo se accede a las características de ML compartidas. Con frecuencia, estas necesidades, más allá del control de acceso a nivel de tabla y columna, van hasta el control de acceso a nivel de fila individual. Por ejemplo, es posible que quiera que los representantes de cuentas vean filas de una tabla de ventas solo para sus cuentas, de forma que se enmascare el prefijo de datos confidenciales como números de tarjetas de crédito. El almacén de características de SageMaker junto con AWS Lake Formation se puede utilizar para implementar controles de acceso específicos para así proteger los datos del almacén de características y conceder acceso según el rol.

La imagen muestra cómo el almacén de características de SageMaker y AWS Lake Formation se pueden utilizar para implementar controles de acceso detallados.

Novedades

  • Fecha (de más reciente a más antigua)
No se encontraron resultados
1