¿Por qué debería elegir el Almacén de características de Amazon SageMaker?
El almacén de características de Amazon SageMaker es un repositorio completamente administrado y creado específicamente para almacenar, actualizar, recuperar y compartir características de machine learning (ML). Las características son entradas para los modelos de ML que se usan durante el entrenamiento y la inferencia. Por ejemplo, en una aplicación que recomienda una lista de reproducción de música, las características pueden incluir clasificaciones de canciones, duración de escucha y datos demográficos de los oyentes. Muchos equipos utilizan las características de forma continua y la calidad de dichas características resulta fundamental para garantizar un modelo de alta precisión. Además, cuando las características utilizadas para entrenar modelos sin conexión en lotes están disponibles para la inferencia en tiempo real, resulta difícil mantener sincronizadas los dos almacenes de características. El almacén de características de SageMaker proporciona un almacén seguro y unificado para procesar, estandarizar y utilizar las características a escala a lo largo del ciclo de vida del aprendizaje automático.
Funcionamiento
Beneficios del almacén de características de SageMaker
Administración de características
Procesamiento y recepción de características
Puede recibir datos en el almacén de características de SageMaker de una variedad de orígenes, tales como registros de aplicaciones y servicios, secuencias de clics, sensores y datos tabulares de Amazon S3, Amazon Redshift, AWS Lake Formation, Snowflake y Databricks Delta Lake. Mediante el procesamiento de características, puede especificar el origen de datos por lotes y la función de transformación de características (por ejemplo, el recuento de las vistas del producto o los agregados de ventanas temporales), y el almacén de características de SageMaker transforma los datos, en el momento de su recepción, en funciones de aprendizaje automático. Con Amazon SageMaker Data Wrangler, puede publicar características directamente en el almacén de características de SageMaker. Con el conector de Apache Spark, puede recibir, por lotes, un gran volumen de datos con una sola línea de código.
Almacenamiento, catálogo, búsqueda y reutilización de características
El almacén de características de SageMaker etiqueta e indexa los grupos de características para que puedan localizarse de manera sencilla a través de una interfaz visual en Amazon SageMaker Studio. Explorar el catálogo de características permite a los equipos descubrir características existentes que pueden reutilizar de manera fiable y evitar la duplicación de canalizaciones. El almacén de características de SageMaker utiliza el catálogo de datos de AWS Glue de forma predeterminada, pero le permite utilizar uno diferente si lo desea. También puede consultar características utilizando SQL familiar con Amazon Athena u otra herramienta de consulta que elija.
Coherencia de las características
El almacén de características de SageMaker admite almacenamiento sin conexión para el entrenamiento y el almacenamiento en línea para la inferencia en tiempo real. Estos son casos de uso muy distintos y los requisitos de almacenamiento difieren para cada uno de ellos. Con frecuencia, durante el entrenamiento los modelos usan el conjunto de datos completo y pueden tardar horas en completarse, mientras que la inferencia debe producirse en cuestión de milisegundos y, por lo general, necesita un subconjunto de los datos. Cuando se usan juntos, el almacén de características de SageMaker garantiza que los conjuntos de datos en línea y sin conexión permanezcan sincronizados, lo cual es fundamental porque si divergen, puede afectar negativamente la precisión del modelo.
Viaje en el tiempo
Los científicos de datos pueden necesitar entrenar modelos con el conjunto exacto de valores de características de un momento específico en el pasado sin tener que correr el riesgo de incluir datos anteriores a ese momento (llamados también filtración de características), como los datos médicos del paciente antes del diagnóstico. La API fuera de línea del almacén de características de SageMaker admite consultas de un momento dado para recuperar el estado de cada característica en el momento histórico del interés.
Seguridad y control
Seguimiento de linaje
Para habilitar la reutilización de características de forma fiable, los científicos de datos necesitan saber cómo se crearon las características y qué modelos y puntos de conexión las están utilizando. El almacén de características de SageMaker permite a los científicos de datos realizar un seguimiento de sus características en Amazon SageMaker Studio con SageMaker Lineage. SageMaker Lineage permite realizar un seguimiento de las ejecuciones de canalizaciones programadas, visualizar el linaje ascendente para rastrear las características hasta sus orígenes de datos y ver el código de procesamiento de las características, todo en un solo entorno.
Operaciones de ML
Los almacenes de características son un componente clave del ciclo de vida de MLOps. Administran las canalizaciones de características y conjuntos de datos, lo que acelera las tareas de ciencia de datos y elimina el doble trabajo que supondría crear las mismas características varias veces. El almacén de características de SageMaker se puede utilizar como un servicio independiente o bien junto con otros servicios de SageMaker de manera integrada en todo el ciclo de vida de MLOps.
Seguridad y conformidad
Para respaldar las necesidades de seguridad y cumplimiento, es posible que necesite un control granular sobre cómo se accede a las características de ML compartidas. Con frecuencia, estas necesidades, más allá del control de acceso a nivel de tabla y columna, van hasta el control de acceso a nivel de fila individual. Por ejemplo, es posible que quiera que los representantes de cuentas vean filas de una tabla de ventas solo para sus cuentas, de forma que se enmascare el prefijo de datos confidenciales como números de tarjetas de crédito. El almacén de características de SageMaker junto con AWS Lake Formation se puede utilizar para implementar controles de acceso específicos para así proteger los datos del almacén de características y conceder acceso según el rol.
Recursos para el Almacén de características de SageMaker
Novedades
- Fecha (de más reciente a más antigua)