Caso de uso de Data Science y MLOps

Volver a la versión inglesa de la documentación

Para operacionalizar el análisis de datos y la creación de modelos, su empresa necesita sistemas y procesos integrados. Cloud Pak for Data as a Service proporciona los procesos y tecnologías para que su empresa pueda desarrollar y desplegar modelos de aprendizaje automático y otras aplicaciones de ciencia de datos.

Vea este vídeo para ver el caso de uso para implementar una solución de Data Science y MLOps.

Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.

Dificultades

Puede resolver los siguientes retos para su empresa implementando un caso de uso de Data Science y MLOps:

Acceso a datos de alta calidad: Las organizaciones necesitan proporcionar un acceso fácil a datos gobernados de alta calidad para los equipos de ciencia de datos que utilizan los datos para crear modelos.
Operacionalización de la creación y el despliegue de modelos: Las organizaciones necesitan implementar procesos repetibles para crear y desplegar modelos de forma rápida y eficiente en entornos de producción.
Supervisión y repetición de formación de modelos: Las organizaciones necesitan automatizar la supervisión y el reciclaje de modelos basados en los comentarios de producción.

Ejemplo: Los retos de Golden Bank

Siga la historia de Golden Bank mientras implementa un proceso de Data Science y MLOps para expandir su negocio ofreciendo renovaciones de hipotecas de baja tasa para aplicaciones en línea. Los científicos de datos de Golden Bank necesitan crear un modelo de aprobación hipotecaria que evite el riesgo y trate a todos los solicitantes de forma justa. También deben automatizar el reentrenamiento del modelo para optimizar el rendimiento del modelo.

Proceso

Para implementar Data Science y MLOps para su empresa, su organización puede seguir este proceso:

Preparar y compartir los datos
Crear y entrenar modelos
Desplegar modelos
Supervisar modelos desplegados
Automatice el ciclo de vida de IA

Los servicios de Watson Studio, Watson Machine Learning, Watson OpenScalee IBM Knowledge Catalog en Cloud Pak for Data as a Service proporcionan las herramientas y procesos que su organización necesita para implementar una solución de ciencia de datos y MLOps.

Imagen que muestra el flujo del caso de uso de ciencia de datos

Los científicos de datos pueden preparar sus propios conjuntos de datos y compartirlos en un catálogo. El catálogo sirve como una tienda de características donde los equipos de expertos en datos pueden encontrar activos de datos de alta calidad con las características que necesitan. Pueden añadir activos de datos de un catálogo a un proyecto, donde colaboran para preparar, analizar y modelar los datos.

Qué puede utilizar	Qué puede hacer	Cuándo utilizarlos mejor
Data Refinery	Acceda y refine los datos de diversas conexiones de orígenes de datos. Materialice los conjuntos de datos resultantes como instantáneas en el tiempo que puedan combinar, unir o filtrar datos para que otros científicos de datos los analicen y exploren. Haga que los conjuntos de datos resultantes estén disponibles en los catálogos.	Debe visualizar los datos cuando desee modelarlos o limpiarlos. Desea simplificar el proceso de preparación de grandes cantidades de datos en bruto para el análisis.
Catálogos	Utilice los catálogos de IBM Knowledge Catalog como tienda de características para organizar los activos para compartirlos entre los colaboradores de su organización. Aproveche las recomendaciones y la búsqueda semántica basada en IA para ayudar a los usuarios a encontrar lo que necesitan.	Los usuarios necesitan comprender, colaborar, enriquecer y acceder fácilmente a los datos de alta calidad. Desea aumentar la visibilidad de los datos y la colaboración entre los usuarios empresariales. Necesitará que los usuarios vean, accedan, manipulen y analicen los datos sin comprender su formato físico o ubicación, y sin tener que moverlos o copiarlos. Desea que los usuarios mejoren los activos valorándolos y revisándolos.

Ejemplo: Catálogo de Golden Bank

El líder del equipo de gobierno crea un catálogo, "Catálogo de aprobación de hipotecas" y añade los encargados de datos y los científicos de datos como colaboradores del catálogo. Los encargados de datos publican los activos de datos que han creado en el catálogo. Los científicos de datos encuentran los activos de datos, organizados por los encargados de datos, en el catálogo y copian esos activos en un proyecto. En su proyecto, los científicos de datos pueden refinar los datos para prepararlos para entrenar un modelo.

2. Crear y entrenar modelos

Para obtener información predictiva basada en sus datos, los científicos de datos, los analistas de negocio y los ingenieros de machine learning pueden crear y entrenar modelos. Los científicos de datos utilizan los servicios de Cloud Pak for Data as a Service para crear los modelos de IA, asegurándose de que se utilizan los algoritmos y optimizaciones adecuados para realizar predicciones que ayuden a resolver problemas de negocio.

Qué puede utilizar	Qué puede hacer	Cuándo utilizarlos mejor
AutoAI	Utilice AutoAI en Watson Studio para seleccionar automáticamente algoritmos, diseñar características, generar candidatos de interconexión y entrenar candidatos de interconexión de modelo. A continuación, evalúe las interconexiones clasificadas y guarde las mejores como modelos. Despliegue los modelos entrenados en un espacio o exporte la interconexión de entrenamiento de modelo que desee de AutoAI a un cuaderno para refinarlo.	Desea una forma avanzada y automatizada de crear rápidamente un buen conjunto de conductos y modelos de entrenamiento. Desea poder exportar los conductos generados para refinarlos.
Cuadernos y scripts	Utilice cuadernos y scripts en Watson Studio para escribir su propio código de evaluación y entrenamiento de modelos de ingeniería de características en Python o R. Utilice conjuntos de datos de entrenamiento que estén disponibles en el proyecto, o conexiones con orígenes de datos como bases de datos, lagos de datos o almacenamiento de objetos. Código con sus infraestructuras y bibliotecas de código abierto favoritas.	Desea utilizar las habilidades de codificación Python o R para tener un control completo sobre el código que se utiliza para crear, entrenar y evaluar los modelos.
Flujos de SPSS Modeler	Utilice los flujos de SPSS Modeler en Watson Studio para crear sus propios flujos de entrenamiento, evaluación y puntuación de modelos. Utilice conjuntos de datos de entrenamiento disponibles en el proyecto, o conexiones con orígenes de datos como bases de datos, lagos de datos o almacenamiento de objetos.	Desea una forma sencilla de explorar datos y definir flujos de entrenamiento, evaluación y puntuación de modelos.
RStudio	Analice datos y cree y pruebe modelos trabajando con R en RStudio.	Desea utilizar un entorno de desarrollo para trabajar en R.
Decision Optimization	Prepare datos, importe modelos, resuelva problemas y compare escenarios, visualice datos, busque soluciones, genere informes y guarde modelos para desplegarlos con Watson Machine Learning.	Necesita evaluar millones de posibilidades para encontrar la mejor solución a un problema de analítica prescriptiva.
Aprendizaje federado	Entrene un modelo común que utilice datos distribuidos.	Es necesario entrenar un modelo sin mover, combinar o compartir datos que se distribuyen entre varias ubicaciones.

Ejemplo: Formación y construcción de modelos de Golden Bank

Los científicos de datos de Golden Bank crean un modelo, "Modelo de aprobación hipotecaria", que evita riesgos imprevistos y trata a todos los solicitantes de forma justa. Desean realizar un seguimiento del historial y el rendimiento del modelo desde el principio, por lo que añaden un caso de uso de modelo al "Catálogo de aprobación de hipotecas". Ejecutan un cuaderno para crear el modelo y predecir qué solicitantes califican para las hipotecas. Los detalles del entrenamiento del modelo se capturan automáticamente como metadatos en el caso de uso del modelo.

3. Desplegar modelos

Cuando los miembros del equipo de operaciones despliegan sus modelos de IA, los modelos están disponibles para que las aplicaciones los utilicen para realizar puntuaciones y predicciones que ayuden a impulsar acciones.

Qué puede utilizar	Qué puede hacer	Cuándo utilizarlos mejor
Interfaz de usuario de espacios	Utilice la interfaz de usuario Espacios para desplegar modelos y otros activos de proyectos a espacios.	Desea desplegar modelos y ver información de despliegue en un espacio de trabajo colaborativo.

Ejemplo: Despliegue del modelo de Golden Bank

Los miembros del equipo de operaciones de Golden Bank promocionan el "Modelo de aprobación de hipoteca" del proyecto a un espacio de despliegue y, a continuación, crean un despliegue de modelo en línea.

4. Supervisar modelos desplegados

Después de desplegar los modelos, es importante supervisarlos para asegurarse de que funcionan bien. Los científicos de datos deben observar el rendimiento del modelo y los problemas de coherencia de los datos.

Qué puede utilizar	Qué puede hacer	Cuándo utilizarlos mejor
Watson OpenScale	Problemas de equidad del modelo de supervisión en varias características. Supervisar el rendimiento del modelo y la coherencia de datos a lo largo del tiempo. Explicar cómo ha llegado el modelo a determinadas predicciones con factores ponderados. Mantener e informar sobre el gobierno del modelo y el ciclo de vida en toda la organización.	Tiene características que están protegidas o que pueden contribuir a la equidad de la predicción. Desea rastrear el rendimiento del modelo y las coherencias de datos a lo largo del tiempo. Desea saber por qué el modelo proporciona determinadas predicciones.

Ejemplo: supervisión del modelo de Golden Bank

Los científicos de datos de Golden Bank utilizan Watson OpenScale para supervisar el "Modelo de aprobación de hipotecas" desplegado para asegurarse de que es preciso y trata a todos los solicitantes de hipotecas de Golden Bank de forma justa. Ejecutan un cuaderno para configurar supervisores para el modelo y, a continuación, modificar la configuración utilizando la interfaz de usuario de Watson OpenScale . Utilizando las métricas del supervisor de calidad y del supervisor de equidad de Watson OpenScale , los científicos de datos determinan qué tan bien predice el modelo los resultados y si produce algún resultado sesgado. También obtienen información sobre cómo el modelo llega a las decisiones para que las decisiones se puedan explicar a los solicitantes de hipoteca.

5. Automatizar el ciclo de vida de IA

Su equipo puede automatizar y simplificar el ciclo de vida de MLOps e IA con Orchestration Pipelines.

Qué puede utilizar	Qué puede hacer	Cuándo utilizarlos mejor
Interconexiones de orquestación	Utilice las interconexiones para crear flujos repetibles y planificados que automatizan el cuaderno, Data Refineryy las interconexiones de aprendizaje automático, desde la ingestión de datos hasta el entrenamiento de modelos, las pruebas y el despliegue.	Desea automatizar algunos o todos los pasos de un flujo MLOps.

Ejemplo: Ciclo de vida de ML automatizado de Golden Bank

Los científicos de datos de Golden Bank pueden utilizar conductos para automatizar su ciclo de vida completo de Data Science y MLOps y procesos para simplificar el proceso de repetición de formación de modelos.

Guías de aprendizaje para Data Science y MLOps

Guía de aprendizaje	Descripción	Experiencia para guía de aprendizaje
Orquestar una interconexión de IA con supervisión de modelos	Entrenar un modelo, promocionarlo a un espacio de despliegue y desplegar el modelo.	Ejecutar un cuaderno.
Orquestar un conducto de IA con integración de datos	Cree una interconexión de extremo a extremo que prepare datos y entrene un modelo.	Utilice la interfaz de arrastrar y soltar de Orchestration Pipelines para crear una interconexión.

Más información

Tema principal: Casos de uso