0 / 0
Volver a la versión inglesa de la documentación
Caso de uso de Data Science y MLOps
Caso de uso de Data Science y MLOps

Caso de uso de Data Science y MLOps

Para operacionalizar el análisis de datos y la creación de modelos, su empresa necesita sistemas y procesos integrados. Cloud Pak for Data as a Service proporciona los procesos y tecnologías que permiten a la empresa desarrollar y desplegar modelos de aprendizaje automático y otras aplicaciones de ciencia de datos.

Vea este vídeo para ver el caso de uso de entramado de datos para implementar una solución Data Science y MLOps en Cloud Pak for Data.

Este vídeo proporciona un método visual como una alternativa a seguir los pasos escritos incluidos en esta documentación.

Preguntas de contraseña

El establecimiento de soluciones de ciencia de datos y MLOps para las empresas implica abordar estos retos:

Acceso a datos de alta calidad
Las organizaciones necesitan proporcionar un acceso fácil a datos gobernados de alta calidad para los equipos de ciencia de datos que utilizan los datos para crear modelos.

Operacionalización de la creación y el despliegue de modelos
Las organizaciones necesitan implementar procesos repetibles para crear y desplegar modelos de forma rápida y eficiente en entornos de producción.

Supervisión y repetición de formación de modelos
Las organizaciones necesitan automatizar la supervisión y repetición de formación de modelos basándose en los comentarios de producción.

Puede resolver estos retos implementando un entramado de datos en Cloud Pak for Data as a Service.


Ejemplo: Los retos de Golden Bank

Siga la historia de Golden Bank mientras implementa un proceso de Data Science y MLOps para expandir su negocio ofreciendo renovaciones de hipotecas de baja tasa para aplicaciones en línea. Los científicos de datos de Golden Bank necesitan crear un modelo de aprobación hipotecaria que evite el riesgo y trate a todos los solicitantes de forma justa. También deben automatizar el reentrenamiento del modelo para optimizar el rendimiento del modelo.

Proceso

Para implementar Data Science y MLOps para su empresa, su organización puede seguir este proceso:

  1. Preparar y compartir los datos
  2. Crear y entrenar modelos
  3. Desplegar modelos
  4. Modelos de supervisión
  5. Automatice el ciclo de vida de IA

Los servicios Watson Studio, Watson Machine Learning, Watson OpenScaley Watson Knowledge Catalog en Cloud Pak for Data as a Service proporcionan las herramientas y procesos que su organización necesita para implementar una solución de ciencia de datos y MLOps.

Imagen que muestra el flujo del caso de uso de ciencia de datos

1. Preparar y compartir los datos

Los científicos de datos pueden preparar sus propios conjuntos de datos y compartirlos en un catálogo. El catálogo sirve como una tienda de características donde los equipos de expertos en datos pueden encontrar activos de datos de alta calidad con las características que necesitan. Pueden añadir activos de datos de un catálogo a un proyecto, donde colaboran para preparar, analizar y modelar los datos.

Qué puede utilizar Qué puede hacer Cuándo utilizarlos mejor
Data Refinery Acceda y refine los datos de diversas conexiones de orígenes de datos.

Materialice los conjuntos de datos resultantes como instantáneas en el tiempo que puedan combinar, unir o filtrar datos para que otros científicos de datos los analicen y exploren.

Haga que los conjuntos de datos resultantes estén disponibles en los catálogos.
Debe visualizar los datos cuando desee modelarlos o limpiarlos.

Desea simplificar el proceso de preparación de grandes cantidades de datos en bruto para el análisis.
Catálogos Utilice catálogos en Watson Knowledge Catalog como tienda de características para organizar los activos para compartir entre los colaboradores de su organización.

Aproveche la búsqueda semántica basada en IA y las recomendaciones para ayudar a los usuarios a encontrar lo que necesitan.
Los usuarios necesitan comprender, colaborar, enriquecer y acceder fácilmente a los datos de alta calidad.

Desea aumentar la visibilidad de los datos y la colaboración entre los usuarios empresariales.

Necesitará que los usuarios vean, accedan, manipulen y analicen los datos sin comprender su formato físico o ubicación, y sin tener que moverlos o copiarlos.

Desea que los usuarios mejoren los activos valorándolos y revisándolos.


Ejemplo: Catálogo de Golden Bank

El líder del equipo de gobierno crea un catálogo, "Catálogo de aprobación de hipotecas" y añade los encargados de datos y los científicos de datos como colaboradores del catálogo. Los encargados de datos publican los activos de datos que han creado en el catálogo. Los científicos de datos encuentran los activos de datos, organizados por los encargados de datos, en el catálogo y copian esos activos en un proyecto. En su proyecto, los científicos de datos pueden refinar los datos para prepararlos para entrenar un modelo.


2. Crear y entrenar modelos

Para obtener información predictiva basada en sus datos, los científicos de datos, los analistas de negocio y los ingenieros de machine learning pueden crear y entrenar modelos. Los científicos de datos utilizan los servicios de Cloud Pak for Data as a Service para crear los modelos de IA, asegurándose de que se utilizan los algoritmos y optimizaciones adecuados para realizar predicciones que ayuden a resolver problemas de negocio.

Qué puede utilizar Qué puede hacer Cuándo utilizarlos mejor
AutoAI Utilice AutoAI en Watson Studio para seleccionar automáticamente algoritmos, diseñar características, generar candidatos de interconexión y entrenar candidatos de interconexión de modelo.

A continuación, evalúe las interconexiones clasificadas y guarde las mejores como modelos.

Despliegue los modelos entrenados en un espacio o exporte la interconexión de entrenamiento de modelo que desee de AutoAI a un cuaderno para refinarlo.
Desea una forma avanzada y automatizada de crear rápidamente un buen conjunto de conductos y modelos de entrenamiento.

Desea poder exportar los conductos generados para refinarlos.
Cuadernos y scripts Utilice cuadernos y scripts en Watson Studio para escribir su propio código de evaluación y entrenamiento de modelos de ingeniería de características en Python o R. Utilice conjuntos de datos de entrenamiento que estén disponibles en el proyecto, o conexiones con orígenes de datos como bases de datos, lagos de datos o almacenamiento de objetos.

Código con sus infraestructuras y bibliotecas de código abierto favoritas.
Desea utilizar las habilidades de codificación Python o R para tener un control completo sobre el código que se utiliza para crear, entrenar y evaluar los modelos.
Flujos de SPSS Modeler Utilice los flujos de SPSS Modeler en Watson Studio para crear sus propios flujos de entrenamiento, evaluación y puntuación de modelos. Utilice conjuntos de datos de entrenamiento disponibles en el proyecto, o conexiones con orígenes de datos como bases de datos, lagos de datos o almacenamiento de objetos. Desea una forma sencilla de explorar datos y definir flujos de entrenamiento, evaluación y puntuación de modelos.
RStudio Analice datos y cree y pruebe modelos trabajando con R en RStudio. Desea utilizar un entorno de desarrollo para trabajar en R.
Decision Optimization Prepare datos, importe modelos, resuelva problemas y compare escenarios, visualice datos, busque soluciones, genere informes y guarde modelos para desplegarlos con Watson Machine Learning. Necesita evaluar millones de posibilidades para encontrar la mejor solución a un problema de analítica prescriptiva.
Aprendizaje federado Entrene un modelo común que utilice datos distribuidos. Es necesario entrenar un modelo sin mover, combinar o compartir datos que se distribuyen entre varias ubicaciones.


Ejemplo: Formación y construcción de modelos de Golden Bank

Los científicos de datos de Golden Bank crean un modelo, "Modelo de aprobación hipotecaria", que evita riesgos imprevistos y trata a todos los solicitantes de forma justa. Desean realizar un seguimiento del historial y el rendimiento del modelo desde el principio, por lo que añaden un caso de uso de modelo al "Catálogo de aprobación de hipotecas". Ejecutan un cuaderno para crear el modelo y predecir qué solicitantes califican para las hipotecas. Los detalles del entrenamiento del modelo se capturan automáticamente como metadatos en el caso de uso del modelo.


3. Desplegar modelos

Cuando los miembros del equipo de operaciones despliegan sus modelos de IA, los modelos están disponibles para que las aplicaciones los utilicen para realizar puntuaciones y predicciones que ayuden a impulsar acciones.

Qué puede utilizar Qué puede hacer Cuándo utilizarlos mejor
Interfaz de usuario de espacios Utilice la IU de Spaces en Watson Machine Learning para desplegar modelos y otros activos desde proyectos a espacios. Desea desplegar modelos y ver información de despliegue en un espacio de trabajo colaborativo.


Ejemplo: Despliegue del modelo de Golden Bank

Los miembros del equipo de operaciones de Golden Bank promocionan el "Modelo de aprobación de hipoteca" del proyecto a un espacio de despliegue y, a continuación, crean un despliegue de modelo en línea.


4. Supervisar modelos desplegados

Después de desplegar los modelos, es importante supervisarlos para asegurarse de que funcionan bien. Los científicos de datos deben observar el rendimiento del modelo y los problemas de coherencia de los datos.

Qué puede utilizar Qué puede hacer Cuándo utilizarlos mejor
Watson OpenScale Problemas de equidad del modelo de supervisión en varias características.

Supervisar el rendimiento del modelo y la coherencia de datos a lo largo del tiempo.

Explicar cómo ha llegado el modelo a determinadas predicciones con factores ponderados.

Mantener e informar sobre el gobierno del modelo y el ciclo de vida en toda la organización.
Tiene características que están protegidas o que pueden contribuir a la equidad de la predicción.

Desea rastrear el rendimiento del modelo y las coherencias de datos a lo largo del tiempo.

Desea saber por qué el modelo proporciona determinadas predicciones.


Ejemplo: supervisión del modelo de Golden Bank

Los científicos de datos de Golden Bank utilizan Watson OpenScale para supervisar el "Modelo de aprobación de hipotecas" desplegado para asegurarse de que es preciso y trata a todos los solicitantes de hipotecas de Golden Bank de forma justa. Ejecutan un cuaderno para configurar supervisores para el modelo y, a continuación, modificar la configuración utilizando la interfaz de usuario de Watson OpenScale . Utilizando las métricas del supervisor de calidad y del supervisor de equidad de Watson OpenScale , los científicos de datos determinan qué tan bien predice el modelo los resultados y si produce algún resultado sesgado. También obtienen información sobre cómo el modelo llega a las decisiones para que las decisiones se puedan explicar a los solicitantes de hipoteca.


5. Automatizar el ciclo de vida de ML

Su equipo puede automatizar y simplificar el ciclo de vida de MLOps e IA con Watson Pipelines.

Qué puede utilizar Qué puede hacer Cuándo utilizarlos mejor
Watson Pipelines Utilice las interconexiones para crear flujos repetibles y planificados que automatizan el cuaderno, Data Refineryy las interconexiones de aprendizaje automático, desde la ingestión de datos hasta el entrenamiento de modelos, las pruebas y el despliegue. Desea automatizar algunos o todos los pasos de un flujo MLOps.


Ejemplo: Ciclo de vida de ML automatizado de Golden Bank

Los científicos de datos de Golden Bank pueden utilizar conductos para automatizar su ciclo de vida completo de Data Science y MLOps y procesos para simplificar el proceso de repetición de formación de modelos.


Guías de aprendizaje para Data Science y MLOps

Guía de aprendizaje Descripción Experiencia para guía de aprendizaje
Orquestar una interconexión de IA con supervisión de modelos Entrenar un modelo, promocionarlo a un espacio de despliegue y desplegar el modelo. Ejecutar un cuaderno.
Interconexión de Orchestrate e IA con integración de datos Cree una interconexión de extremo a extremo que prepare datos y entrene un modelo. Utilice la interfaz de arrastrar y soltar Watson Pipelines para crear una interconexión.

Más información

Tema padre: Visión general de la solución de entramado de datos