Guía de aprendizaje de integración de datos: Orquestar un conducto de IA con integración de datos
Siga esta guía de aprendizaje para crear un conducto de extremo a extremo para entregar datos concisos, preprocesados y actualizados almacenados en un origen de datos externo con la prueba de entramado de datos. Su objetivo es utilizar los conductos de orquestación para orquestar ese flujo de trabajo global para generar resultados automatizados, coherentes y repetibles. El oleoducto utilizaDataStage yAutoAI, que automatiza varios aspectos del proceso de construcción de un modelo, como la ingeniería de características y la optimización de hiperparámetros. AutoAI clasifica los algoritmos candidatos y, a continuación, selecciona el mejor modelo.
La historia de la guía de aprendizaje es que GoldenBank desea ampliar su negocio ofreciendo renovaciones de hipotecas de tasa baja especiales para aplicaciones en línea. Las aplicaciones en línea amplían el acceso a clientes para el banco y reducen los costes de proceso de las solicitudes del banco. El equipo utilizará Orchestration Pipelines para crear un conducto de datos que proporcione datos actualizados sobre todos los solicitantes de hipoteca, que los prestamistas pueden utilizar para la toma de decisiones. Los datos se almacenan en Db2 Warehouse. Debe preparar los datos porque son potencialmente incompletos, obsoletos y pueden estar ofuscados o totalmente inaccesibles debido a las políticas de privacidad y soberanía de los datos. A continuación, el equipo necesita crear un modelo de aprobación de hipotecas a partir de datos de confianza y, a continuación, desplegar y probar el modelo en un entorno de preproducción.
La siguiente imagen animada proporciona una vista previa rápida de lo que logrará al final de este tutorial. Editará y ejecutará un conducto para crear y desplegar un modelo de aprendizaje automático. Pulse la imagen para ver una imagen más grande.
Vista previa de la guía de aprendizaje
En esta guía de aprendizaje, realizará estas tareas:
- Configure los requisitos previos.
- Tarea 1: Ver los activos en el proyecto de ejemplo.
- Tarea 2: Explorar un conducto existente.
- Tarea 3: Añadir un nodo a la interconexión.
- Tarea 4: Ejecutar el conducto.
- Tarea 5: Ver los activos, el modelo desplegado y el despliegue en línea.
- Limpieza (opcional)
Vea este vídeo para obtener una vista preliminar de los pasos de esta guía de aprendizaje. Puede haber pequeñas diferencias en la interfaz de usuario que se muestra en el vídeo. El vídeo está pensado para ser un compañero del tutorial escrito.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Sugerencias para completar esta guía de aprendizaje
Estas son algunas sugerencias para completar correctamente esta guía de aprendizaje.
Utilizar la imagen en imagen de vídeo
La siguiente imagen animada muestra cómo utilizar las características de imagen en imagen y tabla de contenido de vídeo:
Obtener ayuda en la comunidad
Si necesita ayuda con esta guía de aprendizaje, puede formular una pregunta o encontrar una respuesta en el foro de discusión de la comunidad deCloud Pak for Data.
Configurar las ventanas del navegador
Para obtener la experiencia óptima al completar esta guía de aprendizaje, abra Cloud Pak for Data en una ventana de navegador y mantenga abierta esta página de la guía de aprendizaje en otra ventana de navegador para conmutar fácilmente entre las dos aplicaciones. Considere la posibilidad de organizar las dos ventanas del navegador una al lado de la otra para que sea más fácil de seguir.
Configurar los requisitos previos
Registro en Cloud Pak for Data as a Service
Debe registrarse en Cloud Pak for Data as a Service y suministrar los servicios necesarios para el caso de uso de integración de datos.
- Si tiene una cuenta de Cloud Pak for Data as a Service existente, puede empezar con esta guía de aprendizaje. Si tiene una cuenta de plan Lite, sólo un usuario por cuenta puede ejecutar esta guía de aprendizaje.
- Si todavía no tiene una cuenta de Cloud Pak for Data as a Service , regístrese para una prueba de entramado de datos.
Vea el siguiente vídeo para obtener más información sobre el entramado de datos en Cloud Pak for Data.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Verificar los servicios suministrados necesarios
Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 00:37.
Siga estos pasos para verificar o suministrar los servicios necesarios:
En el Menú de navegación , seleccione Servicios > Instancias de servicio.
Utilice la lista desplegable Producto para determinar si existe una instancia de servicio de Watson Studio existente.
Si necesita crear una instancia de servicio de Watson Studio, pulse Añadir servicio.
Seleccione Watson Studio.
Seleccione el plan Lite.
Pulse Crear.
Espere mientras se suministra el servicio Watson Studio , que puede tardar unos minutos en completarse.
Repita estos pasos para verificar o suministrar los siguientes servicios adicionales:
- Watson Machine Learning
- DataStage
- Cloud Object Storage
Compruebe el progreso
La imagen siguiente muestra las instancias de servicio suministradas:
Crear el proyecto de ejemplo
Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 01:14.
Si ya tiene el proyecto de ejemplo para esta guía de aprendizaje, omita esta tarea. De lo contrario, siga estos pasos:
Acceda a Orquestar un proyecto de ejemplo de conducto de IA en el concentrador de recursos.
Pulse Crear proyecto.
Si se le solicita que asocie el proyecto a una instancia de Cloud Object Storage, seleccione una instancia de Cloud Object Storage de la lista.
Pulse Crear.
Espere a que finalice la importación del proyecto y, a continuación, pulse Ver proyecto nuevo para verificar que el proyecto y los activos se han creado correctamente.
Pulse el separador Activos para ver la conexión, los flujos de DataStage y la definición de datos, y la interconexión.
Compruebe el progreso
La imagen siguiente muestra el separador Activos en el proyecto de ejemplo. Ahora está preparado para iniciar la guía de aprendizaje.
Asocie el servicio Watson Machine Learning con el proyecto de ejemplo
Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 02:04.
Utilizará Watson Machine Learning para crear y desplegar el modelo, por lo que debe seguir estos pasos para asociar la instancia de servicio de Watson Machine Learning con el proyecto de ejemplo.
En el proyecto Orquestar un conducto de IA , pulse el separador Gestionar.
Pulse la página Servicios e integraciones .
Pulse Asociar servicio.
Marque el recuadro situado junto a la instancia de servicio de Watson Machine Learning .
Pulse Asociar.
Pulse Cancelar para volver a la página Servicios e integraciones .
Compruebe el progreso
La imagen siguiente muestra la página Servicios e integraciones con el servicio Watson Machine Learning listado. Ahora está preparado para crear el proyecto de ejemplo.
Tarea 1: Ver los activos en el proyecto de ejemplo
Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 02:26.
El proyecto de ejemplo incluye varios activos que incluyen una conexión, una definición de datos, dos flujos de DataStage y un conducto. Siga estos pasos para ver estos activos:
Pulse el separador Activos en el proyecto de conducto de Orchestrate an AI y, a continuación, visualice Todos los activos.
Todos los activos de datos que se utilizan en los flujos de DataStage y la interconexión se almacenan en una conexión de Data Fabric Trial- Db2 Warehouse en el esquema AI_MORTGAGE . La imagen siguiente muestra los activos de dicha conexión:
El flujo Integrar datos de hipoteca DataStage integra datos sobre cada solicitante de hipoteca, incluida la información de identificación personal, con sus detalles de solicitud, puntuaciones de crédito, estado como comprador comercial y, finalmente, los precios de la vivienda elegida de cada solicitante y, a continuación, crea un archivo secuencial con el nombre
Mortgage_Data.csv
en el proyecto que contiene los datos unidos. La imagen siguiente muestra el flujo Integrar datos de hipoteca DataStage .Sugerencia: Si no ve ningún flujo de DataStage , vuelva a ver las instancias de servicio para verificar que la instancia de DataStage se ha suministrado correctamente. Consulte Suministro de los servicios necesarios.El flujo Integrar aprobaciones de hipotecas DataStage utiliza la salida del primer flujo de DataStage (
Mortgage_Data.csv
) y enriquece aún más los datos integrando información sobre cada aprobación de aplicación de hipoteca. El conjunto de datos resultante se guarda en el proyecto con el nombreMortgage_Data_with_Approvals.csv
. La imagen siguiente muestra el flujo Integrar aprobaciones de hipoteca DataStage :La definición de datos Definition_Mortgage_Data para el activo de datos
Mortgage_Data_with_Approvals.csv
se crea mediante el flujo Integrar aprobaciones de hipotecas DataStage . La imagen siguiente muestra la definición de datos:
Compruebe el progreso
La imagen siguiente muestra todos los activos del proyecto de ejemplo. Ahora está preparado para explorar el conducto en el proyecto de ejemplo.
Tarea 2: Explorar un conducto existente
Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 04:00.
El proyecto de ejemplo incluye un conducto de orquestación, que automatiza las tareas siguientes:
Ejecute dos trabajos de DataStage existentes.
Cree un experimento de AutoAI .
Ejecute el experimento AutoAI y guarde el modelo de mejor rendimiento que utiliza el archivo de salida resultante del trabajo DataStage como datos de entrenamiento.
Cree un espacio de despliegue.
Promocione el modelo guardado al espacio de despliegue.
Siga estos pasos para explorar el conducto:
En el separador Activos del proyecto de conducto de Orchestrate an AI, consulte Todos los activos.
Pulse Conducto de aprobación de hipoteca para abrir el conducto.
En la sección inicial de la interconexión, dos trabajos de DataStage (Integrar datos de hipoteca e Integrar aprobaciones de hipoteca) se ejecutan en secuencia para combinar diversas tablas de la conexión de Db2 Warehouse on Cloud en un conjunto de datos etiquetado cohesivo que se utiliza como datos de entrenamiento para el experimento de AutoAI .
Efectúe una doble pulsación en el nodo Comprobar estado para ver la condición. Esta condición es un punto de decisión en la interconexión para confirmar la finalización del primer trabajo de DataStage con un valor de Completado o Completado con avisos. Pulse Cancelar para volver a la interconexión.
Efectúe una doble pulsación en el nodo Crear experimento de AutoAI para ver los valores. Este nodo crea un experimento de AutoAI con los valores.
Revise los valores para los valores siguientes:
Nombre del experimento de AutoAI
Ámbito
Tipo de predicción
Columna de predicción
Clase positiva
Índice de división de datos de entrenamiento
Algoritmos a incluir
Algoritmos a utilizar
Métrica de optimización
Pulse Cancelar para cerrar los valores.
Efectúe una doble pulsación en el nodo Ejecutar experimento de AutoAI para ver los valores. Este nodo ejecuta el experimento AutoAI que se crea a partir del nodo Crear experimento AutoAI que utiliza la salida del trabajo Integrar aprobación de hipoteca DataStage como datos de entrenamiento.
Revise los valores para los valores siguientes:
Experimento AutoAI
Activos de datos de entrenamiento
Prefijo del nombre de modelo
Pulse Cancelar para cerrar los valores.
Entre los nodos Ejecutar experimento de AutoAI y Crear espacio de despliegue , efectúe una doble pulsación en ¿Desea desplegar el modelo? para ver la condición. El valor de True para esta condición es un punto de decisión en la interconexión para continuar creando el espacio de despliegue. Pulse Cancelar para volver a la interconexión.
Efectúe una doble pulsación en el nodo Crear espacio de despliegue para ver los valores. Este nodo crea un nuevo espacio de despliegue con el nombre especificado y requiere entrada para los servicios de Cloud Object Storage y Watson Machine Learning .
Revise el valor de Nombre de espacio nuevo .
Para el campo Nuevo CRN de instancia de COS , seleccione la instancia de Cloud Object Storage en la lista.
Para el campo Nuevo CRN de instancia de WML de espacio , seleccione la instancia de Watson Machine Learning en la lista.
Pulse Guardar.
Efectúe una doble pulsación en el nodo Promocionar modelo a espacio de despliegue para ver los valores. Este nodo promociona el mejor modelo del nodo Ejecutar experimento de AutoAI al espacio de despliegue creado desde el nodo Crear espacio de despliegue .
Revise los valores para los valores siguientes:
Activos de origen
Destino
Pulse Cancelar para cerrar los valores.
Compruebe el progreso
La imagen siguiente muestra el conducto inicial. Ahora está preparado para editar la interconexión para añadir un nodo.
Tarea 3: Añadir un nodo a la interconexión
Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 06:23.
La interconexión crea el modelo, crea un espacio de despliegue y, a continuación, lo promociona a un espacio de despliegue. Debe añadir un nodo para crear un despliegue en línea. Siga estos pasos para editar el conducto para automatizar la creación de un despliegue en línea:
Añada el nodo Crear despliegue en línea al lienzo:
Expanda la sección Crear en la paleta de nodos.
Arrastre el nodo Crear despliegue en línea al lienzo y suelte el nodo después del nodo Promocionar modelo a espacio de despliegue .
Pase el cursor por encima del nodo Promocionar modelo a espacio de despliegue para ver la flecha. Conecte la flecha al nodo Crear despliegue en línea .
Nota: Los nombres de nodo en la interconexión pueden diferir de la siguiente imagen animada.Conecte el comentario Crear despliegue en línea para modelo promocionado al nodo Crear despliegue en línea conectando el círculo del recuadro de comentario al nodo.
Nota: Los nombres de nodo en la interconexión pueden diferir de la siguiente imagen animada.Efectúe una doble pulsación en el nodo Crear despliegue en línea para ver los valores.
Cambie el nombre de nodo a
Create Online Deployment
.Junto a Activo ML, pulse Seleccionar de otro nodo en el menú.
Seleccione el nodo Promocionar modelo a espacio de despliegue en la lista. El ID de nodo winning_model está seleccionado.
Para el Nuevo nombre de despliegue, escriba
mortgage approval model deployment
.En Modalidad de creación, seleccione Sobrescribir.
Pulse Guardar para guardar los valores del nodo Crear despliegue en línea .
Compruebe el progreso
La imagen siguiente muestra la interconexión completada. Ahora está preparado para ejecutar el conducto.
Tarea 4: Ejecutar el conducto
Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 07:38.
Ahora que la interconexión se ha completado, siga estos pasos para ejecutar la interconexión:
En la barra de herramientas, pulse Ejecutar conducto > Ejecutar prueba.
En la página Definir parámetros de interconexión , seleccione True para el despliegue.
Si se establece en True, la interconexión verifica el modelo desplegado y puntúa el modelo.
Si se establece en False, la interconexión verifica que el modelo se ha creado en el proyecto mediante el experimento AutoAI y revisa la información del modelo y las métricas de entrenamiento.
Si esta es la primera vez que ejecuta un conducto, se le solicitará que proporcione una clave de API. Los activos de conducto utilizan su clave de API personal de IBM Cloud para ejecutar operaciones de forma segura sin interrupciones.
Si tiene una clave de API existente, pulse Utilizar clave de API existente, pegue la clave de API y pulse Guardar.
Si no tiene una clave de API existente, pulse Generar nueva clave de API, proporcione un nombre y pulse Guardar. Copie la clave de API y, a continuación, guarde la clave de API para utilizarla en el futuro. Cuando haya terminado, pulse Cerrar.
Pulse Ejecutar para iniciar la ejecución del conducto.
Desplácese por los registros consolidados mientras se ejecuta el conducto. La ejecución de prueba puede tardar hasta 10 minutos en completarse.
A medida que se completa cada operación, seleccione el nodo para dicha operación en el lienzo.
En la pestaña Inspector de nodo , vea los detalles de la operación.
Pulse la pestaña Salida de nodo para ver un resumen de la salida para cada operación de nodo.
Compruebe el progreso
La imagen siguiente muestra el conducto después de completar la ejecución de prueba. Ahora está preparado para revisar los activos que ha creado el conducto.
Tarea 5: Ver los activos, el modelo desplegado y el despliegue en línea
Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 09:48.
El conducto ha creado varios activos. Siga estos pasos para ver los activos:
Pulse el nombre de proyecto Orquestar un conducto de IA en la pista de navegación para volver al proyecto.
En la ficha Activos , vea Todos los activos.
Ver los activos de datos.
Pulse el activo de datos Mortgage_Data.csv . El trabajo de DataStage ha creado este activo.
Pulse el nombre del proyecto en la ruta de navegación para volver a la pestaña Activos .
Pulse el activo de datos Mortgage_Data_with_Approvals.csv . El trabajo de DataStage ha creado este activo.
Pulse el nombre del proyecto en la ruta de navegación para volver a la pestaña Activos .
Ver el modelo.
Pulse el activo de modelo de aprendizaje automático que empieza por hipotecage_approval_best_model. El experimento AutoAI ha generado varios candidatos de modelo y lo ha elegido como el mejor modelo.
Desplácese por la información del modelo.
Pulse el nombre del proyecto en la ruta de navegación para volver a la pestaña Activos .
Pulse el separador Trabajos en el proyecto para ver información sobre los dos trabajos de DataStage y una ejecución de trabajo de conducto.
En el Menú de navegación , seleccione Despliegues.
Pulse la pestaña Espacios .
Pulse el espacio de despliegue Aprobación de hipoteca .
Pulse la pestaña Activos y consulte el modelo desplegado que empieza por hipotecage_approval_best_model.
Pulse la pestaña Despliegues.
Pulse Despliegue del modelo de aprobación de hipotecas para ver el despliegue.
Vea la información en el separador Referencia de API .
Pulse el separador Probar.
Pulse la pestaña Entrada JSON y sustituya el texto de ejemplo por el siguiente texto JSON.
{ "input_data": [ { "fields": [ "ID", "NAME", "STREET_ADDRESS", "CITY", "STATE", "STATE_CODE", "ZIP_CODE", "EMAIL_ADDRESS", "PHONE_NUMBER", "GENDER", "SOCIAL_SECURITY_NUMBER", "EDUCATION", "EMPLOYMENT_STATUS", "MARITAL_STATUS", "INCOME", "APPLIEDONLINE", "RESIDENCE", "YRS_AT_CURRENT_ADDRESS", "YRS_WITH_CURRENT_EMPLOYER", "NUMBER_OF_CARDS", "CREDITCARD_DEBT", "LOANS", "LOAN_AMOUNT", "CREDIT_SCORE", "CRM_ID", "COMMERCIAL_CLIENT", "COMM_FRAUD_INV", "FORM_ID", "PROPERTY_CITY", "PROPERTY_STATE", "PROPERTY_VALUE", "AVG_PRICE" ], "values": [ [ null, null, null, null, null, null, null, null, null, null, null, "Bachelor", "Employed", null, 144306, null, "Owner Occupier", 15, 19, 2, 7995, 1, 1483220, 437, null, false, false, null, null, null, 111563 ], [ null, null, null, null, null, null, null, null, null, null, null, "High School", "Employed", null, 45283, null, "Private Renting", 11, 13, 1, 1232, 1, 7638, 706, null, false, false, null, null, null, 547262 ] ] } ] }
Pulse Pronosticar. Los resultados muestran que el primer solicitante no sería aprobado y el segundo solicitante sería aprobado.
Compruebe el progreso
La imagen siguiente muestra los resultados de la prueba.
El equipo de Golden Bank utilizó Orchestration Pipelines para crear un conducto de datos que entrega datos actualizados sobre todos los solicitantes de hipotecas y un modelo de aprendizaje automático que los prestamistas pueden utilizar para la toma de decisiones.
Limpieza (opcional)
Si desea retomar esta guía de aprendizaje, suprima los artefactos siguientes.
Artefacto | Cómo suprimir |
---|---|
Despliegue de modelo de aprobación de hipoteca en el espacio de despliegue de aprobación de hipoteca | Suprima un despliegue |
Espacio de despliegue de aprobación de hipoteca | Suprimir un espacio de despliegue |
Orquestar un proyecto de ejemplo de conducto de IA | Suprimir un proyecto |
Próximos pasos
Pruebe estas guías de aprendizaje:
Regístrese para otro caso de uso de entramado de datos.
Más información
Tema padre: Guías de aprendizaje de casos de uso