Guía de aprendizaje de integración de datos multinube: Integrar datos

Utilice esta guía de aprendizaje para transformar datos almacenados en tres orígenes de datos externos con el caso de uso de integración de datos multinube de la prueba de entramado de datos. Su objetivo es utilizar DataStage para transformar los datos y luego distribuir los datos transformados a un único archivo de salida.

La historia de la guía de aprendizaje es que Golden Bank necesita cumplir con un nuevo reglamento por el que no puede realizar préstamos a los solicitantes de préstamos que no estén cualificados. Como ingeniero de datos en Golden Bank, actualmente utiliza DataStage para agregar sus datos de solicitudes de hipotecas anónimas a la información de identificación personal de los solicitantes de hipotecas. Sus prestamistas utilizan esta información para ayudarles a decidir si deben aprobar o denegar las solicitudes de hipoteca. Su equipo de dirección ha añadido algunos analistas de riesgo que calculan diariamente qué tipo de interés recomiendan ofrecer a los prestatarios en cada rango de puntuación de crédito. Debe integrar esta información en la hoja de cálculo que comparte con los prestamistas, que incluye información de puntuación de crédito para cada solicitante, la deuda total del solicitante y una tabla de búsqueda de tasas de interés. Luego carga los datos en un archivo .csv de salida de destino.

En esta guía de aprendizaje, realizará estas tareas:

  1. Ejecutar un flujo de DataStage existente.
  2. Editar el flujo de DataStage para:
    1. Añadir datos de PostgreSQL.
    2. Añadir otra etapa de unión.
    3. Añadir una etapa Transformador.
    4. Añadir datos de MongoDB.
    5. Añadir una etapa de búsqueda.
  3. Editar el nodo de archivo secuencial y ejecutar el flujo DataStage.
  4. Crear un catálogo.
  5. Ver la salida y publicar en un catálogo.

Si necesita ayuda con esta guía de aprendizaje, plantee una pregunta o busque una respuesta en el foro de debate de la comunidad de Cloud Pak for Data.

Consejo: Para aprovechar al máximo esta guía de aprendizaje, abra Cloud Pak for Data as a Service en una pestaña del navegador y mantenga abierta esta página de la guía de aprendizaje en otra pestaña del navegador para cambiar fácilmente entre las dos aplicaciones.

Vista previa de la guía de aprendizaje

Ver vídeo Vea este vídeo para obtener una vista preliminar de los pasos de esta guía de aprendizaje.

Este vídeo proporciona un método visual como una alternativa a seguir los pasos escritos incluidos en esta documentación.

Requisitos previos

Debe registrarse para Cloud Pak for Data as a Service y suministrar los servicios necesarios para el caso de uso de integración de datos multinube.

Puede registrarse para Cloud Pak for Data as a Service de cualquiera de estas formas:

Suministro de los servicios necesarios

Siga estos pasos para verificar o suministrar los servicios necesarios.

Ver vídeo Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 01:09.

  1. En el menú de navegación de Cloud Pak for Data, elija Servicios > Instancias de servicio.
  2. Utilice el recuadro desplegable Producto para determinar si existe una instancia de servicio de DataStage existente.
  3. Si necesita crear una instancia de servicio de DataStage, pulse Añadir servicio.
  4. Seleccione DataStage.
  5. Seleccione el plan Lite.
  6. Pulse Crear.
  7. Repita estos pasos para verificar o suministrar los siguientes servicios adicionales:
    • Watson Knowledge Catalog
    • Cloud Object Storage

Crear el proyecto de ejemplo

Si todavía no ha creado el proyecto de ejemplo para esta guía de aprendizaje, siga estos pasos:

Ver vídeo Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 01:44.

  1. Acceda al proyecto de ejemplo de guía de aprendizaje guiada de integración de datos multinube en la galería.
  2. Pulse Crear proyecto.
  3. Si se le solicita que asocie el proyecto a una instancia de Cloud Object Storage, seleccione una instancia de Cloud Object Storage de la lista.
  4. Pulse Crear.
  5. Pulse Ver nuevo proyecto para verificar que el proyecto y los activos se han creado correctamente.

Paso 1: Ejecutar un flujo de DataStage existente

Siga estos pasos para ejecutar un flujo de DataStage que creará un archivo CSV en el proyecto que se une a los solicitantes de hipoteca y los conjuntos de datos de aplicaciones de hipoteca.

Ver vídeo Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 02:24.

  1. En el proyecto Integración de datos multinube, pulse la pestaña Activos para ver todos los activos del proyecto.
  2. Pulse Flujos > Flujo de DataStage. Si no ve ningún flujo de DataStage, retroceda para ver las instancias de servicio para verificar que la instancia de DataStage se ha suministrado correctamente. Consulte Suministro de los servicios necesarios.
  3. Pulse el flujo Integración de datos multinube en la lista para abrirlo. Este flujo une las tablas Solicitantes Hipotecarios y Aplicaciones hipotecarias almacenadas en Db2 Warehouse, filtra los datos a los registros del estado de California y crea un archivo secuencial en formato CSV como salida.
  4. Efectúe una doble pulsación en el nodo MORTGAGE_APPLICATIONS_1 para ver los valores.
    1. Expanda la sección Propiedades.
    2. Desplácese hacia abajo y pulse Vista preliminar de los datos. Este conjunto de datos incluye la captura de información en una aplicación de hipoteca.
    3. Pulse Cerrar.
  5. Efectúe una doble pulsación en el nodo MORTGAGE_APPLICANTS_1 para ver los valores.
    1. Expanda la sección Propiedades.
    2. Desplácese hacia abajo y pulse Vista preliminar de los datos. Este conjunto de datos incluye información sobre los solicitantes de hipoteca que han solicitado un préstamo.
    3. Pulse Cerrar.
  6. Pulse Compilar y luego Ejecutar. Como alternativa, puede pulsar Ejecutar que compilará y luego ejecutará el flujo de DataStage.
  7. Pulse Registros en la barra de herramientas para ver el progreso del flujo. La ejecución puede tardar aproximadamente un minuto en completarse.
  8. Cuando la ejecución finalice correctamente, pulse Integración de datos multinube en el rastro de navegación para volver al proyecto.
  9. En la pestaña Activos, pulse Datos > Activo de datos.
  10. Abra el archivo MORTGAGE_INTEREST_RATES.CSV. Puede ver que este archivo contiene las columnas de los conjuntos de datos de solicitantes de hipoteca y de aplicaciones de hipoteca utilizando el ID de la clave de unión.

Paso 2: Editar el flujo de DataStage

Siga estos pasos para editar un flujo de DataStage y cambiar los valores del nodo de unión.

Ver vídeo Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 04:16.

  1. Pulse Flujos > Flujo de DataStage.
  2. Abra el flujo de Integración de datos multinube.
  3. Efectúe una doble pulsación en el nodo Join_on_ID para editar los valores.
  4. Pulse la pestaña Salida y expanda la sección Columnas para ver una lista de las columnas del conjunto de datos unido.
  5. Pulse Editar.
  6. Para el nombre de columna EMAIL_ADDRESS, seleccione Clave.
  7. Pulse Aplicar y volver para volver a los valores del nodo de Join_on_ID.
  8. Pulse Guardar para guardar los valores del nodo de Join_on_ID.

Paso 3: Añadir datos de PostgreSQL

Siga estos pasos para añadir los datos de puntuación de crédito almacenados en una base de datos PostgreSQL al flujo de DataStage.

Ver vídeo Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 04:57.

  1. En la paleta de nodos, expanda la sección Conectores.
  2. Arrastre el conector Navegador de activos al lienzo junto al nodo MORTGAGE_APPLICANTS_1.
  3. Para localizar el activo, seleccione Conexión > Prueba de entramado de datos - Databases for PostgreSQL > BANKING > CREDIT_SCORE.
  4. Pulse el icono de Ojo para obtener una vista preliminar de los datos de puntuación de crédito para cada solicitante.
  5. Pulse Añadir.

Paso 4: Añadir otra etapa de unión

Siga estos pasos para añadir otra etapa de unión para unir los datos unidos de aplicación de hipoteca/solicitante de hipoteca filtrados con los datos de puntuación de crédito en el flujo de DataStage.

Ver vídeo Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 05:28.

  1. En la paleta de nodos, expanda la sección Etapas.
  2. Arrastre la etapa Unión al lienzo y suelte el nodo en la parte superior de Link_4 entre los nodos Filter_State_Code y Sequential_file_1.
  3. Pase el ratón por encima del conector CREDIT_SCORE_1 para ver la flecha. Conecte la flecha a la etapa Unión.
  4. Efectúe una doble pulsación en el nodo CREDIT_SCORE_1 para editar los valores.
    1. Pulse la pestaña Salida y expanda la sección Columnas para ver una lista de las columnas del conjunto de datos unido.
    2. Pulse Editar.
    3. Para los nombres de columna EMAIL_ADDRESS y CREDIT_SCORE, seleccione Clave.
    4. Pulse Aplicar y volver para volver a los valores del nodo de CREDIT_SCORE_1.
    5. Pulse Guardar para guardar los valores del nodo de CREDIT_SCORE_1.
  5. Efectúe una doble pulsación en el nodo Join_1 para editar los valores.
    1. Expanda la sección Propiedades.
    2. Pulse Añadir clave.
      1. Vuelva a pulsar Añadir clave.
      2. Seleccione EMAIL_ADDRESS en la lista desplegable.
      3. Pulse Aplicar.
    3. Pulse Aplicar y volver para volver a los valores del nodo de Join_1.
    4. Cambie el nombre de nodo de Join_1 por Join_on_email.
    5. Pulse Guardar para guardar los valores del nodo de Join_1.

Paso 5: Añadir una etapa Transformador

Siga estos pasos para añadir una etapa Transformador que creará una nueva columna sumando las columnas LOAN_AMOUNT y CREDITCARD_DEBT.

Ver vídeo Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 06:42.

  1. Arrastre la etapa Transformador al lienzo y suelte el nodo en la parte superior de Link_5 entre los nodos Join_on_email y Sequential_file_1.
  2. Efectúe una doble pulsación en el nodo Transformador para editar los valores.
    1. Pulse la pestaña Salida.
      1. Pulse Añadir columna.
      2. Desplácese hasta la parte inferior de la lista de columnas para ver la nueva columna.
      3. Nombre de la columna TOTAL_DEBT.
      4. Pulse el icono lápiz de la columna de derivación de la fila.
      5. Pulse el icono calculadora para abrir el generador de expresiones.
      6. Busque LOAN_AMOUNT y efectúe una doble pulsación en el nombre de columna para añadirlo a la expresión.
      7. Escriba un signo más +.
      8. Busque CREDITCARD_DEBT y efectúe una doble pulsación en el nombre de columna para añadirlo a la expresión.
      9. Verifique que la expresión final es Link_5.LOAN_AMOUNT + Link_5.CREDITCARD_DEBT.
      10. Pulse Aplicar y volver para volver a la página Transformador.
    2. Pulse Guardar y volver para volver al lienzo.

Paso 6: Añadir datos de MongoDB

Siga estos pasos para incluir las tasas de interés en el flujo añadiendo un nuevo conector de activos de datos a una base de datos MongoDB.

Ver vídeo Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 07:30.

  1. En la paleta de nodos, expanda la sección Conectores.
  2. Arrastre el conector Navegador de activos al lienzo junto al nodo CREDIT_SCORE_1.
  3. Para localizar el activo, seleccione Conexión > Prueba de entramado de datos - Mongo DB > DOCUMENTO > DS_INTEREST_RATES.
  4. Pulse el icono de Ojo para ver las tasas de interés de cada rango de puntuación de crédito. Utilizará los valores de las columnas STARTING_LIMIT y ENDING_LIMIT para buscar la tasa de interés adecuada basada en la puntuación de crédito del solicitante. La columna ID no es necesaria, por lo que suprimirá esa columna en el paso siguiente.
  5. Pulse Añadir.

Paso 7: Añadir una etapa de búsqueda

Basándose en la puntuación de crédito de cada solicitante, desea buscar la tasa de interés apropiada. Siga estos pasos para añadir una etapa de búsqueda y especifique el rango para iniciar y finalizar los límites de puntuación de crédito para cada tipo de interés.

Ver vídeo Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 08:19.

  1. Arrastre la etapa Búsqueda al lienzo y suelte el nodo en la parte superior de Link_7 entre los nodos Transformer_1 y Sequential_file_1.
  2. Conecte el conector DS_INTEREST_RATES_1 a la etapa Lookup_1.
  3. Efectúe una doble pulsación en el nodo DS_INTEREST_RATES_1 para editar los valores.
  4. Pulse la pestaña Salida.
    1. Expanda la sección Columnas y pulse Editar.
    2. Seleccione la columna _ID.
    3. Pulse el icono Suprimir para suprimir esta columna innecesaria.
    4. Pulse Aplicar y volver para volver a los valores del nodo de DS_INTEREST_RATES_1.
    5. Pulse Guardar para guardar los cambios en el nodo DS_INTEREST_RATES_1.
  5. Efectúe una doble pulsación en el nodo Lookup_1 para editar los valores.
  6. Expanda la sección Propiedades.
    1. Para el campo Aplicar rango a columnas, seleccione CREDIT_SCORE. Aparecerán los campos Enlaces de referencia, Operador y Columna de rango.
    2. Para Enlaces de referencia, seleccione Link_9.
    3. Para el primer Operador, seleccione <.
    4. Para la primera Columna de rango, seleccione ENDING_LIMIT.
    5. Para el segundo Operador, seleccione >.
    6. Para la segunda Columna de rango, seleccione STARTING_LIMIT.
  7. Pulse la pestaña Salida.
    1. Expanda la sección Columnas y pulse Editar.
    2. Seleccione las columnas STARTING_LIMIT y ENDING_LIMIT.
    3. Pulse el icono Suprimir para suprimir estas salidas innecesarias.
    4. Pulse Aplicar y volver para volver a los valores del nodo de Lookup_1.
    5. Pulse Guardar para guardar los cambios en el nodo Lookup_1.

Paso 8: Editar el nodo de archivo secuencial y ejecutar el flujo de DataStage

Siga estos pasos para editar el nodo de archivo secuencial para crear un archivo de salida final como un activo de datos en el proyecto y, a continuación, compilar y ejecutar el flujo de DataStage.

Ver vídeo Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 09:39.

  1. Efectúe una doble pulsación en el nodo Sequential_file_1 para editar los valores.
  2. Pulse la pestaña Salida.
  3. Seleccione Crear activo de datos.
  4. Para el Nombre del activo de datos, escriba MORTGAGE_APPLICANTS_INTEREST_RATES.CSV.
  5. Expanda la sección Propiedades.
  6. Para el Archivo de destino, escriba MORTGAGE_APPLICANTS_INTEREST_RATES.CSV.
  7. Pulse Guardar.
  8. Pulse Ejecutar que compilará y luego ejecutará el flujo de DataStage.
  9. Pulse Registros en la barra de herramientas para ver el progreso del flujo.

Paso 9: Crear un catálogo

Otros ingenieros de datos y analistas de negocios en Golden Bank necesitan acceso a las tasas de interés hipotecario. Con el plan Watson Knowledge Catalog Lite, solo puede crear un catálogo. Si ya tiene un catálogo, omita este paso. De lo contrario, siga estos pasos para crear un catálogo para crear un catálogo en el que pueda publicar el conjunto de datos de tasas de interés.

Ver vídeo Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 10:10.

  1. En el menú de navegación de Cloud Pak for Data, elija Catálogos > Ver todos los catálogos.
  2. Pulse Crear catálogo.
  3. Para el Nombre, escriba Mortgage Approval Catalog. Escriba el nombre del catálogo, exactamente como se muestra sin espacios iniciales ni finales. Si se le solicita que asocie el catálogo a una instancia de Cloud Object Storage, seleccione un Cloud Object Storage de la lista.
  4. Acepte el valor predeterminado para todos los demás campos.
  5. Pulse Crear.

Paso 10: Ver la salida y publicar en un catálogo

Siga estos pasos para ver el archivo de salida en el proyecto y luego publicarlo en un catálogo.

Ver vídeo Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 10:40.

  1. En el menú de navegación de Cloud Pak for Data, elija Proyectos > Ver todos los proyectos.
  2. Abra el proyecto Integración de datos multinube.
  3. En la pestaña Activos, pulse Datos > Activo de datos.
  4. Abra el archivo MORTGAGE_APPLICANTS_INTEREST_RATES.CSV.
  5. Desplácese a la derecha para ver sus datos integrados con las tasas de interés al final de cada entrada de datos.
  6. Pulse Integración de datos multinube en el rastro de navegación para volver al proyecto.
  7. En la pestaña Activos, pulse el menú Desbordamiento al final de la fila para el archivo MORTGAGE_APPLICANTS_INTEREST_RATES.CSV y seleccione Publicar en catálogo.
  8. Seleccione Catálogo de aprobación de hipotecas en la lista y pulse Publicar.
  9. En el menú de navegación de Cloud Pak for Data, elija Catálogos > Ver todos los catálogos.
  10. Abra el Catálogo de aprobación de hipotecas.
  11. Busque Mortgage.
  12. Abra el archivo MORTGAGE_APPLICANTS_INTEREST_RATES.CSV.
  13. Pulse el separador Activo para ver los datos.

Más información

Tema principal: Guías de aprendizaje de entramado de datos