0 / 0
Volver a la versión inglesa de la documentación
Guía de aprendizaje de integración de datos: Virtualizar datos externos

Guía de aprendizaje de integración de datos: Virtualizar datos externos

Siga esta guía de aprendizaje para virtualizar los datos almacenados en tres orígenes de datos externos con el caso de uso de integración de datos de la prueba de entramado de datos. Su objetivo es utilizar Data Virtualization para crear tablas virtuales y unir las tablas virtuales a partir de los datos existentes que se encuentran en tres orígenes de datos: un Db2 Warehouse, una base de datos PostgreSQL y una base de datos MongoDB . Si ha completado la guía de aprendizaje Integrar datos , ha realizado muchas de las mismas tareas utilizando DataStage que esta guía de aprendizaje realiza utilizando Data Virtualization.

Inicio rápido: Si todavía no ha creado el proyecto de ejemplo para esta guía de aprendizaje, acceda al Proyecto de ejemplo de integración de datos en el concentrador de recursos.

La historia de la guía de aprendizaje es que Golden Bank necesita cumplir con un nuevo reglamento por el que no puede realizar préstamos a los solicitantes de préstamos que no estén cualificados. Utilizará Data Virtualization para combinar datos de distintos orígenes de datos sin movimiento de datos y hacer que los datos virtuales estén disponibles para otros científicos de datos e ingenieros de datos de un proyecto.

La siguiente imagen animada proporciona una vista previa rápida de lo que logrará al final de este tutorial. Se conectará a orígenes de datos externos, creará tablas y vistas virtuales y las añadirá a un proyecto. Pulse la imagen para ver una imagen más grande.

Imagen animada

Vista previa de la guía de aprendizaje

En esta guía de aprendizaje, realizará estas tareas:

Ver vídeo Vea este vídeo para obtener una vista preliminar de los pasos de esta guía de aprendizaje. Puede haber pequeñas diferencias en la interfaz de usuario que se muestra en el vídeo. El vídeo está pensado para ser un compañero del tutorial escrito.

Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.





Sugerencias para completar esta guía de aprendizajeEstas son algunas sugerencias para completar correctamente esta guía de aprendizaje.

Utilizar la imagen en imagen de vídeo

Sugerencia: Inicie el vídeo y, a continuación, a medida que se desplaza por el tutorial, el vídeo pasa al modo de imagen en imagen. Cierre la tabla de contenido de vídeo para obtener la mejor experiencia con la imagen en imagen. Puede utilizar el modo de imagen en imagen para poder seguir el vídeo mientras completa las tareas de este tutorial. Pulse las indicaciones de fecha y hora para cada tarea a seguir.

La siguiente imagen animada muestra cómo utilizar las características de imagen en imagen y tabla de contenido de vídeo:

Cómo utilizar la imagen en la imagen y los capítulos

Obtener ayuda en la comunidad

Si necesita ayuda con esta guía de aprendizaje, puede formular una pregunta o encontrar una respuesta en el foro de discusión de la comunidad deCloud Pak for Data.

Configurar las ventanas del navegador

Para obtener la experiencia óptima al completar esta guía de aprendizaje, abra Cloud Pak for Data en una ventana de navegador y mantenga abierta esta página de la guía de aprendizaje en otra ventana de navegador para conmutar fácilmente entre las dos aplicaciones. Considere la posibilidad de organizar las dos ventanas del navegador una al lado de la otra para que sea más fácil de seguir.

Guía de aprendizaje en paralelo e interfaz de usuario

Sugerencia: Si encuentra una visita guiada al completar esta guía de aprendizaje en la interfaz de usuario, pulse Quizás más tarde.



Configurar los requisitos previos

Registro en Cloud Pak for Data as a Service

Debe registrarse en Cloud Pak for Data as a Service y suministrar los servicios necesarios para el caso de uso de integración de datos.

  • Si tiene una cuenta de Cloud Pak for Data as a Service existente, puede empezar con esta guía de aprendizaje. Si tiene una cuenta de plan Lite, sólo un usuario por cuenta puede ejecutar esta guía de aprendizaje.
  • Si todavía no tiene una cuenta de Cloud Pak for Data as a Service , regístrese para una prueba de entramado de datos.

Icono Vídeo Vea el siguiente vídeo para obtener más información sobre el entramado de datos en Cloud Pak for Data.

Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.

Verificar los servicios suministrados necesarios

vídeo tutorial de vista previa Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 01:06.

Siga estos pasos para verificar o suministrar los servicios necesarios:

  1. En el Cloud Pak for Data menú de navegación Menú de navegación, elija Servicios > Instancias de servicio.

  2. Utilice la lista desplegable Producto para determinar si existe una instancia de servicio de Data Virtualization existente.

  3. Si necesita crear una instancia de servicio de Data Virtualization , pulse Añadir servicio.

    1. Seleccione Data Virtualization.

    2. Seleccione el plan Lite.

    3. Pulse Crear.

  4. Espere mientras se suministra el servicio Data Virtualization , que puede tardar unos minutos en completarse.

  5. Repita estos pasos para verificar o suministrar los siguientes servicios adicionales:

    • IBM Knowledge Catalog
    • Cloud Object Storage

Icono de punto de comprobación Compruebe el progreso

La imagen siguiente muestra las instancias de servicio suministradas:

Servicio de suministro

Crear el proyecto de ejemplo

vídeo tutorial de vista previa Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 01:46.

Si ya tiene el proyecto de ejemplo para esta guía de aprendizaje, vaya a la Tarea 1. De lo contrario, siga estos pasos:

  1. Acceda al Proyecto de ejemplo de integración de datos en el concentrador de recursos.

  2. Pulse Crear proyecto.

  3. Si se le solicita que asocie el proyecto a una instancia de Cloud Object Storage, seleccione una instancia de Cloud Object Storage de la lista.

  4. Pulse Crear.

  5. Espere a que finalice la importación del proyecto y, a continuación, pulse Ver proyecto nuevo para verificar que el proyecto y los activos se han creado correctamente.

  6. Pulse el separador Activos para ver las conexiones y el flujo de DataStage .

Nota: Es posible que vea una visita guiada que muestra las guías de aprendizaje que se incluyen con este caso de uso. Los enlaces de la visita guiada abrirán estas instrucciones del tutorial.

Icono de punto de comprobación Compruebe el progreso

La imagen siguiente muestra el separador Activos en el proyecto de ejemplo. Ahora está preparado para iniciar la guía de aprendizaje.

Proyecto de ejemplo




Tarea 1: Verificar el catálogo de activos de Platform assets catalog

vídeo tutorial de vista previa Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 02:42.

Puede añadir conexiones a orígenes de datos externos a nivel de plataforma o a nivel de servicio. Cuando añade las conexiones a nivel de plataforma utilizando el Platform assets catalog, puede incluir fácilmente estas conexiones en proyectos, catálogos y orígenes de datos de Data Virtualization . Siga estos pasos para verificar el Platform assets catalog.

  1. En el Cloud Pak for Data menú de navegación Menú de navegación, elija Datos > Conexiones de plataforma.

  2. Si ve conexiones existentes, ya tiene un Platform assets catalogy puede saltar a la Tarea 2. Si no ve ninguna conexión, pero ve una opción para crear una nueva conexión, puede saltar a la Tarea 2.
    Botón Nueva conexión

  3. Si no tiene un Platform assets catalog, pulse Crear catálogo. Crear catálogo de activos de plataforma

  4. Seleccione un Cloud Object Storage en la lista.

  5. Acepte el valor predeterminado para Manejo de activos duplicados.

  6. Pulse Crear. Se muestra la página Conexiones de plataforma .

Icono de punto de comprobación Compruebe el progreso

La imagen siguiente muestra las conexiones de plataforma. Desde aquí, puede crear conexiones. Puesto que el proyecto de ejemplo incluye las conexiones, puede añadir las conexiones para los orígenes de datos externos a este catálogo desde el proyecto de ejemplo.

Platform assets catalog




Tarea 2: Añadir conexiones de datos al catálogo de activos de Platform assets catalog

vídeo tutorial de vista previa Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 03:22.

El proyecto de ejemplo de integración de datos incluye varias conexiones con orígenes de datos externos. A continuación, añada tres conexiones al Platform assets catalogy, a continuación, puede hacer que estas conexiones estén disponibles en Data Virtualization. Siga estos pasos para publicar las conexiones del proyecto de ejemplo en el Platform assets catalog.

  1. En el menú de navegación Cloud Pak for Data Menú de navegación, seleccione Proyectos > Ver todos los proyectos.

  2. Pulse el proyecto Integración de datos .

  3. Pulse la pestaña Activos.

  4. En Tipos de activo, pulse Acceso a datos > Conexiones.

  5. Seleccione los siguientes activos de conexión:

    • Data Fabric Prueba- Db2 Warehouse
    • Data Fabric Trial- MongoDB
    • Data Fabric de prueba- Databases for PostgreSQL
  6. Pulse Publicar en catálogo.

    1. Seleccione el Catálogo de activos de plataforma en la lista y pulse Siguiente.

    2. Revise los activos y pulse Publicar.

  7. En el Cloud Pak for Data menú de navegación Menú de navegación, elija Datos > Conexiones de plataforma para ver las tres conexiones que se publican en el catálogo.

Icono de punto de comprobación Compruebe el progreso

La imagen siguiente muestra las tres conexiones de plataforma. Ahora está preparado para añadir orígenes de datos.

Tres conexiones de plataforma




Tarea 3: Añadir orígenes de datos a Data Virtualization

vídeo tutorial de vista previa Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 04:05.

Ahora puede añadir estos orígenes de datos externos desde el Platform assets catalog a Data Virtualization. Siga estos pasos para añadir los orígenes de datos:

  1. En el Cloud Pak for Data menú de navegación Menú de navegación, elija Datos > Data virtualization.

    Nota: Si ve una notificación para Configurar un catálogo primario para aplicar el gobierno, puede cerrar esta notificación de forma segura. La configuración de un catálogo primario es opcional.
  2. En la página Orígenes de datos , en la Vista de tabla, pulse Añadir conexión > Conexión de plataforma existente.
    Añadir conexión existente

  3. Seleccione Data Fabric Trial- Db2 Warehouse.

  4. Pulse Añadir.

  5. Repita estos pasos para añadir las conexiones de Data Fabric Trial-Mongo DB y Data Fabric Trial- Databases for PostgreSQL .

Icono de punto de comprobación Compruebe el progreso

La imagen siguiente muestra los orígenes de datos. Ahora está preparado para crear una tabla virtual a partir de los datos almacenados en esos orígenes de datos externos.

Orígenes de datos




Tarea 4: Virtualizar tablas de datos

vídeo tutorial de vista previa Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 04:40.

Desea virtualizar las tablas MORTGAGE_APPLICATION, MORTGAGE_ASPIRANTEy CREDIT_SCORES . Más adelante, puede unir las dos primeras tablas virtuales con la tercera tabla para crear una nueva vista de unión virtual. Siga estos pasos para virtualizar las tablas de datos:

  1. En el menú de servicio, pulse Virtualización > Virtualizar.
    Virtualizar en el menú de servicio

  2. Si es necesario, cambie a la vista Tablas y espere mientras se cargan las tablas, lo que puede tardar hasta 30 segundos. Es posible que tenga que pulsar Renovar para ver la lista completa de tablas. Cuando vea Tablas disponibles, todas las tablas cargadas. El número de tablas puede variar.
    Virtualizar lista de tablas disponibles

  3. En la pestaña Tablas , filtre las tablas basándose en los criterios siguientes:

    1. Conector: IBM Db2 Warehouse y PostgreSQL

    2. Base de datos: Data Fabric Prueba- Db2 Warehouse y Data Fabric Prueba- Databases for PostgreSQL

    3. Esquema: BANKING

  4. Seleccione las tablas HIPOTECAGE_APPLICATION, HIPOTECAGE_ASPIRANTEy CREDIT_SCORE para virtualizar. Puede pasar el cursor por encima de un nombre de tabla para ver el nombre completo y verificar que está seleccionando los nombres de tabla correctos.

  5. Pulse Añadir a carro.

  6. Pulse Ver carro para ver la selección. Desde aquí, puede editar los nombres de tabla y esquema, o eliminar una selección del carro.

  7. Por ahora, desmarque el recuadro de selección situado junto a Asignar a proyecto. Esta acción hará que las tablas virtuales estén disponibles en la página Datos virtualizados .

  8. Pulse Virtualizar.

  9. Pulse Confirmar para empezar a virtualizar las tablas.

  10. Cuando se haya completado la virtualización, pulse Ir a datos virtualizados para ver la tabla recién creada.

Icono de punto de comprobación Compruebe el progreso

La imagen siguiente muestra la página Datos virtualizados . Ahora está preparado para crear una tabla virtual uniendo estas tablas virtuales.

Datos virtualizados




Tarea 5: Crear vistas de unión virtual uniéndose a tablas virtuales

Desea crear una vista de unión virtual uniéndose a las tablas virtuales MORTGAGE_ASPIRANTE y HIPOTECAGE_APPLICATION. A continuación, desea unir el objeto virtual resultante con la tabla virtual CREDIT_SCORE para crear una segunda vista de unión virtual.

Vista de unión virtual 1: Unirse a las tablas virtuales MORTGAGE_ASPIRANTE y MORTGAGE_APPLICATION

vídeo tutorial de vista previa Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 05:59.

Siga estos pasos para crear la primera vista de unión virtual:

  1. En la página Datos virtualizados , seleccione las tablas MORTGAGE_APPLICATION y MORTGAGE_ASPIRANTE para virtualizar.

  2. Anote el nombre de esquema. Necesitará ese nombre más adelante para ejecutar una consulta SQL.

  3. Pulse Unirse.

  4. En la lista de columnas de la tabla MORTGAGE_APPLICATION , arrastre para conectar la columna ID con la columna ID de la tabla MORTGAGE_ASPIRANTE .
    Unir objetos virtuales utilizando ID para clave

  5. Seleccione todas las columnas de ambas tablas.

  6. Pulse Vista previa para ver una vista previa de las tablas unidas.

  7. Cierre la ventana de vista previa.

  8. Pulse Abrir en editor SQLy, a continuación, pulse Continuar en el aviso de que no puede volver al lienzo de unión. El editor SQL le permite ejecutar consultas en el conjunto de datos. En este caso, desea obtener una vista previa de los registros que contendrá el conjunto de datos cuando filtre por candidatos de California.

    Abrir editor de SQL

    1. Copie el esquema y, a continuación, suprima la consulta existente. Tendrá que insertar el esquema en la siguiente sentencia SQL.

    2. Copie y pegue la siguiente sentencia SELECT para la nueva consulta. Sustituya <your schema> por el nombre de esquema que ha anotado anteriormente.

      SELECT * FROM <your-schema>.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
      

      La consulta tiene un aspecto similar a SELECT * FROM DV_IBMID_663002GN1Q.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
      Sentencia Select

    3. Pulse Ejecutar todo.

    4. Una vez completada la consulta, seleccione la consulta en el separador Historial . En la pestaña Resultados , puede ver que la tabla se filtra sólo a los candidatos del estado de California.

    5. Pulse Atrás para cerrar el editor SQL.

  9. Ahora que ha obtenido una vista previa del conjunto de datos filtrado en los solicitantes de California, añadirá este criterio de filtro a la vista de unión virtual. Para la tabla HIPOTECAGE_ASPIRANTE , copie y pegue la sentencia siguiente para los criterios de filtro. Sustituya <your schema> por el nombre de esquema que ha anotado anteriormente.

    "<your-schema>"."MORTGAGE_APPLICANT"."STATE_CODE"='CA'
    

    Los criterios de filtro son similares a los de "DV_IBMID_663002GN1Q". "MORTGAGE_ASPIRANTE". "STATE_CODE" = 'CA'

    Criterio de filtro

  10. Pulse Siguiente.

  11. Puede editar los nombres de columna para diferenciar entre columnas con el mismo nombre en ambas tablas. En este caso, mantenga los nombres de columna predeterminados y pulse Siguiente.

  12. En la página Asignar y revisar , para el Nombre de vista, escriba APPLICANTS_APPLICATIONS_JOINED.

  13. Por ahora, desmarque la opción Asignar a proyecto . Posteriormente, creará un objeto virtual y lo asignará al proyecto de integración de datos.

  14. Pulse Crear vista.

  15. Cuando se complete la virtualización, pulse Ir a datos virtualizados para ver la vista de unión recién creada.

Icono de punto de comprobación Compruebe el progreso

La imagen siguiente muestra la página Datos virtualizados . Ahora está preparado para crear una segunda vista de unión virtual.

Datos virtualizados

Vista de unión virtual 2: Unir las tablas virtuales APPLICANTS_APPLICATIONS_JOIN y CREDIT_SCORE

vídeo tutorial de vista previa Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 07:47.

Siga estos pasos para crear la segunda vista de unión virtual:

  1. En la página Datos virtualizados , seleccione las tablas APPLICANTS_APPLICATIONS_UNI y CREDIT_SCORE para virtualizar.

  2. Pulse Unirse.

  3. En la lista de columnas de la tabla APPLICANTS_APPLICATIONS_UNI , arrastre para conectar la columna EMAIL_ADDRESS con la columna EMAIL_ADDRESS de la tabla CREDIT_SCORE .

  4. Pulse Vista previa para ver una vista previa de las tablas unidas.

  5. Cierre la ventana de vista previa.

  6. Pulse Siguiente.

  7. Acepte los nombres de columna predeterminados y pulse Siguiente.

  8. En la página Asignar y revisar , para el Nombre de vista, escriba APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED.

  9. Esta vez, mantenga seleccionado Asignar a proyecto y, a continuación, elija el proyecto Integración de datos .

  10. Pulse Crear vista.

  11. Cuando se complete la virtualización, pulse Ir a datos virtualizados para ver la vista de unión recién creada.

Icono de punto de comprobación Compruebe el progreso

La imagen siguiente muestra la página Datos virtualizados . Ahora está preparado para trabajar con los datos virtuales del proyecto.

Datos virtualizados




Tarea 6: Generar una clave de API

vídeo tutorial de vista previa Para obtener una vista previa de esta tarea, vea el vídeo empezando por 08:27.

Debe proporcionar sus credenciales personales en forma de una clave de API para ver los activos virtualizados. Si todavía no tiene una clave de API guardada, siga estos pasos para crear una clave de API.

  1. Acceda a la página de claves de API en la consola de IBM Cloud . Inicie sesión si se le solicita.

  2. En la página Claves de API , pulse Crear una clave de API de IBM Cloud. Si tiene alguna clave de API existente, el botón se puede etiquetar como Crear.

  3. Escriba un nombre y una descripción.

  4. Pulse Crear.

  5. Copie la clave de API.

  6. Descargue la clave de API para su uso futuro.

Icono de punto de comprobación Compruebe el progreso

La imagen siguiente muestra la página de claves de API. Ahora está preparado para ver la tabla virtual en el proyecto.

Página Claves de API




Tarea 7: Acceder a la vista de unión virtual en el proyecto

vídeo tutorial de vista previa Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 09:01.

La tabla virtual se ha añadido al proyecto junto con una conexión a Data Virtualization. Siga estos pasos para abrir el proyecto para ver los datos virtuales y la información de conexión necesaria para acceder a los datos virtuales.

  1. Vuelva a Cloud Pak for Data. En el Menú de navegación Menú de navegación, seleccione Proyectos > Ver todos los proyectos.

  2. Abra el proyecto Integración de datos .

  3. Pulse la pestaña Activos.

  4. Abra cualquiera de los datos virtualizados. Por ejemplo, pulse el activo de datos que empieza por el nombre de esquema seguido de APPLICANTS_APPLICATIONS_CREDIT_SCORE_UNI para verlo.

  5. Proporcione sus credenciales para acceder al activo de datos.

  6. Para el Método de autenticación, seleccione Clave de API.

  7. Pegue la clave de API.
    Pegar clave de API

  8. Pulse Conectar.

  9. Desplácese por el activo de datos para ver todos los solicitantes del estado de California.

Icono de punto de comprobación Compruebe el progreso

La imagen siguiente muestra los datos virtuales en el proyecto. Ahora está preparado para analizar los datos virtuales.

Ver tabla virtual



Como ingeniero de datos de Golden Bank, ha utilizado Data Virtualization para combinar datos de distintos orígenes de datos y con distintos tipos. Ha utilizado la sintaxis SQL y ha accedido a los datos y los ha combinado sin movimiento de datos.


Limpieza (opcional)

Si desea volver a tomar las guías de aprendizaje en el caso de uso de integración de datos, suprima los artefactos siguientes.

Artefacto Cómo suprimir
Conexiones en el catálogo de activos de Platform assets catalog Eliminar un activo de un catálogo
Datos virtualizados Vaya a Datos > Data virtualization; en la página Datos virtualizados , acceda al menú Desbordamiento Menú de desbordamiento de una tabla y seleccione Eliminar.
Orígenes de datos Vaya a Datos > Data virtualization; en la página Orígenes de datos , pulse el icono Suprimir Suprimir para una conexión.
Proyecto de ejemplo de integración de datos Suprimir un proyecto

Próximos pasos

Más información

Tema padre: Guías de aprendizaje de casos de uso

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información