0 / 0
Volver a la versión inglesa de la documentación
Guía de aprendizaje de integración de datos: Virtualizar datos externos
Última actualización: 28 nov 2024
Guía de aprendizaje de integración de datos: Virtualizar datos externos

Siga esta guía de aprendizaje para virtualizar los datos almacenados en tres orígenes de datos externos con el caso de uso de integración de datos de la prueba de entramado de datos. Su objetivo es utilizar Data Virtualization para crear tablas virtuales y unirlas a partir de los datos existentes en tres fuentes de datos: un Db2 Warehouse, una base de datos PostgreSQL y una base de datos MongoDB. Si completó el tutorial Integrar datos, entonces realizó muchas de las mismas tareas utilizando DataStage que este tutorial logra utilizando Data Virtualization.

Inicio rápido: Si todavía no ha creado el proyecto de ejemplo para esta guía de aprendizaje, acceda al Proyecto de ejemplo de integración de datos en el concentrador de recursos.

La historia de la guía de aprendizaje es que Golden Bank necesita cumplir con un nuevo reglamento por el que no puede realizar préstamos a los solicitantes de préstamos que no estén cualificados. Utilizará Data Virtualization para combinar datos de diferentes fuentes de datos sin movimiento de datos, y poner los datos virtuales a disposición de otros científicos de datos e ingenieros de datos en un proyecto.

La siguiente imagen animada proporciona una vista previa rápida de lo que logrará al final de este tutorial. Se conectará a orígenes de datos externos, creará tablas y vistas virtuales y las añadirá a un proyecto. Pulse la imagen para ver una imagen más grande.

Imagen animada

Vista previa de la guía de aprendizaje

En esta guía de aprendizaje, realizará estas tareas:

Ver vídeo Vea este vídeo para obtener una vista preliminar de los pasos de esta guía de aprendizaje. Puede haber pequeñas diferencias en la interfaz de usuario que se muestra en el vídeo. El vídeo está pensado para ser un compañero del tutorial escrito.

Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.





Sugerencias para completar esta guía de aprendizaje
Estas son algunas sugerencias para completar correctamente esta guía de aprendizaje.

Utilizar la imagen en imagen de vídeo

Sugerencia: Inicie el vídeo y, a continuación, a medida que se desplaza por el tutorial, el vídeo pasa al modo de imagen en imagen. Cierre la tabla de contenido de vídeo para obtener la mejor experiencia con la imagen en imagen. Puede utilizar el modo de imagen en imagen para poder seguir el vídeo mientras completa las tareas de este tutorial. Pulse las indicaciones de fecha y hora para cada tarea a seguir.

La siguiente imagen animada muestra cómo utilizar las características de imagen en imagen y tabla de contenido de vídeo:

Cómo utilizar la imagen en la imagen y los capítulos

Obtener ayuda en la comunidad

Si necesita ayuda con este tutorial, puede hacer una pregunta o encontrar una respuesta en el foro de debate de la Comunidad deCloud Pak for Data.

Configurar las ventanas del navegador

Para obtener la experiencia óptima al completar esta guía de aprendizaje, abra Cloud Pak for Data en una ventana de navegador y mantenga abierta esta página de la guía de aprendizaje en otra ventana de navegador para conmutar fácilmente entre las dos aplicaciones. Considere la posibilidad de organizar las dos ventanas del navegador una al lado de la otra para que sea más fácil de seguir.

Guía de aprendizaje en paralelo e interfaz de usuario

Sugerencia: Si encuentra una visita guiada al completar esta guía de aprendizaje en la interfaz de usuario, pulse Quizás más tarde.



Configurar los requisitos previos

Registro en Cloud Pak for Data as a Service

Debe registrarse en Cloud Pak for Data as a Service y suministrar los servicios necesarios para el caso de uso de integración de datos.

  • Si tiene una cuenta de Cloud Pak for Data as a Service existente, puede empezar con esta guía de aprendizaje. Si tiene una cuenta de plan Lite, sólo un usuario por cuenta puede ejecutar esta guía de aprendizaje.
  • Si todavía no tiene una cuenta de Cloud Pak for Data as a Service , regístrese para una prueba de entramado de datos.

Icono Vídeo ' Vea el siguiente vídeo para aprender sobre el tejido de datos en Cloud Pak for Data.

Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.

Verificar los servicios suministrados necesarios

vídeo tutorial de vista previa ' Para previsualizar esta tarea, vea el vídeo que comienza en 01:06.

Siga estos pasos para verificar o suministrar los servicios necesarios:

  1. En el menú de navegación ' Menú de navegación, seleccione Servicios > Instancias de servicio.

  2. Utilice la lista desplegable Producto para determinar si existe una instancia de servicio Data Virtualization.

  3. Si necesita crear una instancia de servicio Data Virtualization, haga clic en Añadir servicio.

    1. Seleccione Data Virtualization.

    2. Seleccione el plan Lite.

    3. Pulse Crear.

  4. Espere mientras se aprovisiona el servicio de Data Virtualization, lo que puede tardar unos minutos en completarse.

  5. Repita estos pasos para verificar o suministrar los siguientes servicios adicionales:

    • IBM Knowledge Catalog
    • Cloud Object Storage

Icono de punto de comprobación ' Comprueba tu progreso

La imagen siguiente muestra las instancias de servicio suministradas:

Servicio de suministro

Crear el proyecto de ejemplo

vídeo tutorial de vista previa ' Para previsualizar esta tarea, vea el vídeo que comienza en 01:46.

Si ya tiene el proyecto de ejemplo para esta guía de aprendizaje, vaya a la Tarea 1. De lo contrario, siga estos pasos:

  1. Acceda al proyecto de ejemplo Integración de datos en el centro de recursos.

  2. Pulse Crear proyecto.

  3. Si se le solicita que asocie el proyecto a una instancia de Cloud Object Storage, seleccione una instancia de Cloud Object Storage de la lista.

  4. Pulse Crear.

  5. Espere a que finalice la importación del proyecto y, a continuación, pulse Ver proyecto nuevo para verificar que el proyecto y los activos se han creado correctamente.

  6. Pulse el separador Activos para ver las conexiones y el flujo de DataStage .

Nota: Es posible que vea una visita guiada que muestra las guías de aprendizaje que se incluyen con este caso de uso. Los enlaces de la visita guiada abrirán estas instrucciones del tutorial.

Icono de punto de comprobación ' Comprueba tu progreso

La imagen siguiente muestra el separador Activos en el proyecto de ejemplo. Ahora está preparado para iniciar la guía de aprendizaje.

Proyecto de ejemplo




Tarea 1: Verificar el catálogo de activos de Platform assets catalog

vídeo tutorial de vista previa ' Para previsualizar esta tarea, vea el vídeo que comienza en 02:42.

Puede añadir conexiones a orígenes de datos externos a nivel de plataforma o a nivel de servicio. Cuando añada las conexiones a nivel de plataforma utilizando el Platform assets catalog, podrá incluir fácilmente esas conexiones en proyectos, catálogos y fuentes de datos Data Virtualization. Siga estos pasos para verificar el Platform assets catalog.

  1. En el menú de navegación ' Menú de navegación, seleccione Datos > Conexiones de plataforma.

  2. Si ve conexiones existentes, ya tiene un Platform assets catalogy puede saltar a la Tarea 2. Si no ve ninguna conexión, pero ve una opción para crear una nueva conexión, puede pasar a la Tarea 2.
    Botón Nueva conexión

  3. Si no dispone de un Platform assets catalog, haga clic en Crear catálogo. Crear catálogo de activos de plataforma

  4. Seleccione un Cloud Object Storage en la lista.

  5. Acepte el valor predeterminado para Manejo de activos duplicados.

  6. Pulse Crear. Se muestra la página Conexiones de plataforma .

Icono de punto de comprobación ' Comprueba tu progreso

La imagen siguiente muestra las conexiones de plataforma. Desde aquí, puede crear conexiones. Puesto que el proyecto de ejemplo incluye las conexiones, puede añadir las conexiones para los orígenes de datos externos a este catálogo desde el proyecto de ejemplo.

Platform assets catalog




Tarea 2: Añadir conexiones de datos al catálogo de activos de Platform assets catalog

vídeo tutorial de vista previa ' Para previsualizar esta tarea, vea el vídeo que comienza en 03:22.

El proyecto de ejemplo de integración de datos incluye varias conexiones con orígenes de datos externos. A continuación, añada tres conexiones al Platform assets catalog y, después, podrá hacer que estas conexiones estén disponibles en Data Virtualization. Siga estos pasos para publicar las conexiones del proyecto de ejemplo en el Platform assets catalog.

  1. En el menú de navegación ' Menú de navegación, seleccione Proyectos > Ver todos los proyectos.

  2. Pulse el proyecto Integración de datos .

  3. Pulse la pestaña Activos.

  4. En Tipos de activo, pulse Acceso a datos > Conexiones.

  5. Seleccione los siguientes activos de conexión:

    • Data Fabric Prueba- Db2 Warehouse
    • Data Fabric Trial- MongoDB
    • Data Fabric de prueba- Databases for PostgreSQL
  6. Pulse Publicar en catálogo.

    1. Seleccione el Catálogo de activos de plataforma en la lista y pulse Siguiente.

    2. Revise los activos y pulse Publicar.

  7. En el menú de navegación ' Menú de navegación, seleccione Datos > Conexiones de la plataforma para ver las tres conexiones publicadas en el catálogo.

Icono de punto de comprobación ' Comprueba tu progreso

La imagen siguiente muestra las tres conexiones de plataforma. Ahora está preparado para añadir orígenes de datos.

Tres conexiones de plataforma




Tarea 3: Añadir fuentes de datos a Data Virtualization

vídeo tutorial de vista previa ' Para previsualizar esta tarea, vea el vídeo que comienza en 04:05.

Ahora puede añadir estas fuentes de datos externas desde el Platform assets catalog a Data Virtualization. Siga estos pasos para añadir los orígenes de datos:

  1. En el menú de navegación ' Menú de navegación, seleccione Datos > Data virtualization.

    Nota: Si ve una notificación para Configurar un catálogo primario para aplicar el gobierno, puede cerrar esta notificación de forma segura. La configuración de un catálogo primario es opcional.
  2. En la página Fuentes de datos, en la vista Tabla, haga clic en Añadir conexión > Conexión de plataforma existente.
    Añadir conexión existente

  3. Seleccione Data Fabric Trial- Db2 Warehouse.

  4. Pulse Añadir.

  5. Repita estos pasos para añadir las conexiones de Data Fabric Trial-Mongo DB y Data Fabric Trial- Databases for PostgreSQL .

Icono de punto de comprobación ' Comprueba tu progreso

La imagen siguiente muestra los orígenes de datos. Ahora está preparado para crear una tabla virtual a partir de los datos almacenados en esos orígenes de datos externos.

Orígenes de datos




Tarea 4: Virtualizar tablas de datos

vídeo tutorial de vista previa ' Para previsualizar esta tarea, vea el vídeo a partir del minuto 04:40.

Desea virtualizar las tablas MORTGAGE_APPLICATION, MORTGAGE_ASPIRANTEy CREDIT_SCORES . Más adelante, puede unir las dos primeras tablas virtuales con la tercera tabla para crear una nueva vista de unión virtual. Siga estos pasos para virtualizar las tablas de datos:

  1. En el menú de servicios, haga clic en Virtualización > Virtualizar.
    Virtualizar en el menú de servicio

  2. Si es necesario, cambie a la vista Tablas y espere mientras se cargan las tablas, lo que puede tardar hasta 30 segundos. Es posible que tenga que pulsar Renovar para ver la lista completa de tablas. Cuando vea Tablas disponibles, todas las tablas cargadas. El número de tablas puede variar.
    Virtualizar lista de tablas disponibles

  3. En la pestaña Tablas , filtre las tablas basándose en los criterios siguientes:

    1. Conector: IBM Db2 Warehouse y PostgreSQL

    2. Base de datos: Data Fabric Prueba- Db2 Warehouse y Data Fabric Prueba- Databases for PostgreSQL

    3. Esquema: BANKING

  4. Seleccione las tablas HIPOTECAGE_APPLICATION, HIPOTECAGE_ASPIRANTEy CREDIT_SCORE para virtualizar. Puede pasar el cursor por encima de un nombre de tabla para ver el nombre completo y verificar que está seleccionando los nombres de tabla correctos.

  5. Pulse Añadir a carro.

  6. Pulse Ver carro para ver la selección. Desde aquí, puede editar los nombres de tabla y esquema, o eliminar una selección del carro.

  7. Por ahora, desmarque el recuadro de selección situado junto a Asignar a proyecto. Esta acción hará que las tablas virtuales estén disponibles en la página Datos virtualizados .

  8. Pulse Virtualizar.

  9. Pulse Confirmar para empezar a virtualizar las tablas.

  10. Cuando se haya completado la virtualización, pulse Ir a datos virtualizados para ver la tabla recién creada.

Icono de punto de comprobación ' Comprueba tu progreso

La imagen siguiente muestra la página Datos virtualizados . Ahora está preparado para crear una tabla virtual uniendo estas tablas virtuales.

Datos virtualizados




Tarea 5: Crear vistas de unión virtual uniéndose a tablas virtuales

Desea crear una vista de unión virtual uniéndose a las tablas virtuales MORTGAGE_ASPIRANTE y HIPOTECAGE_APPLICATION. A continuación, desea unir el objeto virtual resultante con la tabla virtual CREDIT_SCORE para crear una segunda vista de unión virtual.

Vista de unión virtual 1: Unirse a las tablas virtuales MORTGAGE_ASPIRANTE y MORTGAGE_APPLICATION

vídeo tutorial de vista previa ' Para previsualizar esta tarea, vea el vídeo que comienza en 05:59.

Siga estos pasos para crear la primera vista de unión virtual:

  1. En la página Datos virtualizados , seleccione las tablas MORTGAGE_APPLICATION y MORTGAGE_ASPIRANTE para virtualizar.

  2. Anote el nombre de esquema. Necesitará ese nombre más adelante para ejecutar una consulta SQL.

  3. Pulse Unirse.

  4. En la lista de columnas de la tabla " SOLICITUD_DE_HIPOTECA ", arrastre para conectar la columna " ID " con la columna " ID " de la tabla " SOLICITANTE_HIPOTECA ".
    Unir objetos virtuales utilizando ID para clave

  5. Seleccione todas las columnas de ambas tablas.

  6. Pulse Vista previa para ver una vista previa de las tablas unidas.

  7. Cierre la ventana de vista previa.

  8. Pulse Abrir en editor SQLy, a continuación, pulse Continuar en el aviso de que no puede volver al lienzo de unión. El editor SQL le permite ejecutar consultas en el conjunto de datos. En este caso, desea obtener una vista previa de los registros que contendrá el conjunto de datos cuando filtre por candidatos de California.

    Abrir editor de SQL

    1. Copie el esquema y, a continuación, suprima la consulta existente. Tendrá que insertar el esquema en la siguiente sentencia SQL.

    2. Copie y pegue la siguiente sentencia SELECT para la nueva consulta. Sustituya <your schema> por el nombre de esquema que ha anotado anteriormente.

      SELECT * FROM <your-schema>.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
      

      Su consulta es similar a SELECT * FROM DV_IBMID_663002GN1Q.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
      ' Sentencia Select

    3. Pulse Ejecutar todo.

    4. Una vez completada la consulta, seleccione la consulta en el separador Historial . En la pestaña Resultados , puede ver que la tabla se filtra sólo a los candidatos del estado de California.

    5. Pulse Atrás para cerrar el editor SQL.

  9. Ahora que ha obtenido una vista previa del conjunto de datos filtrado en los solicitantes de California, añadirá este criterio de filtro a la vista de unión virtual. Para la tabla HIPOTECAGE_ASPIRANTE , copie y pegue la sentencia siguiente para los criterios de filtro. Sustituya <your schema> por el nombre de esquema que ha anotado anteriormente.

    "<your-schema>"."MORTGAGE_APPLICANT"."STATE_CODE"='CA'
    

    Sus criterios de filtrado son similares a "DV_IBMID_663002GN1Q". "MORTGAGE_APPLICANT". "STATE_CODE"='CA'

    Criterios de filtro

  10. Pulse Siguiente.

  11. Puede editar los nombres de columna para diferenciar entre columnas con el mismo nombre en ambas tablas. En este caso, mantenga los nombres de columna predeterminados y pulse Siguiente.

  12. En la página Asignar y revisar , para el Nombre de vista, escriba APPLICANTS_APPLICATIONS_JOINED.

  13. Por ahora, desmarque la opción Asignar a proyecto . Posteriormente, creará un objeto virtual y lo asignará al proyecto de integración de datos.

  14. Pulse Crear vista.

  15. Cuando se complete la virtualización, pulse Ir a datos virtualizados para ver la vista de unión recién creada.

Icono de punto de comprobación ' Comprueba tu progreso

La imagen siguiente muestra la página Datos virtualizados . Ahora está preparado para crear una segunda vista de unión virtual.

Datos virtualizados

Vista de unión virtual 2: Unir las tablas virtuales APPLICANTS_APPLICATIONS_JOIN y CREDIT_SCORE

vídeo tutorial de vista previa ' Para previsualizar esta tarea, vea el vídeo que comienza en 07:47.

Siga estos pasos para crear la segunda vista de unión virtual:

  1. En la página Datos virtualizados , seleccione las tablas APPLICANTS_APPLICATIONS_UNI y CREDIT_SCORE para virtualizar.

  2. Pulse Unirse.

  3. En la lista de columnas de la tabla APPLICANTS_APPLICATIONS_UNI , arrastre para conectar la columna EMAIL_ADDRESS con la columna EMAIL_ADDRESS de la tabla CREDIT_SCORE .

  4. Pulse Vista previa para ver una vista previa de las tablas unidas.

  5. Cierre la ventana de vista previa.

  6. Pulse Siguiente.

  7. Acepte los nombres de columna predeterminados y pulse Siguiente.

  8. En la página Asignar y revisar , para el Nombre de vista, escriba APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED.

  9. Esta vez, mantenga seleccionado Asignar a proyecto y, a continuación, elija el proyecto Integración de datos .

  10. Pulse Crear vista.

  11. Cuando se complete la virtualización, pulse Ir a datos virtualizados para ver la vista de unión recién creada.

Icono de punto de comprobación ' Comprueba tu progreso

La imagen siguiente muestra la página Datos virtualizados . Ahora está preparado para trabajar con los datos virtuales del proyecto.

Datos virtualizados




Tarea 6: Generar una clave de API

vídeo tutorial de vista previa ' Para previsualizar esta tarea, vea el vídeo que comienza en 08:27.

Debe proporcionar sus credenciales personales en forma de una clave de API para ver los activos virtualizados. Si todavía no tiene una clave de API guardada, siga estos pasos para crear una clave de API.

  1. Acceda a la página de claves de API en la consola IBM Cloud. Inicie sesión si se le solicita.

  2. En la página Claves de API , pulse Crear una clave de API de IBM Cloud. Si tiene alguna clave de API existente, el botón se puede etiquetar como Crear.

  3. Escriba un nombre y una descripción.

  4. Pulse Crear.

  5. Copie la clave de API.

  6. Descargue la clave de API para su uso futuro.

Icono de punto de comprobación ' Comprueba tu progreso

La imagen siguiente muestra la página de claves de API. Ahora está preparado para ver la tabla virtual en el proyecto.

Página Claves de API




Tarea 7: Acceder a la vista de unión virtual en el proyecto

vídeo tutorial de vista previa ' Para previsualizar esta tarea, vea el vídeo que comienza en 09:01.

La tabla virtual se ha añadido a su proyecto junto con una conexión a Data Virtualization. Siga estos pasos para abrir el proyecto para ver los datos virtuales y la información de conexión necesaria para acceder a los datos virtuales.

  1. Vuelva a Cloud Pak for Data. En el menú de navegación ' Menú de navegación, seleccione Proyectos > Ver todos los proyectos.

  2. Abra el proyecto Integración de datos .

  3. Pulse la pestaña Activos.

  4. Abra cualquiera de los datos virtualizados. Por ejemplo, pulse el activo de datos que empieza por el nombre de esquema seguido de APPLICANTS_APPLICATIONS_CREDIT_SCORE_UNI para verlo.

  5. Proporcione sus credenciales para acceder al activo de datos.

  6. Para el Método de autenticación, seleccione Clave de API.

  7. Pegue su clave API.
    Pegar clave de API

  8. Pulse Conectar.

  9. Desplácese por el activo de datos para ver todos los solicitantes del estado de California.

Icono de punto de comprobación ' Comprueba tu progreso

La imagen siguiente muestra los datos virtuales en el proyecto. Ahora está preparado para analizar los datos virtuales.

Ver tabla virtual



Como ingeniero de datos en Golden Bank, ha utilizado Data Virtualization para combinar datos de distintas fuentes y con distintos tipos. Ha utilizado la sintaxis SQL y ha accedido a los datos y los ha combinado sin movimiento de datos.


Limpieza (opcional)

Si desea volver a tomar las guías de aprendizaje en el caso de uso de integración de datos, suprima los artefactos siguientes.

Artefacto Cómo suprimir
Conexiones en el catálogo de activos de Platform assets catalog Eliminar un bien de un catálogo
Datos virtualizados Vaya a Datos > Data virtualization; en la página de datos virtualizados, acceda al menú Desbordamiento ' Menú de desbordamiento de una tabla y seleccione Eliminar.
Orígenes de datos Vaya a Datos > Data virtualization; en la página Fuentes de datos, haga clic en el icono Eliminar ' Suprimir de una conexión.
Proyecto de ejemplo de integración de datos Suprimir un proyecto

Próximos pasos

Más información

Tema padre: Guías de aprendizaje de casos de uso

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información