Siga esta guía de aprendizaje para virtualizar los datos almacenados en tres orígenes de datos externos con el caso de uso de integración de datos de la prueba de entramado de datos. Su objetivo es utilizar Data Virtualization para crear tablas virtuales y unirlas a partir de los datos existentes en tres fuentes de datos: un Db2 Warehouse, una base de datos PostgreSQL y una base de datos MongoDB. Si completó el tutorial Integrar datos, entonces realizó muchas de las mismas tareas utilizando DataStage que este tutorial logra utilizando Data Virtualization.
La historia de la guía de aprendizaje es que Golden Bank necesita cumplir con un nuevo reglamento por el que no puede realizar préstamos a los solicitantes de préstamos que no estén cualificados. Utilizará Data Virtualization para combinar datos de diferentes fuentes de datos sin movimiento de datos, y poner los datos virtuales a disposición de otros científicos de datos e ingenieros de datos en un proyecto.
La siguiente imagen animada proporciona una vista previa rápida de lo que logrará al final de este tutorial. Se conectará a orígenes de datos externos, creará tablas y vistas virtuales y las añadirá a un proyecto. Pulse la imagen para ver una imagen más grande.
Vista previa de la guía de aprendizaje
En esta guía de aprendizaje, realizará estas tareas:
- Configure los requisitos previos.
- Tarea 1: Verificar el catálogo de activos de Platform assets catalog.
- Tarea 2: Añadir conexiones de datos al catálogo de activos de Platform assets catalog.
- Tarea 3: Añadir fuentes de datos a Data Virtualization.
- Tarea 4: Virtualizar tablas de datos.
- Tarea 5: Crear vistas de unión virtual uniendo tablas virtuales.
- Tarea 6: Generar una clave de API.
- Tarea 7: Acceder a la vista de unión virtual en el proyecto.
- Limpieza (opcional)
Vea este vídeo para obtener una vista preliminar de los pasos de esta guía de aprendizaje. Puede haber pequeñas diferencias en la interfaz de usuario que se muestra en el vídeo. El vídeo está pensado para ser un compañero del tutorial escrito.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Sugerencias para completar esta guía de aprendizaje
Estas son algunas sugerencias para completar correctamente esta guía de aprendizaje.
Utilizar la imagen en imagen de vídeo
La siguiente imagen animada muestra cómo utilizar las características de imagen en imagen y tabla de contenido de vídeo:
Obtener ayuda en la comunidad
Si necesita ayuda con este tutorial, puede hacer una pregunta o encontrar una respuesta en el foro de debate de la Comunidad deCloud Pak for Data.
Configurar las ventanas del navegador
Para obtener la experiencia óptima al completar esta guía de aprendizaje, abra Cloud Pak for Data en una ventana de navegador y mantenga abierta esta página de la guía de aprendizaje en otra ventana de navegador para conmutar fácilmente entre las dos aplicaciones. Considere la posibilidad de organizar las dos ventanas del navegador una al lado de la otra para que sea más fácil de seguir.
Configurar los requisitos previos
Registro en Cloud Pak for Data as a Service
Debe registrarse en Cloud Pak for Data as a Service y suministrar los servicios necesarios para el caso de uso de integración de datos.
- Si tiene una cuenta de Cloud Pak for Data as a Service existente, puede empezar con esta guía de aprendizaje. Si tiene una cuenta de plan Lite, sólo un usuario por cuenta puede ejecutar esta guía de aprendizaje.
- Si todavía no tiene una cuenta de Cloud Pak for Data as a Service , regístrese para una prueba de entramado de datos.
' Vea el siguiente vídeo para aprender sobre el tejido de datos en Cloud Pak for Data.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Verificar los servicios suministrados necesarios
' Para previsualizar esta tarea, vea el vídeo que comienza en 01:06.
Siga estos pasos para verificar o suministrar los servicios necesarios:
En el menú de navegación ' , seleccione Servicios > Instancias de servicio.
Utilice la lista desplegable Producto para determinar si existe una instancia de servicio Data Virtualization.
Si necesita crear una instancia de servicio Data Virtualization, haga clic en Añadir servicio.
Seleccione Data Virtualization.
Seleccione el plan Lite.
Pulse Crear.
Espere mientras se aprovisiona el servicio de Data Virtualization, lo que puede tardar unos minutos en completarse.
Repita estos pasos para verificar o suministrar los siguientes servicios adicionales:
- IBM Knowledge Catalog
- Cloud Object Storage
' Comprueba tu progreso
La imagen siguiente muestra las instancias de servicio suministradas:
Crear el proyecto de ejemplo
' Para previsualizar esta tarea, vea el vídeo que comienza en 01:46.
Si ya tiene el proyecto de ejemplo para esta guía de aprendizaje, vaya a la Tarea 1. De lo contrario, siga estos pasos:
Acceda al proyecto de ejemplo Integración de datos en el centro de recursos.
Pulse Crear proyecto.
Si se le solicita que asocie el proyecto a una instancia de Cloud Object Storage, seleccione una instancia de Cloud Object Storage de la lista.
Pulse Crear.
Espere a que finalice la importación del proyecto y, a continuación, pulse Ver proyecto nuevo para verificar que el proyecto y los activos se han creado correctamente.
Pulse el separador Activos para ver las conexiones y el flujo de DataStage .
' Comprueba tu progreso
La imagen siguiente muestra el separador Activos en el proyecto de ejemplo. Ahora está preparado para iniciar la guía de aprendizaje.
Tarea 1: Verificar el catálogo de activos de Platform assets catalog
' Para previsualizar esta tarea, vea el vídeo que comienza en 02:42.
Puede añadir conexiones a orígenes de datos externos a nivel de plataforma o a nivel de servicio. Cuando añada las conexiones a nivel de plataforma utilizando el Platform assets catalog, podrá incluir fácilmente esas conexiones en proyectos, catálogos y fuentes de datos Data Virtualization. Siga estos pasos para verificar el Platform assets catalog.
En el menú de navegación ' , seleccione Datos > Conexiones de plataforma.
Si ve conexiones existentes, ya tiene un Platform assets catalogy puede saltar a la Tarea 2. Si no ve ninguna conexión, pero ve una opción para crear una nueva conexión, puede pasar a la Tarea 2.
Si no dispone de un Platform assets catalog, haga clic en Crear catálogo.
Seleccione un Cloud Object Storage en la lista.
Acepte el valor predeterminado para Manejo de activos duplicados.
Pulse Crear. Se muestra la página Conexiones de plataforma .
' Comprueba tu progreso
La imagen siguiente muestra las conexiones de plataforma. Desde aquí, puede crear conexiones. Puesto que el proyecto de ejemplo incluye las conexiones, puede añadir las conexiones para los orígenes de datos externos a este catálogo desde el proyecto de ejemplo.
Tarea 2: Añadir conexiones de datos al catálogo de activos de Platform assets catalog
' Para previsualizar esta tarea, vea el vídeo que comienza en 03:22.
El proyecto de ejemplo de integración de datos incluye varias conexiones con orígenes de datos externos. A continuación, añada tres conexiones al Platform assets catalog y, después, podrá hacer que estas conexiones estén disponibles en Data Virtualization. Siga estos pasos para publicar las conexiones del proyecto de ejemplo en el Platform assets catalog.
En el menú de navegación ' , seleccione Proyectos > Ver todos los proyectos.
Pulse el proyecto Integración de datos .
Pulse la pestaña Activos.
En Tipos de activo, pulse Acceso a datos > Conexiones.
Seleccione los siguientes activos de conexión:
- Data Fabric Prueba- Db2 Warehouse
- Data Fabric Trial- MongoDB
- Data Fabric de prueba- Databases for PostgreSQL
Pulse Publicar en catálogo.
Seleccione el Catálogo de activos de plataforma en la lista y pulse Siguiente.
Revise los activos y pulse Publicar.
En el menú de navegación ' , seleccione Datos > Conexiones de la plataforma para ver las tres conexiones publicadas en el catálogo.
' Comprueba tu progreso
La imagen siguiente muestra las tres conexiones de plataforma. Ahora está preparado para añadir orígenes de datos.
Tarea 3: Añadir fuentes de datos a Data Virtualization
' Para previsualizar esta tarea, vea el vídeo que comienza en 04:05.
Ahora puede añadir estas fuentes de datos externas desde el Platform assets catalog a Data Virtualization. Siga estos pasos para añadir los orígenes de datos:
En el menú de navegación ' , seleccione Datos > Data virtualization.
Nota: Si ve una notificación para Configurar un catálogo primario para aplicar el gobierno, puede cerrar esta notificación de forma segura. La configuración de un catálogo primario es opcional.En la página Fuentes de datos, en la vista Tabla, haga clic en Añadir conexión > Conexión de plataforma existente.
Seleccione Data Fabric Trial- Db2 Warehouse.
Pulse Añadir.
Repita estos pasos para añadir las conexiones de Data Fabric Trial-Mongo DB y Data Fabric Trial- Databases for PostgreSQL .
' Comprueba tu progreso
La imagen siguiente muestra los orígenes de datos. Ahora está preparado para crear una tabla virtual a partir de los datos almacenados en esos orígenes de datos externos.
Tarea 4: Virtualizar tablas de datos
' Para previsualizar esta tarea, vea el vídeo a partir del minuto 04:40.
Desea virtualizar las tablas MORTGAGE_APPLICATION, MORTGAGE_ASPIRANTEy CREDIT_SCORES . Más adelante, puede unir las dos primeras tablas virtuales con la tercera tabla para crear una nueva vista de unión virtual. Siga estos pasos para virtualizar las tablas de datos:
En el menú de servicios, haga clic en Virtualización > Virtualizar.
Si es necesario, cambie a la vista Tablas y espere mientras se cargan las tablas, lo que puede tardar hasta 30 segundos. Es posible que tenga que pulsar Renovar para ver la lista completa de tablas. Cuando vea Tablas disponibles, todas las tablas cargadas. El número de tablas puede variar.
En la pestaña Tablas , filtre las tablas basándose en los criterios siguientes:
Conector: IBM Db2 Warehouse y PostgreSQL
Base de datos: Data Fabric Prueba- Db2 Warehouse y Data Fabric Prueba- Databases for PostgreSQL
Esquema: BANKING
Seleccione las tablas HIPOTECAGE_APPLICATION, HIPOTECAGE_ASPIRANTEy CREDIT_SCORE para virtualizar. Puede pasar el cursor por encima de un nombre de tabla para ver el nombre completo y verificar que está seleccionando los nombres de tabla correctos.
Pulse Añadir a carro.
Pulse Ver carro para ver la selección. Desde aquí, puede editar los nombres de tabla y esquema, o eliminar una selección del carro.
Por ahora, desmarque el recuadro de selección situado junto a Asignar a proyecto. Esta acción hará que las tablas virtuales estén disponibles en la página Datos virtualizados .
Pulse Virtualizar.
Pulse Confirmar para empezar a virtualizar las tablas.
Cuando se haya completado la virtualización, pulse Ir a datos virtualizados para ver la tabla recién creada.
' Comprueba tu progreso
La imagen siguiente muestra la página Datos virtualizados . Ahora está preparado para crear una tabla virtual uniendo estas tablas virtuales.
Tarea 5: Crear vistas de unión virtual uniéndose a tablas virtuales
Desea crear una vista de unión virtual uniéndose a las tablas virtuales MORTGAGE_ASPIRANTE y HIPOTECAGE_APPLICATION. A continuación, desea unir el objeto virtual resultante con la tabla virtual CREDIT_SCORE para crear una segunda vista de unión virtual.
Vista de unión virtual 1: Unirse a las tablas virtuales MORTGAGE_ASPIRANTE y MORTGAGE_APPLICATION
' Para previsualizar esta tarea, vea el vídeo que comienza en 05:59.
Siga estos pasos para crear la primera vista de unión virtual:
En la página Datos virtualizados , seleccione las tablas MORTGAGE_APPLICATION y MORTGAGE_ASPIRANTE para virtualizar.
Anote el nombre de esquema. Necesitará ese nombre más adelante para ejecutar una consulta SQL.
Pulse Unirse.
En la lista de columnas de la tabla " SOLICITUD_DE_HIPOTECA ", arrastre para conectar la columna " ID " con la columna " ID " de la tabla " SOLICITANTE_HIPOTECA ".
Seleccione todas las columnas de ambas tablas.
Pulse Vista previa para ver una vista previa de las tablas unidas.
Cierre la ventana de vista previa.
Pulse Abrir en editor SQLy, a continuación, pulse Continuar en el aviso de que no puede volver al lienzo de unión. El editor SQL le permite ejecutar consultas en el conjunto de datos. En este caso, desea obtener una vista previa de los registros que contendrá el conjunto de datos cuando filtre por candidatos de California.
Copie el esquema y, a continuación, suprima la consulta existente. Tendrá que insertar el esquema en la siguiente sentencia SQL.
Copie y pegue la siguiente sentencia SELECT para la nueva consulta. Sustituya
<your schema>
por el nombre de esquema que ha anotado anteriormente.SELECT * FROM <your-schema>.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
Su consulta es similar a SELECT * FROM DV_IBMID_663002GN1Q.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
'Pulse Ejecutar todo.
Una vez completada la consulta, seleccione la consulta en el separador Historial . En la pestaña Resultados , puede ver que la tabla se filtra sólo a los candidatos del estado de California.
Pulse Atrás para cerrar el editor SQL.
Ahora que ha obtenido una vista previa del conjunto de datos filtrado en los solicitantes de California, añadirá este criterio de filtro a la vista de unión virtual. Para la tabla HIPOTECAGE_ASPIRANTE , copie y pegue la sentencia siguiente para los criterios de filtro. Sustituya
<your schema>
por el nombre de esquema que ha anotado anteriormente."<your-schema>"."MORTGAGE_APPLICANT"."STATE_CODE"='CA'
Sus criterios de filtrado son similares a "DV_IBMID_663002GN1Q". "MORTGAGE_APPLICANT". "STATE_CODE"='CA'
Pulse Siguiente.
Puede editar los nombres de columna para diferenciar entre columnas con el mismo nombre en ambas tablas. En este caso, mantenga los nombres de columna predeterminados y pulse Siguiente.
En la página Asignar y revisar , para el Nombre de vista, escriba
APPLICANTS_APPLICATIONS_JOINED
.Por ahora, desmarque la opción Asignar a proyecto . Posteriormente, creará un objeto virtual y lo asignará al proyecto de integración de datos.
Pulse Crear vista.
Cuando se complete la virtualización, pulse Ir a datos virtualizados para ver la vista de unión recién creada.
' Comprueba tu progreso
La imagen siguiente muestra la página Datos virtualizados . Ahora está preparado para crear una segunda vista de unión virtual.
Vista de unión virtual 2: Unir las tablas virtuales APPLICANTS_APPLICATIONS_JOIN y CREDIT_SCORE
' Para previsualizar esta tarea, vea el vídeo que comienza en 07:47.
Siga estos pasos para crear la segunda vista de unión virtual:
En la página Datos virtualizados , seleccione las tablas APPLICANTS_APPLICATIONS_UNI y CREDIT_SCORE para virtualizar.
Pulse Unirse.
En la lista de columnas de la tabla APPLICANTS_APPLICATIONS_UNI , arrastre para conectar la columna EMAIL_ADDRESS con la columna EMAIL_ADDRESS de la tabla CREDIT_SCORE .
Pulse Vista previa para ver una vista previa de las tablas unidas.
Cierre la ventana de vista previa.
Pulse Siguiente.
Acepte los nombres de columna predeterminados y pulse Siguiente.
En la página Asignar y revisar , para el Nombre de vista, escriba
APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED
.Esta vez, mantenga seleccionado Asignar a proyecto y, a continuación, elija el proyecto Integración de datos .
Pulse Crear vista.
Cuando se complete la virtualización, pulse Ir a datos virtualizados para ver la vista de unión recién creada.
' Comprueba tu progreso
La imagen siguiente muestra la página Datos virtualizados . Ahora está preparado para trabajar con los datos virtuales del proyecto.
Tarea 6: Generar una clave de API
' Para previsualizar esta tarea, vea el vídeo que comienza en 08:27.
Debe proporcionar sus credenciales personales en forma de una clave de API para ver los activos virtualizados. Si todavía no tiene una clave de API guardada, siga estos pasos para crear una clave de API.
Acceda a la página de claves de API en la consola IBM Cloud. Inicie sesión si se le solicita.
En la página Claves de API , pulse Crear una clave de API de IBM Cloud. Si tiene alguna clave de API existente, el botón se puede etiquetar como Crear.
Escriba un nombre y una descripción.
Pulse Crear.
Copie la clave de API.
Descargue la clave de API para su uso futuro.
' Comprueba tu progreso
La imagen siguiente muestra la página de claves de API. Ahora está preparado para ver la tabla virtual en el proyecto.
Tarea 7: Acceder a la vista de unión virtual en el proyecto
' Para previsualizar esta tarea, vea el vídeo que comienza en 09:01.
La tabla virtual se ha añadido a su proyecto junto con una conexión a Data Virtualization. Siga estos pasos para abrir el proyecto para ver los datos virtuales y la información de conexión necesaria para acceder a los datos virtuales.
Vuelva a Cloud Pak for Data. En el menú de navegación ' , seleccione Proyectos > Ver todos los proyectos.
Abra el proyecto Integración de datos .
Pulse la pestaña Activos.
Abra cualquiera de los datos virtualizados. Por ejemplo, pulse el activo de datos que empieza por el nombre de esquema seguido de APPLICANTS_APPLICATIONS_CREDIT_SCORE_UNI para verlo.
Proporcione sus credenciales para acceder al activo de datos.
Para el Método de autenticación, seleccione Clave de API.
Pegue su clave API.
Pulse Conectar.
Desplácese por el activo de datos para ver todos los solicitantes del estado de California.
' Comprueba tu progreso
La imagen siguiente muestra los datos virtuales en el proyecto. Ahora está preparado para analizar los datos virtuales.
Como ingeniero de datos en Golden Bank, ha utilizado Data Virtualization para combinar datos de distintas fuentes y con distintos tipos. Ha utilizado la sintaxis SQL y ha accedido a los datos y los ha combinado sin movimiento de datos.
Limpieza (opcional)
Si desea volver a tomar las guías de aprendizaje en el caso de uso de integración de datos, suprima los artefactos siguientes.
Artefacto | Cómo suprimir |
---|---|
Conexiones en el catálogo de activos de Platform assets catalog | Eliminar un bien de un catálogo |
Datos virtualizados | Vaya a Datos > Data virtualization; en la página de datos virtualizados, acceda al menú Desbordamiento ' de una tabla y seleccione Eliminar. |
Orígenes de datos | Vaya a Datos > Data virtualization; en la página Fuentes de datos, haga clic en el icono Eliminar ' de una conexión. |
Proyecto de ejemplo de integración de datos | Suprimir un proyecto |
Próximos pasos
Pruebe otras guías de aprendizaje:
Regístrese para otro caso de uso de entramado de datos.
Más información
Tema padre: Guías de aprendizaje de casos de uso