Suivez ce tutoriel pour virtualiser les données stockées dans trois sources de données externes avec le cas d'utilisation d'intégration de données de l'essai de matrice de données. Votre objectif est d'utiliser la Data Virtualization pour créer des tables virtuelles et joindre les tables virtuelles à partir des données existantes qui se trouvent dans trois sources de données : un Db2 Warehouse, une base de données PostgreSQL et une base de données MongoDB. Si vous avez suivi le tutoriel Intégrer des données, vous avez effectué la plupart des tâches à l'aide de DataStage que ce tutoriel accomplit à l'aide de la Data Virtualization.
Le cas d'utilisation de ce tutoriel est que la Golden Bank doit se conformer à un nouveau règlement lorsqu'elle ne peut pas prêter à des demandeurs de prêt sous-qualifiés. Vous utiliserez la Data Virtualization pour combiner des données provenant de différentes sources de données sans déplacement de données, et mettre les données virtuelles à la disposition d'autres data scientists et data engineers dans le cadre d'un projet.
L'image animée suivante fournit un aperçu rapide de ce que vous allez accomplir à la fin de ce tutoriel. Vous allez vous connecter à des sources de données externes, créer des tables et des vues virtuelles et les ajouter à un projet. Cliquez sur l'image pour afficher une image plus grande.
Aperçu du tutoriel
Dans ce tutoriel, vous exécutez les tâches suivantes :
- Configurez les prérequis.
- Tâche 1: Vérifier le catalogue d'actifs Platform assets catalog.
- Tâche 2: Ajouter des connexions de données au catalogue d'actifs Platform assets catalog.
- Tâche 3 : Ajouter des sources de données à la Data Virtualization.
- Tâche 4: Virtualiser les tables de données.
- Tâche 5: Créer des vues de jointure virtuelle en joignant des tables virtuelles.
- Tâche 6: Générer une clé d'API.
- Tâche 7: Accédez à la vue de jointure virtuelle dans le projet.
- Nettoyage (facultatif)
Regardez cette vidéo pour prévisualiser les étapes de ce tutoriel. Il peut y avoir de légères différences dans l'interface utilisateur affichée dans la vidéo. La vidéo est destinée à être un compagnon du tutoriel écrit.
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Conseils pour l'exécution de ce tutoriel
Voici quelques conseils pour réussir ce tutoriel.
Utiliser la vidéo image-in-picture
L'image animée suivante montre comment utiliser les fonctions d'image vidéo et de table des matières:
Obtenir de l'aide dans la communauté
Si vous avez besoin d'aide pour ce tutoriel, vous pouvez poser une question ou trouver une réponse dans le forum de discussion de la communautéCloud Pak for Data.
Configurez les fenêtres de votre navigateur
Pour une expérience optimale lors de l'exécution de ce tutoriel, ouvrez Cloud Pak for Data dans une fenêtre de navigateur et laissez cette page de tutoriel ouverte dans une autre fenêtre de navigateur pour basculer facilement entre les deux applications. Envisagez d'organiser les deux fenêtres du navigateur côte à côte pour faciliter le suivi.
Configuration des prérequis
Inscription à Cloud Pak for Data as a Service (en anglais)
Vous devez vous inscrire à Cloud Pak for Data as a Service et mettre à disposition les services nécessaires pour le cas d'utilisation d'intégration de données.
- Si vous disposez d'un compte Cloud Pak for Data as a Service existant, vous pouvez utiliser ce tutoriel. Si vous disposez d'un compte de plan Lite, un seul utilisateur par compte peut exécuter ce tutoriel.
- Si vous ne disposez pas encore d'un compte Cloud Pak for Data as a Service , inscrivez-vous à un essai de matrice de données.
Regardez la vidéo suivante pour en savoir plus sur le data fabric dans Cloud Pak for Data.
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Vérifiez les services mis à disposition nécessaires
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 01:06.
Procédez comme suit pour vérifier ou mettre à disposition les services nécessaires:
Dans le menu de navigation " , choisissez Services > Instances de service.
Utilisez la liste déroulante Produit pour déterminer s'il existe une instance de service de Data Virtualization.
Si vous devez créer une instance de service de Data Virtualization, cliquez sur Ajouter un service.
Sélectionnez Data Virtualization.
Sélectionnez le plan Lite .
Cliquez sur Créer.
Attendez que le service de Data Virtualization soit provisionné, ce qui peut prendre quelques minutes.
Répétez ces étapes pour vérifier ou mettre à disposition les services supplémentaires suivants :
- IBM Knowledge Catalog
- Cloud Object Storage
Vérifier votre progression
L'image suivante montre les instances de service mises à disposition:
Créez l'exemple de projet
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 01:46.
Si vous disposez déjà de l'exemple de projet pour ce tutoriel, passez à la Tâche 1. Sinon, procédez comme suit :
Accédez au projet d'exemple d'intégration de données dans le centre de ressources.
Cliquez sur Créer un projet.
Si vous êtes invité à associer le projet à une instance Cloud Object Storage, sélectionnez une instance Cloud Object Storage dans la liste.
Cliquez sur Créer.
Attendez que l'importation du projet soit terminée, puis cliquez sur Afficher le nouveau projet pour vérifier que le projet et les actifs ont été créés avec succès.
Cliquez sur l'onglet Actifs pour afficher les connexions et le flux DataStage .
Vérifier votre progression
L'image suivante montre l'onglet Actifs dans l'exemple de projet. Vous êtes maintenant prêt à démarrer le tutoriel.
Tâche 1: Vérifier le Platform assets catalog
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 02:42.
Vous pouvez ajouter des connexions à des sources de données externes au niveau de la plateforme ou du service. Lorsque vous ajoutez les connexions au niveau de la plate-forme en utilisant le Platform assets catalog, vous pouvez facilement inclure ces connexions dans les projets, les catalogues et les sources de données de la Data Virtualization. Procédez comme suit pour vérifier le Platform assets catalog.
Dans le menu de navigation " , choisissez Données > Connexions de plate-forme.
Si vous voyez des connexions existantes, vous disposez déjà d'un Platform assets cataloget vous pouvez passer à la Tâche 2. Si vous ne voyez aucune connexion, mais que vous avez la possibilité d'en créer une nouvelle, vous pouvez passer à la tâche 2.
Si vous n'avez pas de Platform assets catalog, cliquez sur Créer un catalogue.
Sélectionnez un Cloud Object Storage dans la liste.
Acceptez la valeur par défaut pour Traitement des actifs en double.
Cliquez sur Créer. La page Connexions de plateforme s'affiche.
Vérifier votre progression
L'image suivante montre les connexions de plateforme. A partir de là, vous pouvez créer des connexions. Etant donné que l'exemple de projet inclut les connexions, vous pouvez ajouter les connexions pour les sources de données externes à ce catalogue à partir de l'exemple de projet.
Tâche 2: Ajouter des connexions de données au Platform assets catalog
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 03:22.
L'exemple de projet d'intégration de données inclut plusieurs connexions à des sources de données externes. Ensuite, vous ajoutez trois connexions au Platform assets catalog, puis vous pouvez rendre ces connexions disponibles dans la Data Virtualization. Procédez comme suit pour publier les connexions de l'exemple de projet dans le Platform assets catalog.
Dans le menu de navigation " , choisissez Projets > Afficher tous les projets.
Cliquez sur le projet Intégration de données .
Cliquez sur l'onglet Actifs.
Sous Types d'actif, cliquez sur Accès aux données > Connexions.
Sélectionnez les actifs de connexion suivants:
- Data Fabric -Version d'essai- Db2 Warehouse
- Data Fabric -Version d'essai- MongoDB
- Data Fabric - Databases for PostgreSQL
Cliquez sur Publier dans le catalogue.
Sélectionnez le catalogue des actifs de plateforme dans la liste, puis cliquez sur Suivant.
Passez en revue les actifs et cliquez sur Publier.
Dans le menu de navigation " , choisissez Données > Connexions de la plate-forme pour voir les trois connexions publiées dans le catalogue.
Vérifier votre progression
L'image suivante montre les trois connexions de plateforme. Vous êtes maintenant prêt à ajouter des sources de données.
Tâche 3 : Ajouter des sources de données à la Data Virtualization
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 04:05.
Vous pouvez maintenant ajouter ces sources de données externes du Platform assets catalog à la Data Virtualization. Pour ajouter les sources de données, procédez comme suit:
Dans le menu de navigation ', choisissez Données > Data virtualization.
Remarque: si vous voyez une notification indiquant de configurer un catalogue principal pour appliquer la gouvernance, vous pouvez fermer cette notification en toute sécurité. La configuration d'un catalogue principal est facultative.Sur la page Sources de données, dans la vue Tableau, cliquez sur Ajouter une connexion > Connexion à une plate-forme existante.
'Sélectionnez Data Fabric Trial- Db2 Warehouse.
Cliquez sur Ajouter.
Répétez ces étapes pour ajouter les connexions Data Fabric Trial-Mongo DB et Data Fabric Trial- Databases for PostgreSQL .
Vérifier votre progression
L'image suivante montre les sources de données. Vous êtes maintenant prêt à créer une table virtuelle à partir des données stockées dans ces sources de données externes.
Tâche 4: Virtualiser les tables de données
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 04:40.
Vous souhaitez virtualiser les tables MORTGAGE_APPLICATION, MORTGAGE_APPLICANTet CREDIT_SCORES . Par la suite, vous pouvez joindre les deux premières tables virtuelles à la troisième table pour créer une nouvelle vue de jointure virtuelle. Pour virtualiser les tables de données, procédez comme suit:
Dans le menu de service, cliquez sur Virtualisation > Virtualiser.
'Si nécessaire, accédez à la vue Tables et patientez pendant le chargement des tables, qui peut prendre jusqu'à 30 secondes. Vous devrez peut-être cliquer sur Actualiser pour afficher la liste complète des tables. Lorsque vous voyez Tables disponibles, toutes les tables sont chargées. Le nombre de tableaux peut varier.
Dans l'onglet Tables , filtrez les tables en fonction des critères suivants:
Connecteur: IBM Db2 Warehouse et PostgreSQL
Base de données: essai Data Fabric - Db2 Warehouse et essai Data Fabric - Databases for PostgreSQL
Schéma: BANKING
Sélectionnez les tables MORTGAGE_APPLICATION, MORTGAGE_APPLICANTet CREDIT_SCORE à virtualiser. Vous pouvez survoler un nom de table pour voir le nom complet et vérifier que vous sélectionnez les noms de table corrects.
Cliquez sur Ajouter au panier.
Cliquez sur Afficher le panier pour afficher votre sélection. A partir d'ici, vous pouvez éditer les noms de table et de schéma ou supprimer une sélection de votre panier.
Pour l'instant, décochez la case en regard de Affecter à un projet. Cette action rend les tables virtuelles disponibles sur la page Données virtualisées .
Cliquez sur Virtualiser.
Cliquez sur Confirmer pour commencer à virtualiser les tables.
Une fois la virtualisation terminée, cliquez sur Accéder aux données virtualisées pour voir la table que vous venez de créer.
Vérifier votre progression
L'image suivante montre la page Données virtualisées . Vous êtes maintenant prêt à créer une table virtuelle en joignant ces tables virtuelles.
Tâche 5: Créer des vues de jointure virtuelle en joignant des tables virtuelles
Vous souhaitez créer une vue de jointure virtuelle en joignant les tables virtuelles MORTGAGE_APPLICANT et MORTGAGE_APPLICATION. Ensuite, vous souhaitez joindre l'objet virtuel résultant à la table virtuelle CREDIT_SCORE pour créer une deuxième vue de jointure virtuelle.
Vue de jointure virtuelle 1: Jointure des tables virtuelles MORTGAGE_APPLICANT et MORTGAGE_APPLICATION
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 05:59.
Pour créer la première vue de jointure virtuelle, procédez comme suit:
Dans la page Données virtualisées , sélectionnez les tables MORTGAGE_APPLICATION et MORTGAGE_APPLICANT à virtualiser.
Notez le nom du schéma. Vous aurez besoin de ce nom ultérieurement pour exécuter une requête SQL.
Cliquez sur Joindre.
Dans la liste des colonnes de la table MORTGAGE_APPLICATION, faites glisser pour relier la colonne ID à la colonne ID de la table MORTGAGE_APPLICANT.
Sélectionnez toutes les colonnes dans les deux tables.
Cliquez sur Aperçu pour afficher un aperçu des tables jointes.
Fermez la fenêtre d'aperçu.
Cliquez sur Ouvrir dans l'éditeur SQL, puis cliquez sur Continuer lorsque vous constatez que vous ne pouvez pas revenir à la grille de jointure. L'éditeur SQL vous permet d'exécuter des requêtes sur le jeu de données. Dans ce cas, vous souhaitez prévisualiser les enregistrements que le jeu de données contiendra lorsque vous filtrez sur les candidats de Californie.
Copiez votre schéma, puis supprimez la requête existante. Vous devrez insérer votre schéma dans l'instruction SQL suivante.
Copiez et collez l'instruction SELECT suivante pour la nouvelle requête. Remplacez
<your schema>
par le nom de schéma que vous avez noté précédemment.SELECT * FROM <your-schema>.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
Votre requête ressemble à 'SELECT * FROM 'DV_IBMID_663002GN1Q.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA' (code d'état) '
''Cliquez sur Exécuter tout.
Une fois la requête terminée, sélectionnez-la dans l'onglet Historique . Dans l'onglet Résultats , vous pouvez voir que la table est filtrée uniquement pour les demandeurs de l'état de Californie.
Cliquez sur Précédent pour fermer l'éditeur SQL.
Maintenant que vous avez prévisualisé l'ensemble de données filtré sur les candidats de Californie, vous allez ajouter ces critères de filtrage à la vue de jointure virtuelle. Pour la table MORTGAGE_APPLICANT , copiez et collez l'instruction suivante pour les critères de filtrage. Remplacez
<your schema>
par le nom de schéma que vous avez noté précédemment."<your-schema>"."MORTGAGE_APPLICANT"."STATE_CODE"='CA'
Vos critères de filtrage ressemblent à "DV_IBMID_663002GN1Q". "MORTGAGE_APPLICANT". "STATE_CODE"='CA'
Cliquez sur Suivant.
Vous pouvez éditer les noms de colonne pour différencier les colonnes portant le même nom dans les deux tables. Dans ce cas, conservez les noms de colonne par défaut et cliquez sur Suivant.
Sur la page Assign and review , pour le nom de la vue, entrez
APPLICANTS_APPLICATIONS_JOINED
.Pour l'instant, désélectionnez l'option Affecter à un projet . Ensuite, vous créez un objet virtuel et vous l'affectez au projet d'intégration de données.
Cliquez sur Créer une vue.
Une fois la virtualisation terminée, cliquez sur Accéder aux données virtualisées pour afficher la vue de jointure que vous venez de créer.
Vérifier votre progression
L'image suivante montre la page Données virtualisées . Vous êtes maintenant prêt à créer une deuxième vue de jointure virtuelle.
Vue de jointure virtuelle 2: Jointure des tables virtuelles APPLICANTS_APPLICATIONS_JOIN et CREDIT_SCORE
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 07:47.
Pour créer la deuxième vue de jointure virtuelle, procédez comme suit:
Dans la page Données virtualisées , sélectionnez les tables APPLICANTS_APPLICATIONS_JOINTES et CREDIT_SCORE à virtualiser.
Cliquez sur Joindre.
Dans la liste des colonnes de la table APPLICANTS_APPLICATIONS_JOIGNENT , faites glisser pour connecter la colonne EMAIL_ADDRESS à la colonne EMAIL_ADDRESS de la table CREDIT_SCORE .
Cliquez sur Aperçu pour afficher un aperçu des tables jointes.
Fermez la fenêtre d'aperçu.
Cliquez sur Suivant.
Acceptez les noms de colonne par défaut, puis cliquez sur Suivant.
Sur la page Assign and review , pour le nom de la vue, entrez
APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED
.Cette fois, conservez l'option Affecter au projet sélectionnée, puis choisissez le projet Intégration de données .
Cliquez sur Créer une vue.
Une fois la virtualisation terminée, cliquez sur Accéder aux données virtualisées pour afficher la vue de jointure que vous venez de créer.
Vérifier votre progression
L'image suivante montre la page Données virtualisées . Vous êtes maintenant prêt à utiliser les données virtuelles de votre projet.
Tâche 6: Générer une clé d'API
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 08:27.
Vous devez fournir vos données d'identification personnelles sous la forme d'une clé d'API pour afficher les actifs virtualisés. Si vous ne disposez pas déjà d'une clé d'API sauvegardée, procédez comme suit pour créer une clé d'API.
Accédez à la page des clés API dans la console IBM Cloud. Connectez-vous si vous y êtes invité.
Sur la page Clés d'API , cliquez sur Créer une clé d'API IBM Cloud. Si vous disposez de clés d'API existantes, le bouton peut être intitulé Créer.
Entrez un nom et une description.
Cliquez sur Créer.
Copier la clé de l'API.
Téléchargez la clé de l'API pour une utilisation ultérieure.
Vérifier votre progression
L'image suivante montre la page des clés d'API. Vous êtes maintenant prêt à afficher la table virtuelle dans le projet.
Tâche 7: Accès à la vue de jointure virtuelle dans le projet
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 09:01.
La table virtuelle a été ajoutée à votre projet avec une connexion à la Data Virtualization. Procédez comme suit pour ouvrir le projet afin d'afficher les données virtuelles et les informations de connexion requises pour accéder aux données virtuelles.
Revenez à Cloud Pak for Data. Dans le menu de navigation " , choisissez Projets > Afficher tous les projets.
Ouvrez le projet Intégration de données .
Cliquez sur l'onglet Actifs.
Ouvrez l'une des données virtualisées. Par exemple, cliquez sur l'actif de données commençant par votre nom de schéma suivi de APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINT pour l'afficher.
Indiquez vos données d'identification pour accéder à l'actif de données.
Pour la méthode d'authentification, sélectionnez Clé d'API.
Collez votre clé API.
'Cliquez sur Connexion.
Faites défiler l'actif de données pour voir tous les demandeurs de l'état de Californie.
Vérifier votre progression
L'image suivante montre les données virtuelles du projet. Vous êtes maintenant prêt à analyser les données virtuelles.
En tant qu'ingénieur de données à la Golden Bank, vous avez utilisé la Data Virtualization pour combiner des données provenant de différentes sources et de différents types. Vous avez utilisé la syntaxe SQL et avez accédé à des données et les avez combinées sans transfert de données.
Nettoyage (facultatif)
Si vous souhaitez reprendre les tutoriels dans le cas d'utilisation de l'intégration de données, supprimez les artefacts suivants.
Artefact | Comment supprimer |
---|---|
Connexions dans le Platform assets catalog | Supprimer un bien d'un catalogue |
Données virtualisées | Naviguez vers Données > Data virtualization; sur la page Données virtualisées, accédez au menu de débordement " d'une table et sélectionnez Supprimer. |
Sources de données | Naviguez vers Données > Data virtualization; sur la page Sources de données, cliquez sur l'icône Supprimer ' pour une connexion. |
Exemple de projet d'intégration de données | Supprimer un projet |
Etapes suivantes
Essayez d'autres tutoriels:
Inscrivez-vous pour un autre cas d'utilisation de matrice de données.
En savoir plus
Rubrique parent: Tutoriels de cas d'utilisation