0 / 0
Retourner à la version anglaise de la documentation
Tutoriel d'intégration de données: Virtualiser les données externes
Dernière mise à jour : 28 nov. 2024
Tutoriel d'intégration de données: Virtualiser les données externes

Suivez ce tutoriel pour virtualiser les données stockées dans trois sources de données externes avec le cas d'utilisation d'intégration de données de l'essai de matrice de données. Votre objectif est d'utiliser la Data Virtualization pour créer des tables virtuelles et joindre les tables virtuelles à partir des données existantes qui se trouvent dans trois sources de données : un Db2 Warehouse, une base de données PostgreSQL et une base de données MongoDB. Si vous avez suivi le tutoriel Intégrer des données, vous avez effectué la plupart des tâches à l'aide de DataStage que ce tutoriel accomplit à l'aide de la Data Virtualization.

Démarrage rapide: Si vous n'avez pas encore créé l'exemple de projet pour ce tutoriel, accédez à l' exemple de projet d'intégration de données dans le concentrateur de ressources.

Le cas d'utilisation de ce tutoriel est que la Golden Bank doit se conformer à un nouveau règlement lorsqu'elle ne peut pas prêter à des demandeurs de prêt sous-qualifiés. Vous utiliserez la Data Virtualization pour combiner des données provenant de différentes sources de données sans déplacement de données, et mettre les données virtuelles à la disposition d'autres data scientists et data engineers dans le cadre d'un projet.

L'image animée suivante fournit un aperçu rapide de ce que vous allez accomplir à la fin de ce tutoriel. Vous allez vous connecter à des sources de données externes, créer des tables et des vues virtuelles et les ajouter à un projet. Cliquez sur l'image pour afficher une image plus grande.

Image animée

Aperçu du tutoriel

Dans ce tutoriel, vous exécutez les tâches suivantes :

Regarder une vidéo Regardez cette vidéo pour prévisualiser les étapes de ce tutoriel. Il peut y avoir de légères différences dans l'interface utilisateur affichée dans la vidéo. La vidéo est destinée à être un compagnon du tutoriel écrit.

Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.





Conseils pour l'exécution de ce tutoriel
Voici quelques conseils pour réussir ce tutoriel.

Utiliser la vidéo image-in-picture

Astuce: Démarrez la vidéo, puis au fur et à mesure que vous faites défiler le tutoriel, la vidéo passe en mode image-en-image. Fermez la table des matières vidéo pour la meilleure expérience avec l'image en image. Vous pouvez utiliser le mode image-dans-image pour pouvoir suivre la vidéo à mesure que vous effectuez les tâches de ce tutoriel. Cliquez sur les horodatages de chaque tâche à suivre.

L'image animée suivante montre comment utiliser les fonctions d'image vidéo et de table des matières:

Comment utiliser l'image en image et les chapitres

Obtenir de l'aide dans la communauté

Si vous avez besoin d'aide pour ce tutoriel, vous pouvez poser une question ou trouver une réponse dans le forum de discussion de la communautéCloud Pak for Data.

Configurez les fenêtres de votre navigateur

Pour une expérience optimale lors de l'exécution de ce tutoriel, ouvrez Cloud Pak for Data dans une fenêtre de navigateur et laissez cette page de tutoriel ouverte dans une autre fenêtre de navigateur pour basculer facilement entre les deux applications. Envisagez d'organiser les deux fenêtres du navigateur côte à côte pour faciliter le suivi.

Tutoriel et interface utilisateur côte à côte

Astuce: Si vous rencontrez une visite guidée lors de l'exécution de ce tutoriel dans l'interface utilisateur, cliquez sur Peut-être plus tard.



Configuration des prérequis

Inscription à Cloud Pak for Data as a Service (en anglais)

Vous devez vous inscrire à Cloud Pak for Data as a Service et mettre à disposition les services nécessaires pour le cas d'utilisation d'intégration de données.

  • Si vous disposez d'un compte Cloud Pak for Data as a Service existant, vous pouvez utiliser ce tutoriel. Si vous disposez d'un compte de plan Lite, un seul utilisateur par compte peut exécuter ce tutoriel.
  • Si vous ne disposez pas encore d'un compte Cloud Pak for Data as a Service , inscrivez-vous à un essai de matrice de données.

icône Vidéo Regardez la vidéo suivante pour en savoir plus sur le data fabric dans Cloud Pak for Data.

Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.

Vérifiez les services mis à disposition nécessaires

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 01:06.

Procédez comme suit pour vérifier ou mettre à disposition les services nécessaires:

  1. Dans le menu de navigation " Menu de navigation, choisissez Services > Instances de service.

  2. Utilisez la liste déroulante Produit pour déterminer s'il existe une instance de service de Data Virtualization.

  3. Si vous devez créer une instance de service de Data Virtualization, cliquez sur Ajouter un service.

    1. Sélectionnez Data Virtualization.

    2. Sélectionnez le plan Lite .

    3. Cliquez sur Créer.

  4. Attendez que le service de Data Virtualization soit provisionné, ce qui peut prendre quelques minutes.

  5. Répétez ces étapes pour vérifier ou mettre à disposition les services supplémentaires suivants :

    • IBM Knowledge Catalog
    • Cloud Object Storage

Icône de point de contrôle Vérifier votre progression

L'image suivante montre les instances de service mises à disposition:

Services mis à disposition

Créez l'exemple de projet

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 01:46.

Si vous disposez déjà de l'exemple de projet pour ce tutoriel, passez à la Tâche 1. Sinon, procédez comme suit :

  1. Accédez au projet d'exemple d'intégration de données dans le centre de ressources.

  2. Cliquez sur Créer un projet.

  3. Si vous êtes invité à associer le projet à une instance Cloud Object Storage, sélectionnez une instance Cloud Object Storage dans la liste.

  4. Cliquez sur Créer.

  5. Attendez que l'importation du projet soit terminée, puis cliquez sur Afficher le nouveau projet pour vérifier que le projet et les actifs ont été créés avec succès.

  6. Cliquez sur l'onglet Actifs pour afficher les connexions et le flux DataStage .

Remarque: Vous pouvez voir une visite guidée présentant les tutoriels inclus avec ce cas d'utilisation. Les liens de la visite guidée ouvriront ces instructions de tutoriel.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre l'onglet Actifs dans l'exemple de projet. Vous êtes maintenant prêt à démarrer le tutoriel.

Exemple de projet




Tâche 1: Vérifier le Platform assets catalog

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 02:42.

Vous pouvez ajouter des connexions à des sources de données externes au niveau de la plateforme ou du service. Lorsque vous ajoutez les connexions au niveau de la plate-forme en utilisant le Platform assets catalog, vous pouvez facilement inclure ces connexions dans les projets, les catalogues et les sources de données de la Data Virtualization. Procédez comme suit pour vérifier le Platform assets catalog.

  1. Dans le menu de navigation " Menu de navigation, choisissez Données > Connexions de plate-forme.

  2. Si vous voyez des connexions existantes, vous disposez déjà d'un Platform assets cataloget vous pouvez passer à la Tâche 2. Si vous ne voyez aucune connexion, mais que vous avez la possibilité d'en créer une nouvelle, vous pouvez passer à la tâche 2.
    Bouton Nouvelle connexion

  3. Si vous n'avez pas de Platform assets catalog, cliquez sur Créer un catalogue. Créer un catalogue d'actifs de plateforme

  4. Sélectionnez un Cloud Object Storage dans la liste.

  5. Acceptez la valeur par défaut pour Traitement des actifs en double.

  6. Cliquez sur Créer. La page Connexions de plateforme s'affiche.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre les connexions de plateforme. A partir de là, vous pouvez créer des connexions. Etant donné que l'exemple de projet inclut les connexions, vous pouvez ajouter les connexions pour les sources de données externes à ce catalogue à partir de l'exemple de projet.

Platform assets catalog




Tâche 2: Ajouter des connexions de données au Platform assets catalog

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 03:22.

L'exemple de projet d'intégration de données inclut plusieurs connexions à des sources de données externes. Ensuite, vous ajoutez trois connexions au Platform assets catalog, puis vous pouvez rendre ces connexions disponibles dans la Data Virtualization. Procédez comme suit pour publier les connexions de l'exemple de projet dans le Platform assets catalog.

  1. Dans le menu de navigation " Menu de navigation, choisissez Projets > Afficher tous les projets.

  2. Cliquez sur le projet Intégration de données .

  3. Cliquez sur l'onglet Actifs.

  4. Sous Types d'actif, cliquez sur Accès aux données > Connexions.

  5. Sélectionnez les actifs de connexion suivants:

    • Data Fabric -Version d'essai- Db2 Warehouse
    • Data Fabric -Version d'essai- MongoDB
    • Data Fabric - Databases for PostgreSQL
  6. Cliquez sur Publier dans le catalogue.

    1. Sélectionnez le catalogue des actifs de plateforme dans la liste, puis cliquez sur Suivant.

    2. Passez en revue les actifs et cliquez sur Publier.

  7. Dans le menu de navigation " Menu de navigation, choisissez Données > Connexions de la plate-forme pour voir les trois connexions publiées dans le catalogue.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre les trois connexions de plateforme. Vous êtes maintenant prêt à ajouter des sources de données.

Trois connexions de plateforme




Tâche 3 : Ajouter des sources de données à la Data Virtualization

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 04:05.

Vous pouvez maintenant ajouter ces sources de données externes du Platform assets catalog à la Data Virtualization. Pour ajouter les sources de données, procédez comme suit:

  1. Dans le menu de navigation 'Menu de navigation, choisissez Données > Data virtualization.

    Remarque: si vous voyez une notification indiquant de configurer un catalogue principal pour appliquer la gouvernance, vous pouvez fermer cette notification en toute sécurité. La configuration d'un catalogue principal est facultative.
  2. Sur la page Sources de données, dans la vue Tableau, cliquez sur Ajouter une connexion > Connexion à une plate-forme existante.
    'Ajouter une connexion existante

  3. Sélectionnez Data Fabric Trial- Db2 Warehouse.

  4. Cliquez sur Ajouter.

  5. Répétez ces étapes pour ajouter les connexions Data Fabric Trial-Mongo DB et Data Fabric Trial- Databases for PostgreSQL .

Icône de point de contrôle Vérifier votre progression

L'image suivante montre les sources de données. Vous êtes maintenant prêt à créer une table virtuelle à partir des données stockées dans ces sources de données externes.

Sources de données




Tâche 4: Virtualiser les tables de données

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 04:40.

Vous souhaitez virtualiser les tables MORTGAGE_APPLICATION, MORTGAGE_APPLICANTet CREDIT_SCORES . Par la suite, vous pouvez joindre les deux premières tables virtuelles à la troisième table pour créer une nouvelle vue de jointure virtuelle. Pour virtualiser les tables de données, procédez comme suit:

  1. Dans le menu de service, cliquez sur Virtualisation > Virtualiser.
    'Virtualiser dans le menu du service

  2. Si nécessaire, accédez à la vue Tables et patientez pendant le chargement des tables, qui peut prendre jusqu'à 30 secondes. Vous devrez peut-être cliquer sur Actualiser pour afficher la liste complète des tables. Lorsque vous voyez Tables disponibles, toutes les tables sont chargées. Le nombre de tableaux peut varier.
    Virtualiser la liste des tables disponibles

  3. Dans l'onglet Tables , filtrez les tables en fonction des critères suivants:

    1. Connecteur: IBM Db2 Warehouse et PostgreSQL

    2. Base de données: essai Data Fabric - Db2 Warehouse et essai Data Fabric - Databases for PostgreSQL

    3. Schéma: BANKING

  4. Sélectionnez les tables MORTGAGE_APPLICATION, MORTGAGE_APPLICANTet CREDIT_SCORE à virtualiser. Vous pouvez survoler un nom de table pour voir le nom complet et vérifier que vous sélectionnez les noms de table corrects.

  5. Cliquez sur Ajouter au panier.

  6. Cliquez sur Afficher le panier pour afficher votre sélection. A partir d'ici, vous pouvez éditer les noms de table et de schéma ou supprimer une sélection de votre panier.

  7. Pour l'instant, décochez la case en regard de Affecter à un projet. Cette action rend les tables virtuelles disponibles sur la page Données virtualisées .

  8. Cliquez sur Virtualiser.

  9. Cliquez sur Confirmer pour commencer à virtualiser les tables.

  10. Une fois la virtualisation terminée, cliquez sur Accéder aux données virtualisées pour voir la table que vous venez de créer.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre la page Données virtualisées . Vous êtes maintenant prêt à créer une table virtuelle en joignant ces tables virtuelles.

Données virtualisées




Tâche 5: Créer des vues de jointure virtuelle en joignant des tables virtuelles

Vous souhaitez créer une vue de jointure virtuelle en joignant les tables virtuelles MORTGAGE_APPLICANT et MORTGAGE_APPLICATION. Ensuite, vous souhaitez joindre l'objet virtuel résultant à la table virtuelle CREDIT_SCORE pour créer une deuxième vue de jointure virtuelle.

Vue de jointure virtuelle 1: Jointure des tables virtuelles MORTGAGE_APPLICANT et MORTGAGE_APPLICATION

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 05:59.

Pour créer la première vue de jointure virtuelle, procédez comme suit:

  1. Dans la page Données virtualisées , sélectionnez les tables MORTGAGE_APPLICATION et MORTGAGE_APPLICANT à virtualiser.

  2. Notez le nom du schéma. Vous aurez besoin de ce nom ultérieurement pour exécuter une requête SQL.

  3. Cliquez sur Joindre.

  4. Dans la liste des colonnes de la table MORTGAGE_APPLICATION, faites glisser pour relier la colonne ID à la colonne ID de la table MORTGAGE_APPLICANT.
    Joindre des objets virtuels à l'aide de l'ID de la clé

  5. Sélectionnez toutes les colonnes dans les deux tables.

  6. Cliquez sur Aperçu pour afficher un aperçu des tables jointes.

  7. Fermez la fenêtre d'aperçu.

  8. Cliquez sur Ouvrir dans l'éditeur SQL, puis cliquez sur Continuer lorsque vous constatez que vous ne pouvez pas revenir à la grille de jointure. L'éditeur SQL vous permet d'exécuter des requêtes sur le jeu de données. Dans ce cas, vous souhaitez prévisualiser les enregistrements que le jeu de données contiendra lorsque vous filtrez sur les candidats de Californie.

    Ouvrir l'éditeur SQL

    1. Copiez votre schéma, puis supprimez la requête existante. Vous devrez insérer votre schéma dans l'instruction SQL suivante.

    2. Copiez et collez l'instruction SELECT suivante pour la nouvelle requête. Remplacez <your schema> par le nom de schéma que vous avez noté précédemment.

      SELECT * FROM <your-schema>.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
      

      Votre requête ressemble à 'SELECT * FROM 'DV_IBMID_663002GN1Q.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA' (code d'état) '
      'Instruction SELECT'

    3. Cliquez sur Exécuter tout.

    4. Une fois la requête terminée, sélectionnez-la dans l'onglet Historique . Dans l'onglet Résultats , vous pouvez voir que la table est filtrée uniquement pour les demandeurs de l'état de Californie.

    5. Cliquez sur Précédent pour fermer l'éditeur SQL.

  9. Maintenant que vous avez prévisualisé l'ensemble de données filtré sur les candidats de Californie, vous allez ajouter ces critères de filtrage à la vue de jointure virtuelle. Pour la table MORTGAGE_APPLICANT , copiez et collez l'instruction suivante pour les critères de filtrage. Remplacez <your schema> par le nom de schéma que vous avez noté précédemment.

    "<your-schema>"."MORTGAGE_APPLICANT"."STATE_CODE"='CA'
    

    Vos critères de filtrage ressemblent à "DV_IBMID_663002GN1Q". "MORTGAGE_APPLICANT". "STATE_CODE"='CA'

    Critères de filtrage

  10. Cliquez sur Suivant.

  11. Vous pouvez éditer les noms de colonne pour différencier les colonnes portant le même nom dans les deux tables. Dans ce cas, conservez les noms de colonne par défaut et cliquez sur Suivant.

  12. Sur la page Assign and review , pour le nom de la vue, entrez APPLICANTS_APPLICATIONS_JOINED.

  13. Pour l'instant, désélectionnez l'option Affecter à un projet . Ensuite, vous créez un objet virtuel et vous l'affectez au projet d'intégration de données.

  14. Cliquez sur Créer une vue.

  15. Une fois la virtualisation terminée, cliquez sur Accéder aux données virtualisées pour afficher la vue de jointure que vous venez de créer.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre la page Données virtualisées . Vous êtes maintenant prêt à créer une deuxième vue de jointure virtuelle.

Données virtualisées

Vue de jointure virtuelle 2: Jointure des tables virtuelles APPLICANTS_APPLICATIONS_JOIN et CREDIT_SCORE

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 07:47.

Pour créer la deuxième vue de jointure virtuelle, procédez comme suit:

  1. Dans la page Données virtualisées , sélectionnez les tables APPLICANTS_APPLICATIONS_JOINTES et CREDIT_SCORE à virtualiser.

  2. Cliquez sur Joindre.

  3. Dans la liste des colonnes de la table APPLICANTS_APPLICATIONS_JOIGNENT , faites glisser pour connecter la colonne EMAIL_ADDRESS à la colonne EMAIL_ADDRESS de la table CREDIT_SCORE .

  4. Cliquez sur Aperçu pour afficher un aperçu des tables jointes.

  5. Fermez la fenêtre d'aperçu.

  6. Cliquez sur Suivant.

  7. Acceptez les noms de colonne par défaut, puis cliquez sur Suivant.

  8. Sur la page Assign and review , pour le nom de la vue, entrez APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED.

  9. Cette fois, conservez l'option Affecter au projet sélectionnée, puis choisissez le projet Intégration de données .

  10. Cliquez sur Créer une vue.

  11. Une fois la virtualisation terminée, cliquez sur Accéder aux données virtualisées pour afficher la vue de jointure que vous venez de créer.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre la page Données virtualisées . Vous êtes maintenant prêt à utiliser les données virtuelles de votre projet.

Données virtualisées




Tâche 6: Générer une clé d'API

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 08:27.

Vous devez fournir vos données d'identification personnelles sous la forme d'une clé d'API pour afficher les actifs virtualisés. Si vous ne disposez pas déjà d'une clé d'API sauvegardée, procédez comme suit pour créer une clé d'API.

  1. Accédez à la page des clés API dans la console IBM Cloud. Connectez-vous si vous y êtes invité.

  2. Sur la page Clés d'API , cliquez sur Créer une clé d'API IBM Cloud. Si vous disposez de clés d'API existantes, le bouton peut être intitulé Créer.

  3. Entrez un nom et une description.

  4. Cliquez sur Créer.

  5. Copier la clé de l'API.

  6. Téléchargez la clé de l'API pour une utilisation ultérieure.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre la page des clés d'API. Vous êtes maintenant prêt à afficher la table virtuelle dans le projet.

Page Clés d'API




Tâche 7: Accès à la vue de jointure virtuelle dans le projet

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 09:01.

La table virtuelle a été ajoutée à votre projet avec une connexion à la Data Virtualization. Procédez comme suit pour ouvrir le projet afin d'afficher les données virtuelles et les informations de connexion requises pour accéder aux données virtuelles.

  1. Revenez à Cloud Pak for Data. Dans le menu de navigation " Menu de navigation, choisissez Projets > Afficher tous les projets.

  2. Ouvrez le projet Intégration de données .

  3. Cliquez sur l'onglet Actifs.

  4. Ouvrez l'une des données virtualisées. Par exemple, cliquez sur l'actif de données commençant par votre nom de schéma suivi de APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINT pour l'afficher.

  5. Indiquez vos données d'identification pour accéder à l'actif de données.

  6. Pour la méthode d'authentification, sélectionnez Clé d'API.

  7. Collez votre clé API.
    'Coller la clé d'API

  8. Cliquez sur Connexion.

  9. Faites défiler l'actif de données pour voir tous les demandeurs de l'état de Californie.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre les données virtuelles du projet. Vous êtes maintenant prêt à analyser les données virtuelles.

Afficher la table virtuelle



En tant qu'ingénieur de données à la Golden Bank, vous avez utilisé la Data Virtualization pour combiner des données provenant de différentes sources et de différents types. Vous avez utilisé la syntaxe SQL et avez accédé à des données et les avez combinées sans transfert de données.


Nettoyage (facultatif)

Si vous souhaitez reprendre les tutoriels dans le cas d'utilisation de l'intégration de données, supprimez les artefacts suivants.

Artefact Comment supprimer
Connexions dans le Platform assets catalog Supprimer un bien d'un catalogue
Données virtualisées Naviguez vers Données > Data virtualization; sur la page Données virtualisées, accédez au menu de débordement " Menu déroulant dynamique d'une table et sélectionnez Supprimer.
Sources de données Naviguez vers Données > Data virtualization; sur la page Sources de données, cliquez sur l'icône Supprimer 'Supprimer pour une connexion.
Exemple de projet d'intégration de données Supprimer un projet

Etapes suivantes

En savoir plus

Rubrique parent: Tutoriels de cas d'utilisation

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus