Tutoriel d'intégration de données Multicloud : Intégration de données

Ce tutoriel permet de transformer les données stockées dans trois sources de données externes avec le cas d'utilisation de l'intégration de données Multicloud de l'offre d'essai de matrice de données. Votre objectif est d'utiliser DataStage pour transformer les données, puis de livrer ces données transformées à un seul fichier de sortie.

Le cas d'utilisation de ce tutoriel est que la Golden Bank doit se conformer à un nouveau règlement lorsqu'elle ne peut pas prêter à des demandeurs de prêt sous-qualifiés. En tant qu'ingénieur de données à Golden Bank, vous utilisez actuellement DataStage pour agréger vos données d'applications hypothécaires anonymisées avec les informations personnelles des demandeurs d'hypothèque. Vos prêteurs utilisent ces renseignements pour les aider à décider s'ils doivent approuver ou refuser des demandes de prêt hypothécaire. Votre leadership a ajouté certains analystes de risques qui calculent chaque jour le taux d'intérêt qu'ils recommandent d'offrir aux emprunteurs de chaque plage de score de crédit. Vous devez intégrer ces renseignements dans la feuille de calcul que vous partagez avec les prêteurs, ce qui comprend des renseignements sur les cotes de crédit de chaque demandeur, la dette totale du demandeur et une table de consultation des taux d'intérêt. Ensuite, chargez vos données dans un fichier .csv de sortie cible.

Dans ce tutoriel, vous exécuterez les tâches suivantes :

  1. Exécuter un flux DataStage existant.
  2. Éditer le flux DataStage pour :
    1. Ajouter des données PostgreSQL.
    2. Ajouter une autre étape de jointure.
    3. Ajouter une étape de transformateur.
    4. Ajouter des données MongoDB.
    5. Ajouter une étape de recherche.
  3. Éditer le nœud de fichier séquentiel et exécutez le flux DataStage.
  4. Créer un catalogue.
  5. Afficher la sortie et la publier dans un catalogue.

Si vous avez besoin d'aide pour ce tutoriel, posez une question ou trouvez une réponse dans le forum de discussion communautaire Cloud Pak for Data.

Astuce : Pour l'expérience optimale de l'exécution de ce tutoriel, ouvrez Cloud Pak for Data en tant que service dans un onglet de navigateur, et gardez cette page de tutoriel ouverte dans un autre onglet de navigateur pour pouvoir basculer facilement entre les deux applications.

Aperçu du tutoriel

Regarder une vidéo Regardez cette vidéo pour prévisualiser les étapes de ce tutoriel.

Cette vidéo constitue une alternative visuelle aux procédures figurant dans cette documentation.

Prérequis

Vous devez vous inscrire pour Cloud Pak for Data en tant que service et fournir les services nécessaires pour le cas d'utilisation de l'intégration de données Multicloud.

Vous pouvez vous inscrire pour Cloud Pak for Data en tant que service de l'une des manières suivantes :

Mettez à disposition les services nécessaires

Suivez ces étapes pour vérifier ou mettre à disposition les services nécessaires.

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 01:09.

  1. Dans le menu de navigation Cloud Pak for Data, sélectionnez Services > Instances de service.
  2. Utilisez la liste déroulante Produit pour déterminer s'il existe une instance de service DataStage existante.
  3. Si vous devez créer une instance de service DataStage, cliquez sur Ajouter un service.
  4. Sélectionnez DataStage.
  5. Sélectionnez le plan Lite.
  6. Cliquez sur Créer.
  7. Répétez ces étapes pour vérifier ou mettre à disposition les services supplémentaires suivants :
    • Watson Knowledge Catalog
    • Cloud Object Storage

Créer l'exemple de projet

Si vous n'avez pas déjà créé l'exemple de projet pour ce tutoriel, procédez comme suit :

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 01:44.

  1. Accédez à l'exemple de projet de tutoriel guidé d'intégration de données multicloud dans la galerie.
  2. Cliquez sur Create Project.
  3. Si vous êtes invité à associer le projet à une instance Cloud Object Storage, sélectionnez une instance Cloud Object Storage dans la liste.
  4. Cliquez sur Créer.
  5. Cliquez sur Afficher le nouveau projet pour vérifier que le projet et les actifs ont été correctement créés.

Étape 1 : Exécution d'un flux DataStage existant

Procédez comme suit pour exécuter un flux DataStage qui va créer un fichier CSV dans le projet qui joint les ensembles de données des demandeurs d'hypothèque et des applications hypothécaires.

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 02:24.

  1. Dans le projet Intégration de données multicloud, cliquez sur l'onglet Actifs pour afficher tous les actifs du projet.
  2. Cliquez sur Flux > flux de DataStage. Si vous ne voyez pas de flux DataStage, revenez à la vue de vos instances de service pour vérifier que votre instance DataStage a été mise à disposition avec succès. Voir Mise à disposition des services nécessaires.
  3. Cliquez sur le flux Intégration de données multicloud dans la liste pour l'ouvrir. Ce flux joint les tableaux Candidats hypothécaires et Demandes hypothécaires stockées dans Db2 Warehouse, filtre les données dans les enregistrements de l'état de la Californie et crée un fichier séquentiel au format CSV en tant que résultat.
  4. Cliquez deux fois sur le noeud MORTGAGE_APPLICATIONS_1 pour afficher les paramètres.
    1. Développez le fichier Section Propriétés.
    2. Faites défiler vers le bas, puis cliquez sur Prévisualiser les données. Cet ensemble de données comprend la saisie d'informations sur une demande de prêt hypothécaire.
    3. Cliquez sur Close.
  5. Cliquez deux fois sur le noeud MORTGAGE_APPLICANTS_1 pour afficher les paramètres.
    1. Développez le fichier Section Propriétés.
    2. Faites défiler vers le bas, puis cliquez sur Prévisualiser les données. Cet ensemble de données comprend des renseignements sur les demandeurs d'hypothèque qui ont demandé un prêt.
    3. Cliquez sur Close.
  6. Cliquez sur Compiler, puis sur Exécuter. Vous pouvez également cliquer sur Exécuter, qui va compiler, puis exécuter le flux DataStage.
  7. Cliquez sur Journaux dans la barre d'outils pour surveiller les progrès du flux. L'exécution peut prendre environ une minute pour se terminer.
  8. Une fois l'exécution terminée, cliquez sur Intégration de données multicloud dans les éléments de navigation pour revenir au projet.
  9. Dans l'onglet Actifs, cliquez sur Données > Actif de données.
  10. Ouvrez le fichier MORTGAGE_INTEREST_RATES.CSV. Vous pouvez voir que ce fichier contient les colonnes des ensembles de données des demandeurs d'hypothèque et des applications hypothécaires à l'aide de l'ID de la clé de jointure.

Étape 2 : Editer le flux DataStage

Procédez comme suit pour éditer un flux DataStage et modifier les paramètres de noeud de jointure.

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 04:16.

  1. Cliquez sur Flux > flux de DataStage.
  2. Ouvrez le flux Intégration de données multicloud.
  3. Cliquez deux fois sur le noeud ID_joint_joint_joint_jointes pour modifier les paramètres.
  4. Cliquez sur l'onglet Sortie et développez la section Colonnes pour afficher la liste des colonnes du fichier joint.
  5. Cliquez sur le bouton Editer.
  6. Pour le nom de colonne EMAIL_ADDRESS, sélectionnez Clé.
  7. Cliquez sur Appliquer et renvoyer pour revenir aux paramètres du noeud Join_on_ID.
  8. Cliquez sur Sauvegarder pour enregistrer les paramètres du noeud Join_on_ID.

Étape 3 : Ajout de données PostgreSQL

Procédez comme suit pour ajouter les données de score de crédit stockées dans une base de données PostgreSQL au flux DataStage.

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 04:57.

  1. Dans la palette de nœuds, développez la section Connecteurs.
  2. Faites glisser le connecteur Navigateur d'actifs sur la grille à coté du noeud MORTGAGE_APPLICANTS_1.
  3. Pour localiser l'actif, sélectionnez Connexion > Offre d'essai de la matrice de données - Bases de données pour PostgreSQL > BANKING > CREDIT_SCORE.
  4. Cliquez sur l'icône Œil pour prévisualiser les données de score de crédit de chaque demandeur.
  5. Cliquez sur Ajouter.

Étape 4 : Ajouter une autre étape de jointure

Suivez cette procédure pour ajouter une autre étape de jointure pour joindre l'application de prêt hypothécaire filtrée / le demandeur d'hypothèque joint les données avec les données de score de crédit dans le flux DataStage.

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 05:28.

  1. Dans la palette de nœuds, développez la section Étapes.
  2. Faites glisser l'étape Jointure sur la grille et déposez le noeud sur le dessus du Link_4 entre les nœuds Filter_State_Code et Sequential_file_1.
  3. Survolez le connecteur CREDIT_SCORE_1 pour afficher la flèche. Connectez la flèche à l'étape de Jointure.
  4. Cliquez deux fois sur le noeud CREDIT_SCORE_1 pour modifier les paramètres.
    1. Cliquez sur l'onglet Sortie et développez la section Colonnes pour afficher la liste des colonnes du fichier joint.
    2. Cliquez sur le bouton Editer.
    3. Pour les noms de colonne EMAIL_ADDRESS et CREDIT_SCORE, sélectionnez Clé.
    4. Cliquez sur Appliquer et renvoyer pour revenir aux paramètres du noeud CREDIT_SCORE_1.
    5. Cliquez sur Sauvegarder pour enregistrer les paramètres du noeud CREDIT_SCORE_1.
  5. Cliquez deux fois sur le noeud Join_1 pour modifier les paramètres.
    1. Développez la section Propriétés.
    2. Cliquez sur Add key.
      1. Cliquez à nouveau sur Ajouter une clé.
      2. Sélectionnez EMAIL_ADDRESS dans la liste déroulante.
      3. Cliquez sur Apply.
    3. Cliquez sur Appliquer et renvoyer pour revenir aux paramètres du noeud Join_1 .
    4. Remplacez le nom du noeud Join_1 par Join_on_email.
    5. Cliquez sur Sauvegarder pour enregistrer les paramètres du noeud Join_1.

Étape 5 : Ajouter une étape de transformateur

Procédez comme suit pour ajouter une étape de transformateur qui créera une nouvelle colonne en additionnant les colonnes LOAN_AMOUNT et CREDITCARD_DEBT.

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 06:42.

  1. Faites glisser l'étape de transformateur sur la grille et déposez le noeud sur le dessus du Link_5 entre les nœuds Join_on_mail et Sequential_file_1.
  2. Cliquez deux fois sur le noeud de transformateur pour modifier les paramètres.
    1. Cliquez sur l'onglet Sortie.
      1. Cliquez sur Ajouter une colonne.
      2. Faites défiler jusqu'au bas de la liste des colonnes pour afficher la nouvelle colonne.
      3. Nommez la colonne TOTAL_DEBT.
      4. Cliquez sur l'icône Crayon dans la colonne de dérivation de la ligne.
      5. Cliquez sur l'icône Calculatrice pour ouvrir le générateur d'expression.
      6. Recherchez LOAN_AMOUNTet cliquez deux fois sur le nom de la colonne pour l'ajouter à l'expression.
      7. Entrez un signe plus +.
      8. Recherchez CREDITCARD_DEBTet cliquez deux fois sur le nom de la colonne pour l'ajouter à l'expression.
      9. Vérifiez que l'expression finale est Link_5.LOAN_AMOUNT + Link_5.CREDITCARD_DEBT.
      10. Cliquez sur Appliquer et renvoyer pour revenir à la page de transformateur.
    2. Cliquez sur Enregistrer et renvoyer pour revenir au canevas.

Étape 6 : Ajout de données MongoDB

Procédez comme suit pour inclure les taux d'intérêt dans le flux en ajoutant un nouveau connecteur d'actif de données à une base de données MongoDB.

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 07:30.

  1. Dans la palette de nœuds, développez la section Connecteurs.
  2. Faites glisser le connecteur Navigateur d'actifs sur la grille à coté du noeud CREDIT_SCORE_1.
  3. Pour localiser l'actif, sélectionnez Connexion > Offre d'essai de la matrice de données - Mongo DB > DOCUMENT > DS_INTEREST_RATES.
  4. Cliquez sur l'icône Œil pour prévisualiser les taux d'intérêt de chaque plage de scores de crédit. Vous utiliserez les valeurs des colonnes STARTING_LIMIT et ENDING_LIMIT pour rechercher le taux d'intérêt approprié en fonction du score de crédit du demandeur. La colonne ID n'est pas nécessaire, vous devez donc supprimer cette colonne à l'étape suivante.
  5. Cliquez sur Ajouter.

Étape 7 : Ajouter une étape de recherche

En fonction de la cote de crédit de chaque demandeur, vous voulez consulter le taux d'intérêt approprié. Procédez comme suit pour ajouter une étape de recherhce et spécifier la plage de début et de fin des limites de score de crédit pour chaque taux d'intérêt.

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 08:19.

  1. Faites glisser l'étape de recherche sur la grille et déposez le noeud sur le dessus du Link_7 entre les nœuds Transformer_1 et Sequential_file_1.
  2. Connectez le connecteur DS_INTEREST_RATES_1 à l'étape Lookup_1.
  3. Cliquez deux fois sur le noeud DS_INTEREST_RATES_1 pour modifier les paramètres.
  4. Cliquez sur l'onglet Sortie.
    1. Développez la section Colonnes et cliquez sur Éditer.
    2. Sélectionnez la colonne _ID.
    3. Cliquez sur l'icône Supprimer pour supprimer cette colonne inutile.
    4. Cliquez sur Appliquer et renvoyer pour revenir aux paramètres du noeud DS_INTEREST_RATES_1.
    5. Cliquez sur Sauvegarder pour enregistrer les modifications apportées au noeud DS_INTEREST_RATES_1.
  5. Cliquez deux fois sur le noeud Lookup_1 pour modifier les paramètres.
  6. Développez la section Propriétés.
    1. Dans la zone Appliquer la plage aux colonnes, sélectionnez CREDIT_SCORE. Les zones Liens de référence, Opérateur et Colonne de plage s'affichent.
    2. Pour les liens de référence, sélectionnez Link_9.
    3. Pour le premier opérateur, sélectionnez <.
    4. Pour la première Colonne de plage, sélectionnez ENDING_LIMIT.
    5. Pour le second opérateur, sélectionnez >.
    6. Pour la seconde colonne de plage, sélectionnez STARTING_LIMIT.
  7. Cliquez sur l'onglet Sortie.
    1. Développez la section Colonnes et cliquez sur Éditer.
    2. Sélectionnez les colonnes STARTING_LIMIT et ENDING_LIMIT.
    3. Cliquez sur l'icône Supprimer pour supprimer ces sorties inutiles.
    4. Cliquez sur Appliquer et renvoyer pour revenir aux paramètres du noeud Lookup_1.
    5. Cliquez sur Sauvegarder pour enregistrer les modifications apportées au noeud Lookup_1.

Étape 8 : Modification du noeud de fichier séquentiel et exécution du flux DataStage

Procédez comme suit pour éditer le noeud de fichier séquentiel afin de créer un fichier de sortie final en tant qu'actif de données dans le projet, puis de compiler et d'exécuter le flux DataStage.

Regarder une vidéoPour prévisualiser cette tâche, regardez la vidéo à partir de 09:39.

  1. Cliquez deux fois sur le noeud Sequential_file_1 pour modifier les paramètres.
  2. Cliquez sur l'onglet Entrée.
  3. Sélectionnez Créer un actif de données.
  4. Pour Nom de l'actif de données, entrez MORTGAGE_APPLICANTS_INTEREST_RATES.CSV.
  5. Développez la section Propriétés.
  6. Pour le fichier cible, entrez MORTGAGE_APPLICANTS_INTEREST_RATES.CSV.
  7. Cliquez sur le bouton Sauvegarder.
  8. Cliquez sur Exécuter, qui va compiler, puis exécuter le flux DataStage.
  9. Cliquez sur Journaux dans la barre d'outils pour surveiller les progrès du flux.

Étape 9 : Création d'un catalogue

D'autres ingénieurs de données et analystes métier de Golden Bank doivent avoir accès aux taux d'intérêt hypothécaire. Avec le plan Lite Watson Knowledge Catalog, vous ne pouvez créer qu'un seul catalogue. Si vous avez déjà un catalogue, ignorez cette étape. Sinon, procédez comme suit pour créer un catalogue afin de créer un catalogue auquel vous pouvez publier les données de taux d'intérêt.

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 10:10.

  1. Dans le menu de navigation Cloud Pak for Data, sélectionnez Catalogues > Afficher tous les catalogues.
  2. Cliquez sur Créer un catalogue.
  3. Pour le nom, entrez Mortgage Approval Catalog. Entrez le nom du catalogue, exactement comme indiqué sans espace de début ou de fin. Si vous êtes invité à associer le catalogue à une instance Cloud Object Storage, sélectionnez un Cloud Object Storage dans la liste.
  4. Acceptez la valeur par défaut pour tous les autres champs.
  5. Cliquez sur Créer.

Étape 10 : Affichage de la sortie et publication dans un catalogue

Procédez comme suit pour afficher le fichier de sortie dans le projet, puis publiez le dans un catalogue.

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 10:40.

  1. Dans le menu de navigation Cloud Pak for Data, sélectionnez Projets > Afficher tous les projets.
  2. Ouvrez le projet Intégration de données multicloud.
  3. Dans l'onglet Actifs, cliquez sur Données > Actif de données.
  4. Ouvrez le fichier MORTGAGE_APPLICANTS_INTEREST_RATES.CSV.
  5. Faites défiler jusqu'au droit de consulter vos données intégrées avec les taux d'intérêt à la fin de chaque entrée de données.
  6. Cliquez sur Intégration de données multicloud dans les éléments de navigation pour revenir au projet.
  7. Dans l'onglet Actifs, cliquez sur le menu déroulant dynamique à la fin de la ligne du fichier MORTGAGE_APPLICANTS_INTEREST_RATES.CSV et choisissez Publier dans le catalogue.
  8. Sélectionnez Catalogue d'approbation d'hypothèque dans la liste et cliquez sur Publier.
  9. Dans le menu de navigation Cloud Pak for Data, sélectionnez Catalogues > Afficher tous les catalogues.
  10. Ouvrez le fichier Catalogue d'approbation d'hypothèque.
  11. Recherchez Mortgage.
  12. Ouvrez le fichier MORTGAGE_APPLICANTS_INTEREST_RATES.CSV.
  13. Cliquez sur l'onglet Actif pour afficher les données.

En savoir plus

Rubrique parent : Tutoriels sur les matrices de données