0 / 0
Retourner à la version anglaise de la documentation
Tutoriel d'intégration de données: Intégration de données

Tutoriel d'intégration de données: Intégration de données

Suivez ce tutoriel pour transformer les données stockées dans trois sources de données externes avec le cas d'utilisation Intégration de données de l'essai de matrice de données. Votre objectif est d'utiliser DataStage pour transformer les données, puis de livrer ces données transformées à un seul fichier de sortie. Si vous avez suivi le tutoriel Virtualiser les données externes , vous avez effectué plusieurs des mêmes tâches à l'aide de Data Virtualization que ce tutoriel exécute à l'aide de DataStage.

Démarrage rapide: Si vous n'avez pas encore créé l'exemple de projet pour ce tutoriel, accédez à l' exemple de projet d'intégration de données dans le concentrateur de ressources.

Le cas d'utilisation de ce tutoriel est que la Golden Bank doit se conformer à un nouveau règlement lorsqu'elle ne peut pas prêter à des demandeurs de prêt sous-qualifiés. En tant qu'ingénieur de données à Golden Bank, vous utilisez actuellement DataStage pour agréger vos données d'applications hypothécaires anonymisées avec les informations personnelles des demandeurs d'hypothèque. Vos prêteurs utilisent ces informations pour les aider à décider s'ils doivent approuver ou refuser des demandes d'hypothèque. Votre direction a ajouté des analystes de risque qui calculent quotidiennement le taux d'intérêt qu'ils recommandent aux emprunteurs dans chaque plage de score de crédit. Vous devez intégrer ces informations dans la feuille de calcul que vous partagez avec les prêteurs. La feuille de calcul comprend des informations sur le score de crédit pour chaque candidat, la dette totale du candidat et une table de correspondance des taux d'intérêt. Enfin, chargez vos données dans un fichier CSV de sortie cible.

L'image animée suivante fournit un aperçu rapide de ce que vous allez accomplir à la fin de ce tutoriel. Vous utiliserez DataStage pour joindre le candidat et les données d'application, filtrer par état, joindre les scores de crédit du candidat, calculer la dette totale, rechercher le taux d'intérêt hypothécaire à offrir en fonction des plages de scores de crédit et générer le résultat dans un fichier CSV. Cliquez sur l'image pour afficher une image plus grande.

Image animée

Aperçu du tutoriel

Dans ce tutoriel, vous exécutez les tâches suivantes :

Regarder une vidéo Regardez cette vidéo pour prévisualiser les étapes de ce tutoriel. Il peut y avoir de légères différences dans l'interface utilisateur affichée dans la vidéo. La vidéo est destinée à être un compagnon du tutoriel écrit.

Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.





Conseils pour l'exécution de ce tutoriel

Utiliser la vidéo image-in-picture

Astuce: Démarrez la vidéo, puis au fur et à mesure que vous faites défiler le tutoriel, la vidéo passe en mode image-en-image. Fermez la table des matières vidéo pour la meilleure expérience avec l'image en image. Vous pouvez utiliser le mode image-dans-image pour pouvoir suivre la vidéo à mesure que vous effectuez les tâches de ce tutoriel. Cliquez sur les horodatages de chaque tâche à suivre.

L'image animée suivante montre comment utiliser les fonctions d'image vidéo et de table des matières:

Comment utiliser l'image en image et les chapitres

Obtenir de l'aide dans la communauté

Si vous avez besoin d'aide pour ce tutoriel, vous pouvez poser une question ou trouver une réponse dans le forum de discussion de la communautéCloud Pak for Data.

Configurez les fenêtres de votre navigateur

Pour une expérience optimale lors de l'exécution de ce tutoriel, ouvrez Cloud Pak for Data dans une fenêtre de navigateur et laissez cette page de tutoriel ouverte dans une autre fenêtre de navigateur pour basculer facilement entre les deux applications. Envisagez d'organiser les deux fenêtres du navigateur côte à côte pour faciliter le suivi.

Tutoriel et interface utilisateur côte à côte

Astuce: Si vous rencontrez une visite guidée lors de l'exécution de ce tutoriel dans l'interface utilisateur, cliquez sur Peut-être plus tard.



Configuration des prérequis

Prérequis

Inscription à Cloud Pak for Data as a Service (en anglais)

Vous devez vous inscrire à Cloud Pak for Data as a Service et mettre à disposition les services nécessaires pour le cas d'utilisation d'intégration de données.

  • Si vous disposez d'un compte Cloud Pak for Data as a Service existant, vous pouvez utiliser ce tutoriel. Si vous disposez d'un compte de plan Lite, un seul utilisateur par compte peut exécuter ce tutoriel.
  • Si vous ne disposez pas encore d'un compte Cloud Pak for Data as a Service , inscrivez-vous à un essai de matrice de données.

icône Vidéo Regardez la vidéo suivante pour en savoir plus sur la matrice de données dans Cloud Pak for Data.

Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.

Vérifiez les services mis à disposition nécessaires

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo à partir de 01:09.

Important: Le service DataStage est disponible uniquement dans les régions de Dallas et de Francfort. Si nécessaire, passez à la région de Dallas ou de Francfort avant de continuer.

Procédez comme suit pour vérifier ou mettre à disposition les services nécessaires:

  1. Dans Cloud Pak for Data, vérifiez que vous vous trouvez dans la région de Dallas ou de Francfort. Si ce n'est pas le cas, cliquez sur le menu déroulant de la région, puis sélectionnez Dallas ou Francfort.
    Changer de région

  2. Dans le Cloud Pak for Data Menu de navigation, sélectionnez Services > Instances de service.

  3. Utilisez la liste déroulante Produit pour déterminer s'il existe une instance de service DataStage .

  4. Si vous devez créer une instance de service DataStage, cliquez sur Ajouter un service.

  5. Sélectionnez DataStage.

    1. Pour la région, sélectionnez Dallas ou Francfort.

    2. Sélectionnez le plan Lite .

    3. Cliquez sur Créer.

  6. Répétez ces étapes pour vérifier ou mettre à disposition les services supplémentaires suivants :

    • IBM Knowledge Catalog
    • Cloud Object Storage

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre les instances de service mises à disposition:

Services mis à disposition

Créez l'exemple de projet

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo à partir de 01:44.

Si vous disposez déjà de l'exemple de projet pour ce tutoriel, passez à la Tâche 1. Sinon, procédez comme suit :

  1. Accédez à l' exemple de projet d'intégration de données dans le concentrateur de ressources.

  2. Cliquez sur Créer un projet.

  3. Si vous êtes invité à associer le projet à une instance Cloud Object Storage, sélectionnez une instance Cloud Object Storage dans la liste.

  4. Cliquez sur Créer.

  5. Attendez que l'importation du projet soit terminée, puis cliquez sur Afficher le nouveau projet pour vérifier que le projet et les actifs ont été créés avec succès.

  6. Cliquez sur l'onglet Actifs pour afficher les connexions et le flux DataStage .

Remarque: Vous pouvez voir une visite guidée présentant les tutoriels inclus avec ce cas d'utilisation. Les liens de la visite guidée ouvriront ces instructions de tutoriel.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre l'onglet Actifs dans l'exemple de projet. Vous êtes maintenant prêt à démarrer le tutoriel.

Exemple de projet




Tâche 1: Exécuter un flux DataStage existant

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo qui commence à 02:40.

Commencez par un flux DataStage de base qui joint les demandeurs d'hypothèque et les jeux de données d'applications d'hypothèque, puis génère un résultat dans un fichier CSV dans le projet. Procédez comme suit pour exécuter le flux DataStage :

  1. Commencez dans le projet Data integration . Si le projet n'est pas ouvert, procédez comme suit:

    1. Dans le Cloud Pak for Data Menu de navigation, sélectionnez Projets > Afficher tous les projets.

    2. Ouvrez le projet Intégration de données .

  2. Cliquez sur l'onglet Actifs pour afficher tous les actifs du projet.

  3. Cliquez sur Flux > DataStage.

    Astuce: Si vous ne voyez aucun flux DataStage , revenez voir vos instances de service pour vérifier que votre instance DataStage a été mise à disposition. Voir Mise à disposition des services nécessaires.
  4. Cliquez sur le flux Intégration de données dans la liste pour l'ouvrir. Ce flux joint les tables Mortgage demandeurs et Mortgage Applications qui sont stockées dans Db2 Warehouse, filtre les données de ces enregistrements à partir de l'état de Californie et crée un fichier séquentiel au format CSV comme sortie.

  5. Cliquez sur l'icône zoom avant Zoom avant et sur l'icône zoom arrière Zoom arrière de la barre d'outils pour définir votre vue préférée du canevas.

  6. Cliquez deux fois sur le noeud MORTGAGE_APPLICATIONS_1 pour afficher les paramètres.

    1. Développez la section Propriétés.

    2. Faites défiler vers le bas, puis cliquez sur Prévisualiser les données. Cet ensemble de données inclut les informations capturées sur une application de prêt hypothécaire.

    3. Cliquez sur Fermer.

  7. Cliquez deux fois sur le noeud MORTGAGE_APPLICANTS_1 pour afficher les paramètres.

    1. Développez la section Propriétés.

    2. Faites défiler vers le bas, puis cliquez sur Prévisualiser les données. Cet ensemble de données inclut des informations sur les demandeurs d'hypothèque qui ont demandé un prêt.

    3. Facultatif: Visualisez les données.

      1. Cliquez sur le panneau Graphique .

      2. Dans la liste Colonnes à visualiser , sélectionnez STATE.

      3. Cliquez sur Visualiser les données pour afficher un graphique circulaire montrant la distribution des données par état.

      4. Cliquez sur l'icône Carte d'arborescence pour afficher les mêmes données dans un graphique de carte d'arborescence.

    4. Cliquez sur Fermer.

  8. Cliquez deux fois sur le noeud Join_on_ID pour afficher les paramètres.

    1. Développez la section Propriétés.

    2. Notez que la clé de jointure est la colonne ID.
      Clé de jointure Join_on_ID

    3. Cliquez sur Annuler pour fermer les paramètres.

  9. Cliquez sur l'icône Journaux Afficher le journal dans la barre d'outils pour surveiller la progression du flux.

  10. Cliquez sur Compiler, puis sur Exécuter. Vous pouvez également cliquer sur Exécuter qui compile puis exécute le flux DataStage . L'exécution peut prendre environ une minute.

  11. Affichez les journaux. Vous pouvez utiliser le nombre total de lignes et de lignes par seconde pour chaque étape du flux afin de vérifier visuellement que le filtre fonctionne comme prévu.

  12. Une fois l'exécution terminée, cliquez sur Intégration de données dans la trace de navigation pour revenir au projet.
    Trace de navigation

  13. Dans l'onglet Actifs , cliquez sur Données > Actifs de données.

  14. Ouvrez le fichier MORTGAGE_INTEREST_RATES.CSV. Vous pouvez voir que ce fichier contient les colonnes des ensembles de données des demandeurs d'hypothèque et des demandes d'hypothèque.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre le résultat de la commande MORTGAGE_INTEREST_RATES.CSV . La tâche suivante consiste à éditer le flux DataStage .

MORTGAGE_INTEREST_RATES.CSV




Présentation: Edition du flux DataStage

Maintenant que vous avez rejoint le demandeur d'hypothèque et les données d'application, vous êtes prêt à éditer le flux DataStage pour:

  • Tâche 2: Indiquez une colonne clé pour l'étape Join.
  • Tâche 3: Ajouter des données de score de crédit à partir d'une base de données PostgreSQL .
  • Tâche 4: Ajouter une étape Joindre pour joindre les données de score de crédit au demandeur et aux données d'application.
  • Tâche 5: Ajouter une étape Transformer pour calculer la dette totale.
  • Tâche 6: Ajouter des données de taux d'intérêt à partir d'une base de données MongoDB .
  • Tâche 7: Ajouter une étape de recherche pour rechercher les taux d'intérêt des candidats en fonction de leurs scores de crédit et des fourchettes de taux d'intérêt quotidiens de la Golden Bank.



Tâche 2: spécifier la colonne de clé pour l'étape Join

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo qui commence à 04:33.

L'identification d'une colonne de clé indique à DataStage que cette colonne contient des valeurs uniques. Le noeud Join_on_ID joint les demandeurs d'hypothèque et les fichiers d'applications d'hypothèque à l'aide de la colonne ID de la clé de jointure. La phase suivante consiste à joindre le jeu de données résultant avec les données de score de crédit. Par la suite, vous joindrez les données filtrées résultantes au jeu de données de score de crédit. La deuxième jointure utilise la colonne EMAIL_ADDRESS comme clé de jointure. Dans cette tâche, vous éditez le flux DataStage pour spécifier la colonne EMAIL_ADDRESS comme colonne de clé pour le jeu de données résultant lorsqu'il est joint aux données de score de crédit.

L'image animée suivante fournit une représentation visuelle comme alternative à la description des deux noeuds de jointure. Cliquez sur l'image pour afficher une image plus grande.

noeuds de
jointure

Pour modifier les paramètres du noeud Joindre, procédez comme suit:

  1. Cliquez sur Intégration de données dans la trace de navigation pour revenir au projet.
    Trace de navigation

  2. Dans l'onglet Actifs , cliquez sur Flux > DataStage.

  3. Ouvrez le flux Intégration de données .

  4. Cliquez deux fois sur le noeud ID_joint_joint_joint_jointes pour modifier les paramètres.

  5. Cliquez sur l'onglet Sortie et développez la section Colonnes pour afficher la liste des colonnes du fichier joint.

  6. Cliquez sur le bouton Editer.

  7. Pour le nom de colonne EMAIL_ADDRESS, sélectionnez Clé.

  8. Cliquez sur Appliquer et renvoyer pour revenir aux paramètres du noeud Join_on_ID.

  9. Cliquez sur Sauvegarder pour enregistrer les paramètres du noeud Join_on_ID.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre le flux DataStage avec l'étape Join_on_id éditée. Maintenant que vous avez identifié la colonne EMAIL_ADDRESS comme colonne de clé, vous pouvez ajouter les données PostgreSQL contenant les scores de crédit des candidats.

Etape Join_on_id




Tâche 3: Ajouter des données de score de crédit à partir d'une base de données PostgreSQL

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo qui commence à 05:14.

Procédez comme suit pour ajouter les données de score de crédit stockées dans une base de données PostgreSQL au flux DataStage :

  1. Dans la palette de nœuds, développez la section Connecteurs.

  2. Faites glisser le connecteur Navigateur d'actifs sur le canevas en regard du noeud MORTGAGE_APPLICANTS_1 .

  3. Localisez l'actif en sélectionnant Connexion > Data Fabric Trial- Databases for PostgreSQL > BANKING > CREDIT_SCORE.

    Remarque: Cliquez sur le nom de la connexion ou du schéma à la place de la case à cocher pour développer la connexion et le schéma.

    Aperçu du score de crédit

  4. Cliquez sur l'icône Aperçu Icône de vue pour prévisualiser les données de score de crédit de chaque candidat.

  5. Cliquez sur Ajouter.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre le flux DataStage avec l'actif de score de crédit ajouté. Maintenant que vous avez ajouté les données de score de crédit au canevas, vous devez joindre les données de candidat, de demande et de score de crédit.

Actif de données de score de crédit




Tâche 4: Ajouter une étape Joindre pour joindre les données de score de crédit avec les données du candidat et de la demande

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo qui commence à 05:46.

Procédez comme suit pour ajouter une autre étape Join afin de rejoindre l'application de prêt hypothécaire filtrée et le demandeur de prêt hypothécaire a joint des données avec les données de score de crédit dans le flux DataStage :

  1. Dans la palette de nœuds, développez la section Étapes.

  2. Faites glisser l'étape Join sur le canevas et déposez le noeud sur la ligne de lien entre les noeuds Filter_State_Code et Sequential_file_1 .

  3. Survolez le connecteur CREDIT_SCORE_1 pour afficher la flèche. Connectez la flèche à l'étape de Jointure.

  4. Cliquez deux fois sur le noeud CREDIT_SCORE_1 pour modifier les paramètres.

    1. Cliquez sur l'onglet Sortie et développez la section Colonnes pour afficher la liste des colonnes du fichier joint.

    2. Cliquez sur le bouton Editer.

    3. Pour les noms de colonne EMAIL_ADDRESS et CREDIT_SCORE, sélectionnez Clé.

    4. Cliquez sur Appliquer et renvoyer pour revenir aux paramètres du noeud CREDIT_SCORE_1.

    5. Cliquez sur Sauvegarder pour enregistrer les paramètres du noeud CREDIT_SCORE_1.

  5. Cliquez deux fois sur le noeud Join_1 pour modifier les paramètres.

    1. Développez la section Propriétés.

    2. Cliquez sur Ajouter une clé.

      1. Cliquez à nouveau sur Ajouter une clé.

      2. Sélectionnez EMAIL_ADDRESS dans la liste des clés possibles.

      3. Cliquez sur Appliquer.

    3. Cliquez sur Appliquer et renvoyer pour revenir aux paramètres du noeud Join_1 .

    4. Remplacez le nom du noeud Join_1 par Join_on_email.

    5. Cliquez sur Sauvegarder pour enregistrer les paramètres du noeud Join_1.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre le flux DataStage avec une deuxième étape Join ajoutée. Maintenant que vous avez rejoint les données de demande, de candidat et de score de crédit, vous devez ajouter une étape Transformer pour calculer la dette totale de chaque candidat.

Etape Join_on_email




Tâche 5: Ajouter une étape Transformer pour calculer la dette totale

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo à partir de 07:00.

Pour ajouter une étape Transformer qui crée une nouvelle colonne en additionnant les colonnes LOAN_AMOUNT et CREDITCARD_DETTE, procédez comme suit:

  1. Dans la section Etapes , faites glisser l'étape Transformer sur la grille et déposez le noeud sur la ligne de lien entre les noeuds Join_on_email et Sequential_file_1 .

  2. Cliquez deux fois sur le noeud de transformateur pour modifier les paramètres.

  3. Cliquez sur l'onglet Sortie.

    1. Cliquez sur Ajouter une colonne.

    2. Faites défiler la liste des colonnes vers le bas pour afficher la nouvelle colonne.

    3. Nommez la colonne TOTAL_DEBT.

    4. Cliquez sur l'icône Editer Icône Editer dans la colonne Dérivation de la ligne.

    5. Cliquez sur l'icône Calculatrice Icône de calculatrice dans la colonne Dérivation pour ouvrir le générateur d'expressions.

    6. Recherchez LOAN_AMOUNTet cliquez deux fois sur le nom de la colonne pour l'ajouter à l'expression. Notez que le numéro de lien est ajouté au nom de la colonne.

    7. Entrez un signe plus +.

    8. Recherchez CREDITCARD_DEBT, puis cliquez deux fois sur le nom de la colonne pour l'ajouter à l'expression. Notez que le numéro de lien est ajouté au nom de la colonne.

    9. Vérifiez que l'expression finale est Link_5.LOAN_AMOUNT + Link_5.CREDITCARD_DEBT.

      Remarque: votre numéro de lien peut être différent.
    10. Cliquez sur Appliquer et renvoyer pour revenir à la page de transformateur.

    11. Pour le nom de colonne CREDIT_SCORE , sélectionnez Clé.

  4. Cliquez sur Enregistrer et renvoyer pour revenir au canevas.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre le flux DataStage avec l'étape Transformer ajoutée. Maintenant que vous avez calculé la dette totale de chaque candidat, vous devez ajouter le tableau des taux d'intérêt à offrir en fonction des fourchettes de score de crédit.

Etape Transformer




Tâche 6: Ajouter des données de taux d'intérêt à partir d'une base de données MongoDB

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo qui commence à 07:49.

Procédez comme suit pour inclure les taux d'intérêt dans le flux en ajoutant un connecteur d'actif de données à une base de données MongoDB :

  1. Dans la palette de nœuds, développez la section Connecteurs.

  2. Faites glisser le connecteur Navigateur d'actifs sur la grille à coté du noeud CREDIT_SCORE_1.

  3. Localisez l'actif en sélectionnant Connexion > Data Fabric Trial-Mongo DB > DOCUMENT > DS_INTEREST_RATES.

  4. Cliquez sur l'icône Aperçu Icône de vue pour prévisualiser les taux d'intérêt de chaque plage de scores de crédit.
    Afficher l'actif de données
    Vous pouvez utiliser les valeurs des colonnes STARTING_LIMIT et ENDING_LIMIT pour rechercher le taux d'intérêt approprié en fonction du score de crédit du candidat. La colonne ID n'est pas nécessaire, vous devez donc supprimer cette colonne à l'étape suivante.

  5. Cliquez sur Ajouter.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre le flux DataStage avec l'actif de données de taux d'intérêt ajouté à partir de la source externe MongoDB . Maintenant que vous avez ajouté le tableau des taux d'intérêt, vous pouvez rechercher le taux d'intérêt approprié pour chaque candidat.

Actif de données de taux d'intérêt




Tâche 7: Ajouter une étape de recherche pour rechercher les taux d'intérêt des candidats

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo à partir de 08:35.

En fonction du score de crédit de chaque candidat, vous souhaitez rechercher le taux d'intérêt approprié. Procédez comme suit pour ajouter une étape de recherche et spécifier la plage des limites de score de crédit de début et de fin pour chaque taux d'intérêt:

  1. Dans la section Etapes , faites glisser l'étape Lookup sur le canevas et déposez le noeud sur la ligne de lien entre les noeuds Transformer_1 et Sequential_file_1 .

  2. Connectez le connecteur DS_INTEREST_RATES_1 à l'étape Lookup_1.

  3. Cliquez deux fois sur le noeud DS_INTEREST_RATES_1 pour modifier les paramètres.

  4. Cliquez sur l'onglet Sortie.

    1. Développez la section Colonnes et cliquez sur Éditer.

    2. Sélectionnez la colonne _ID.

    3. Cliquez sur l'icône Supprimer Icône de corbeille pour supprimer la colonne _ID .

    4. Cliquez sur Appliquer et renvoyer pour revenir aux paramètres du noeud DS_INTEREST_RATES_1.

    5. Cliquez sur Sauvegarder pour enregistrer les modifications apportées au noeud DS_INTEREST_RATES_1.

  5. Cliquez deux fois sur le noeud Lookup_1 pour modifier les paramètres.

  6. Développez la section Propriétés.

    1. Dans la zone Appliquer la plage aux colonnes, sélectionnez CREDIT_SCORE. Les zones Reference Links, Operatoret Range column s'affichent.

    2. Pour les liens de référence, sélectionnez Link_9.

      Remarque: votre numéro de lien peut être différent.
    3. Pour le premier opérateur, sélectionnez < =.

    4. Pour la première Colonne de plage, sélectionnez ENDING_LIMIT.

    5. Pour le second opérateur, sélectionnez > =.

    6. Pour la seconde colonne de plage, sélectionnez STARTING_LIMIT.

  7. Cliquez sur l'onglet Sortie.

    1. Développez la section Colonnes et cliquez sur Éditer.

    2. Sélectionnez les colonnes STARTING_LIMIT et ENDING_LIMIT .

    3. Cliquez sur l'icône Supprimer Icône de corbeille pour supprimer ces colonnes STARTING_LIMIT et ENDING_LIMIT inutiles.

    4. Cliquez sur Appliquer et renvoyer pour revenir aux paramètres du noeud Lookup_1.

    5. Cliquez sur Sauvegarder pour enregistrer les modifications apportées au noeud Lookup_1.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre que le flux DataStage avec l'étape Lookup a été ajouté. Le flux DataStage est maintenant terminé. La dernière tâche avant d'exécuter le flux consiste à spécifier le nom du fichier de sortie.

Étape Lookup




Tâche 8: Editer le noeud de fichier séquentiel et exécuter le flux DataStage

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo qui commence à 09:56.

Procédez comme suit pour éditer le noeud de fichier séquentiel afin de créer un fichier de sortie final en tant qu'actif de données dans le projet, puis compilez et exécutez le flux DataStage :

  1. Cliquez deux fois sur le noeud Sequential_file_1 pour modifier les paramètres.

  2. Cliquez sur l'onglet Entrée.

  3. Développez la section Propriétés.

  4. Pour le fichier cible, copiez et collez MORTGAGE_APPLICANTS_INTEREST_RATES.CSV pour le nom de fichier.

  5. Sélectionnez Créer un actif de données.

  6. Pour la zone La première ligne correspond aux noms de colonne , sélectionnez True.

  7. Cliquez sur Sauvegarder.

  8. Cliquez sur Exécuter qui compile, puis exécute le flux DataStage . Le travail prend environ 1 minute.

  9. Cliquez sur Journaux dans la barre d'outils pour surveiller la progression du flux. Il est normal de voir des avertissements pendant l'exécution, puis vous voyez que le flux s'est exécuté avec succès.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre que le flux DataStage s'est exécuté avec succès. Maintenant que le flux DataStage a créé le fichier de sortie, vous devez créer le catalogue dans lequel vous allez publier le fichier de sortie.

Exécution de DataStage terminée




Tâche 9: Créer un catalogue pour stocker l'actif de données publié

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo à partir de 10:28.

D'autres ingénieurs de données et analystes métier de Golden Bank doivent avoir accès aux taux d'intérêt hypothécaire. Avec le plan Lite IBM Knowledge Catalog , vous pouvez créer deux catalogues. Si vous avez déjà un catalogue, ignorez cette étape. Sinon, procédez comme suit pour créer un catalogue dans lequel vous pouvez publier le jeu de données sur les taux d'intérêt.

  1. Dans le Cloud Pak for Data Menu de navigation, sélectionnez Catalogues > Afficher tous les catalogues.

  2. Si vous voyez un catalogue d'approbation hypothécaire sur la page Catalogues , passez à la Tâche 10: Afficher la sortie et publier dans un catalogue. Sinon, procédez comme suit pour créer un nouveau catalogue:

  3. Cliquez sur Créer un catalogue.

  4. Pour le Nom, copiez et collez le nom du catalogue exactement comme indiqué sans espaces de début ou de fin:

    Mortgage Approval Catalog
    
  5. Sélectionnez Appliquer les règles de protection des données, confirmez la sélection et acceptez les valeurs par défaut pour les autres zones.

  6. Cliquez sur Créer.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre votre catalogue. Maintenant que le catalogue d'approbation hypothécaire existe, vous pouvez publier le fichier de sortie dans le catalogue.

Catalogue d'approbation de prêt hypothécaire




Tâche 10: Afficher la sortie et la publier dans un catalogue

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo à partir de 10:57.

Pour afficher le fichier de sortie dans le projet, puis le publier dans un catalogue, procédez comme suit:

  1. Dans le Cloud Pak for Data Menu de navigation, sélectionnez Projets > Afficher tous les projets.

  2. Ouvrez le projet Intégration de données .

  3. Dans l'onglet Actifs , cliquez sur Données > Actifs de données.

  4. Ouvrez le fichier MORTGAGE_APPLICANTS_INTEREST_RATES.CSV.

  5. Faites défiler pour afficher toutes les colonnes de votre ensemble de données intégré avec les taux d'intérêt à la fin de chaque entrée de données.

  6. Cliquez sur Intégration de données dans la trace de navigation pour revenir au projet.

  7. Dans l'onglet Actifs , cliquez sur le menu Dépassement Menu déroulant dynamique à la fin de la ligne correspondant à MORTGAGE_APPLICANTS_INTEREST_RATES.CSV et choisissez Publier dans le catalogue.

    1. Sélectionnez le catalogue d'approbation hypothécaire (ou le nom de votre catalogue) dans la liste, puis cliquez sur Suivant.

    2. Sélectionnez l'option permettant d' accéder au catalogue après sa publication, puis cliquez sur Suivant.

    3. Passez en revue les actifs et cliquez sur Publier.

  8. Dans le catalogue, recherchez Mortgage.

  9. Ouvrez le fichier MORTGAGE_APPLICANTS_INTEREST_RATES.CSV.

  10. Cliquez sur l'onglet Actif pour afficher les données.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre MORTGAGE_APPLICANTS_INTEREST_RATES.CSV dans le catalogue. Les données dont les prêteurs ont besoin pour prendre des décisions en matière d'hypothèque sont désormais disponibles.

MORTGAGE_APPLICANTS_INTEREST_RATES.CSV dans le catalogue



En tant qu'ingénieur de données chez Golden Bank, vous avez intégré le demandeur d'hypothèque, l'application, l'évaluation de crédit et les informations de score de crédit, et vous avez publié ces données dans un catalogue.

Nettoyage (facultatif)

Si vous souhaitez reprendre les tutoriels dans le cas d'utilisation de l'intégration de données, supprimez les artefacts suivants.

Artefact Comment supprimer
Catalogue d'approbation de prêt hypothécaire Supprimer un catalogue
Exemple de projet d'intégration de données Supprimer un projet

Etapes suivantes

En savoir plus

Rubrique parent: Tutoriels de cas d'utilisation

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus