Tutoriel d'intégration de données: Intégration de données
Suivez ce tutoriel pour transformer les données stockées dans trois sources de données externes avec le cas d'utilisation Intégration de données de l'essai de matrice de données. Votre objectif est d'utiliser DataStage pour transformer les données, puis de livrer ces données transformées à un seul fichier de sortie. Si vous avez suivi le tutoriel Virtualiser les données externes , vous avez effectué de nombreuses tâches identiques à l'aide de Watson Query que ce tutoriel exécute à l'aide de DataStage.
Le cas d'utilisation de ce tutoriel est que la Golden Bank doit se conformer à un nouveau règlement lorsqu'elle ne peut pas prêter à des demandeurs de prêt sous-qualifiés. En tant qu'ingénieur de données à Golden Bank, vous utilisez actuellement DataStage pour agréger vos données d'applications hypothécaires anonymisées avec les informations personnelles des demandeurs d'hypothèque. Vos prêteurs utilisent ces informations pour les aider à décider s'ils doivent approuver ou refuser des demandes d'hypothèque. Votre direction a ajouté des analystes de risque qui calculent quotidiennement le taux d'intérêt qu'ils recommandent aux emprunteurs dans chaque plage de score de crédit. Vous devez intégrer ces informations dans la feuille de calcul que vous partagez avec les prêteurs. La feuille de calcul comprend des informations sur le score de crédit pour chaque candidat, la dette totale du candidat et une table de correspondance des taux d'intérêt. Enfin, chargez vos données dans un fichier CSV de sortie cible.
L'image animée suivante fournit un aperçu rapide de ce que vous allez accomplir à la fin de ce tutoriel. Vous utiliserez DataStage pour joindre le candidat et les données d'application, filtrer par état, joindre les scores de crédit du candidat, calculer la dette totale, rechercher le taux d'intérêt hypothécaire à offrir en fonction des plages de scores de crédit et générer le résultat dans un fichier CSV. Cliquez sur l'image pour afficher une image plus grande.
Aperçu du tutoriel
Dans ce tutoriel, vous exécutez les tâches suivantes :
- Configurez les prérequis.
- Tâche 1: Exécuter un flux DataStage existant
- Éditer le flux DataStage pour :
- Tâche 2: Spécification d'une colonne de clé pour l'étape Join
- Tâche 3: Ajouter des données de score de crédit à partir d'une base de données PostgreSQL
- Tâche 4: Ajouter une étape de jointure pour joindre les données de score de crédit avec les données de candidat et d'application
- Tâche 5: Ajouter une étape Transformer pour calculer la dette totale
- Tâche 6: Ajouter des données de taux d'intérêt à partir d'une base de données MongoDB
- Tâche 7: Ajouter une étape Lookup pour rechercher les taux d'intérêt des candidats
- Tâche 8: Editer le noeud de fichier séquentiel et exécuter le flux DataStage
- Tâche 9: Créer un catalogue pour stocker l'actif de données publié
- Tâche 10: Afficher la sortie et la publier dans un catalogue
- Nettoyage (facultatif)
Regardez cette vidéo pour prévisualiser les étapes de ce tutoriel. Il peut y avoir de légères différences dans l'interface utilisateur affichée dans la vidéo. La vidéo est destinée à être un compagnon du tutoriel écrit.
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Conseils pour l'exécution de ce tutoriel
Voici quelques conseils pour réussir ce tutoriel.
Utiliser la vidéo image-in-picture
L'image animée suivante montre comment utiliser les fonctions d'image vidéo et de table des matières:
Obtenir de l'aide dans la communauté
Si vous avez besoin d'aide pour ce tutoriel, vous pouvez poser une question ou trouver une réponse dans le forum de discussion de la communautéCloud Pak for Data.
Configurez les fenêtres de votre navigateur
Pour une expérience optimale lors de l'exécution de ce tutoriel, ouvrez Cloud Pak for Data dans une fenêtre de navigateur et laissez cette page de tutoriel ouverte dans une autre fenêtre de navigateur pour basculer facilement entre les deux applications. Envisagez d'organiser les deux fenêtres du navigateur côte à côte pour faciliter le suivi.
Configuration des prérequis
Prérequis
Inscription à Cloud Pak for Data as a Service (en anglais)
Vous devez vous inscrire à Cloud Pak for Data as a Service et mettre à disposition les services nécessaires pour le cas d'utilisation d'intégration de données.
- Si vous disposez d'un compte Cloud Pak for Data as a Service existant, vous pouvez utiliser ce tutoriel. Si vous disposez d'un compte de plan Lite, un seul utilisateur par compte peut exécuter ce tutoriel.
- Si vous ne disposez pas encore d'un compte Cloud Pak for Data as a Service , inscrivez-vous à un essai de matrice de données.
Regardez la vidéo suivante pour en savoir plus sur la matrice de données dans Cloud Pak for Data.
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Vérifiez les services mis à disposition nécessaires
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 01:08.
Procédez comme suit pour vérifier ou mettre à disposition les services nécessaires:
Dans Cloud Pak for Data, vérifiez que vous vous trouvez dans la région de Dallas ou de Francfort. Si ce n'est pas le cas, cliquez sur le menu déroulant de la région, puis sélectionnez Dallas ou Francfort.
Dans le Cloud Pak for Data , sélectionnez Services > Instances de service.
Utilisez la liste déroulante Produit pour déterminer s'il existe une instance de service DataStage .
Si vous devez créer une instance de service DataStage, cliquez sur Ajouter un service.
Sélectionnez DataStage.
Pour la région, sélectionnez Dallas ou Francfort.
Sélectionnez le plan Lite .
Cliquez sur Créer.
Répétez ces étapes pour vérifier ou mettre à disposition les services supplémentaires suivants :
- IBM Knowledge Catalog
- Cloud Object Storage
Vérifiez votre progression
L'image suivante montre les instances de service mises à disposition:
Créez l'exemple de projet
Pour prévisualiser cette tâche, regardez la vidéo à partir de 01:44.
Si vous disposez déjà de l'exemple de projet pour ce tutoriel, passez à la Tâche 1. Sinon, procédez comme suit :
Accédez à l' exemple de projet d'intégration de données dans le concentrateur de ressources.
Cliquez sur Créer un projet.
Si vous êtes invité à associer le projet à une instance Cloud Object Storage, sélectionnez une instance Cloud Object Storage dans la liste.
Cliquez sur Créer.
Attendez que l'importation du projet soit terminée, puis cliquez sur Afficher le nouveau projet pour vérifier que le projet et les actifs ont été créés avec succès.
Cliquez sur l'onglet Actifs pour afficher les connexions et le flux DataStage .
Vérifiez votre progression
L'image suivante montre l'onglet Actifs dans l'exemple de projet. Vous êtes maintenant prêt à démarrer le tutoriel.
Tâche 1: Exécuter un flux DataStage existant
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 02:29.
Commencez par un flux DataStage de base qui joint les demandeurs d'hypothèque et les jeux de données d'applications d'hypothèque, puis génère un résultat dans un fichier CSV dans le projet. Procédez comme suit pour exécuter le flux DataStage :
Commencez dans le projet Data integration . Si le projet n'est pas ouvert, procédez comme suit:
Dans le Cloud Pak for Data , sélectionnez Projets > Afficher tous les projets.
Ouvrez le projet Intégration de données .
Cliquez sur l'onglet Actifs pour afficher tous les actifs du projet.
Cliquez sur Flux > DataStage.
Astuce: Si vous ne voyez aucun flux DataStage , revenez voir vos instances de service pour vérifier que votre instance DataStage a été mise à disposition. Voir Mise à disposition des services nécessaires.Cliquez sur le flux Intégration de données dans la liste pour l'ouvrir. Ce flux joint les tables Mortgage demandeurs et Mortgage Applications qui sont stockées dans Db2 Warehouse, filtre les données de ces enregistrements à partir de l'état de Californie et crée un fichier séquentiel au format CSV comme sortie.
Cliquez sur l'icône zoom avant et sur l'icône zoom arrière de la barre d'outils pour définir votre vue préférée du canevas.
Cliquez deux fois sur le noeud MORTGAGE_APPLICATIONS_1 pour afficher les paramètres.
Développez la section Propriétés.
Faites défiler vers le bas, puis cliquez sur Prévisualiser les données. Cet ensemble de données inclut les informations capturées sur une application de prêt hypothécaire.
Cliquez sur Fermer.
Cliquez deux fois sur le noeud MORTGAGE_APPLICANTS_1 pour afficher les paramètres.
Développez la section Propriétés.
Faites défiler vers le bas, puis cliquez sur Prévisualiser les données. Cet ensemble de données inclut des informations sur les demandeurs d'hypothèque qui ont demandé un prêt.
Facultatif: Visualisez les données.
Cliquez sur le panneau Graphique .
Dans la liste Colonnes à visualiser , sélectionnez STATE.
Cliquez sur Visualiser les données pour afficher un graphique circulaire montrant la distribution des données par état.
Cliquez sur l'icône Carte d'arborescence pour afficher les mêmes données dans un graphique de carte d'arborescence.
Cliquez sur Fermer.
Cliquez deux fois sur le noeud Join_on_ID pour afficher les paramètres.
Développez la section Propriétés.
Notez que la clé de jointure est la colonne ID.
Cliquez sur Annuler pour fermer les paramètres.
Cliquez sur l'icône Journaux dans la barre d'outils pour surveiller la progression du flux.
Cliquez sur Compiler, puis sur Exécuter. Vous pouvez également cliquer sur Exécuter qui compile puis exécute le flux DataStage . L'exécution peut prendre environ une minute.
Affichez les journaux. Vous pouvez utiliser le nombre total de lignes et de lignes par seconde pour chaque étape du flux afin de vérifier visuellement que le filtre fonctionne comme prévu.
Une fois l'exécution terminée, cliquez sur Intégration de données dans la trace de navigation pour revenir au projet.
Dans l'onglet Actifs , cliquez sur Données > Actifs de données.
Ouvrez le fichier MORTGAGE_DATA.CSV. Vous pouvez voir que ce fichier contient les colonnes des ensembles de données des demandeurs d'hypothèque et des demandes d'hypothèque.
Vérifiez votre progression
L'image suivante montre le fichier CSV résultant. La tâche suivante consiste à modifier le flux DataStage.
Présentation: Edition du flux DataStage
Maintenant que vous avez rejoint le demandeur d'hypothèque et les données d'application, vous êtes prêt à éditer le flux DataStage pour:
- Tâche 2: Indiquez une colonne clé pour l'étape Join.
- Tâche 3: Ajouter des données de score de crédit à partir d'une base de données PostgreSQL .
- Tâche 4: Ajouter une étape Joindre pour joindre les données de score de crédit au demandeur et aux données d'application.
- Tâche 5: Ajouter une étape Transformer pour calculer la dette totale.
- Tâche 6: Ajouter des données de taux d'intérêt à partir d'une base de données MongoDB .
- Tâche 7: Ajouter une étape de recherche pour rechercher les taux d'intérêt des candidats en fonction de leurs scores de crédit et des fourchettes de taux d'intérêt quotidiens de la Golden Bank.
Tâche 2: spécifier la colonne de clé pour l'étape Join
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 04:42.
L'identification d'une colonne de clé indique à DataStage que cette colonne contient des valeurs uniques. Le noeud Join_on_ID joint les demandeurs d'hypothèque et les fichiers d'applications d'hypothèque à l'aide de la colonne ID de la clé de jointure. La phase suivante consiste à joindre le jeu de données résultant avec les données de score de crédit. Par la suite, vous joindrez les données filtrées résultantes au jeu de données de score de crédit. La deuxième jointure utilise la colonne EMAIL_ADDRESS comme clé de jointure. Dans cette tâche, vous éditez le flux DataStage pour spécifier la colonne EMAIL_ADDRESS comme colonne de clé pour le jeu de données résultant lorsqu'il est joint aux données de score de crédit.
L'image animée suivante fournit une représentation visuelle comme alternative à la description des deux noeuds de jointure. Cliquez sur l'image pour afficher une image plus grande.
Pour modifier les paramètres du noeud Joindre, procédez comme suit:
Cliquez sur Intégration de données dans la trace de navigation pour revenir au projet.
Dans l'onglet Actifs , cliquez sur Flux > DataStage.
Ouvrez le flux Intégration de données .
Cliquez deux fois sur le noeud ID_joint_joint_joint_jointes pour modifier les paramètres.
Cliquez sur l'onglet Sortie et développez la section Colonnes pour afficher la liste des colonnes du fichier joint.
Cliquez sur le bouton Editer.
Pour le nom de colonne EMAIL_ADDRESS, sélectionnez Clé.
Cliquez sur Appliquer et renvoyer pour revenir aux paramètres du noeud Join_on_ID.
Cliquez sur Sauvegarder pour enregistrer les paramètres du noeud Join_on_ID.
Vérifiez votre progression
L'image suivante montre le flux DataStage avec l'étape Join_on_id éditée. Maintenant que vous avez identifié la colonne EMAIL_ADDRESS comme colonne de clé, vous pouvez ajouter les données PostgreSQL contenant les scores de crédit des candidats.
Tâche 3: Ajouter des données de score de crédit à partir d'une base de données PostgreSQL
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 05:23.
Procédez comme suit pour ajouter les données de score de crédit stockées dans une base de données PostgreSQL au flux DataStage :
Dans la palette de nœuds, développez la section Connecteurs.
Faites glisser le connecteur Navigateur d'actifs sur le canevas en regard du noeud MORTGAGE_APPLICANTS_1 .
Localisez l'actif en sélectionnant Connexion > Data Fabric Trial- Databases for PostgreSQL > BANKING > CREDIT_SCORE.
Remarque: Cliquez sur le nom de la connexion ou du schéma à la place de la case à cocher pour développer la connexion et le schéma.Cliquez sur l'icône Aperçu pour prévisualiser les données de score de crédit de chaque candidat.
Cliquez sur Ajouter.
Vérifiez votre progression
L'image suivante montre le flux DataStage avec l'actif de score de crédit ajouté. Maintenant que vous avez ajouté les données de score de crédit au canevas, vous devez joindre les données de candidat, de demande et de score de crédit.
Tâche 4: Ajouter une étape Joindre pour joindre les données de score de crédit avec les données du candidat et de la demande
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 05:54.
Procédez comme suit pour ajouter une autre étape Join afin de rejoindre l'application de prêt hypothécaire filtrée et le demandeur de prêt hypothécaire a joint des données avec les données de score de crédit dans le flux DataStage :
Dans la palette de nœuds, développez la section Étapes.
Faites glisser l'étape Join sur le canevas et déposez le noeud sur la ligne de lien entre les noeuds Filter_State_Code et Sequential_file_1 .
Survolez le connecteur CREDIT_SCORE_1 pour afficher la flèche. Connectez la flèche à l'étape de Jointure.
Cliquez deux fois sur le noeud CREDIT_SCORE_1 pour modifier les paramètres.
Cliquez sur l'onglet Sortie et développez la section Colonnes pour afficher la liste des colonnes du fichier joint.
Cliquez sur le bouton Editer.
Pour les noms de colonne EMAIL_ADDRESS et CREDIT_SCORE, sélectionnez Clé.
Cliquez sur Appliquer et renvoyer pour revenir aux paramètres du noeud CREDIT_SCORE_1.
Cliquez sur Sauvegarder pour enregistrer les paramètres du noeud CREDIT_SCORE_1.
Cliquez deux fois sur le noeud Join_1 pour modifier les paramètres.
Développez la section Propriétés.
Cliquez sur Ajouter une clé.
Cliquez à nouveau sur Ajouter une clé.
Sélectionnez EMAIL_ADDRESS dans la liste des clés possibles.
Cliquez sur Appliquer.
Cliquez sur Appliquer et renvoyer pour revenir aux paramètres du noeud Join_1 .
Remplacez le nom du noeud Join_1 par
Join_on_email
.Cliquez sur Sauvegarder pour enregistrer les paramètres du noeud Join_1.
Vérifiez votre progression
L'image suivante montre le flux DataStage avec une deuxième étape Join ajoutée. Maintenant que vous avez rejoint les données de demande, de candidat et de score de crédit, vous devez ajouter une étape Transformer pour calculer la dette totale de chaque candidat.
Tâche 5: Ajouter une étape Transformer pour calculer la dette totale
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 07:08.
Pour ajouter une étape Transformer qui crée une nouvelle colonne en additionnant les colonnes LOAN_AMOUNT et CREDITCARD_DETTE, procédez comme suit:
Dans la section Etapes , faites glisser l'étape Transformer sur la grille et déposez le noeud sur la ligne de lien entre les noeuds Join_on_email et Sequential_file_1 .
Cliquez deux fois sur le noeud de transformateur pour modifier les paramètres.
Cliquez sur l'onglet Sortie.
Cliquez sur Ajouter une colonne.
Faites défiler la liste des colonnes vers le bas pour afficher la nouvelle colonne.
Nommez la colonne
TOTAL_DEBT
.Cliquez sur l'icône Editer dans la colonne Dérivation de la ligne.
Cliquez sur l'icône Calculatrice dans la colonne Dérivation pour ouvrir le générateur d'expressions.
Recherchez
LOAN_AMOUNT
et cliquez deux fois sur le nom de la colonne pour l'ajouter à l'expression. Notez que le numéro de lien est ajouté au nom de la colonne.Entrez un signe plus
+
.Recherchez
CREDITCARD_DEBT
, puis cliquez deux fois sur le nom de la colonne pour l'ajouter à l'expression. Notez que le numéro de lien est ajouté au nom de la colonne.Vérifiez que l'expression finale est
Link_7.LOAN_AMOUNT + Link_7.CREDITCARD_DEBT
.Remarque: votre numéro de lien peut être différent.Cliquez sur Appliquer et renvoyer pour revenir à la page de transformateur.
Pour le nom de colonne CREDIT_SCORE , sélectionnez Clé.
Cliquez sur l'onglet Stage.
Sélectionnez la page Avancé.
Changez le Mode d'exécution en Séquentiel.
Cliquez sur Enregistrer et renvoyer pour revenir au canevas.
Vérifiez vos progrès
L'image suivante montre le flux DataStage avec l'étape Transformer ajoutée. Maintenant que vous avez calculé la dette totale de chaque candidat, vous devez ajouter le tableau des taux d'intérêt à offrir en fonction des fourchettes de score de crédit.
Tâche 6: Ajouter des données de taux d'intérêt à partir d'une base de données MongoDB
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 08:15.
Procédez comme suit pour inclure les taux d'intérêt dans le flux en ajoutant un connecteur d'actif de données à une base de données MongoDB :
Dans la palette de nœuds, développez la section Connecteurs.
Faites glisser le connecteur Navigateur d'actifs sur la grille à coté du noeud CREDIT_SCORE_1.
Localisez l'actif en sélectionnant Connexion > Data Fabric Trial-Mongo DB > DOCUMENT > DS_INTEREST_RATES.
Cliquez sur l'icône Preview pour avoir un aperçu des taux d'intérêt pour chaque fourchette de score de crédit.
Vous pouvez utiliser les valeurs des colonnes STARTING_LIMIT et ENDING_LIMIT pour rechercher le taux d'intérêt approprié en fonction du score de crédit du demandeur. La colonne ID n'est pas nécessaire, vous devez donc supprimer cette colonne à l'étape suivante.Cliquez sur Ajouter.
Vérifiez vos progrès
L'image suivante montre le flux DataStage avec l'actif de données de taux d'intérêt ajouté à partir de la source externe MongoDB . Maintenant que vous avez ajouté le tableau des taux d'intérêt, vous pouvez rechercher le taux d'intérêt approprié pour chaque candidat.
Tâche 7: Ajouter une étape de recherche pour rechercher les taux d'intérêt des candidats
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 09:00.
En fonction du score de crédit de chaque candidat, vous souhaitez rechercher le taux d'intérêt approprié. Procédez comme suit pour ajouter une étape de recherche et spécifier la plage des limites de score de crédit de début et de fin pour chaque taux d'intérêt:
Dans la section Etapes , faites glisser l'étape Lookup sur le canevas et déposez le noeud sur la ligne de lien entre les noeuds Transformer_1 et Sequential_file_1 .
Connectez le connecteur DS_INTEREST_RATES_1 à l'étape Lookup_1.
Cliquez deux fois sur le noeud DS_INTEREST_RATES_1 pour modifier les paramètres.
Cliquez sur l'onglet Sortie.
Développez la section Colonnes et cliquez sur Éditer.
Sélectionnez la colonne _ID.
Cliquez sur l'icône Delete pour supprimer la colonne _ID.
Cliquez sur Appliquer et renvoyer pour revenir aux paramètres du noeud DS_INTEREST_RATES_1.
Cliquez sur Sauvegarder pour enregistrer les modifications apportées au noeud DS_INTEREST_RATES_1.
Cliquez deux fois sur le noeud Lookup_1 pour modifier les paramètres.
Développez la section Propriétés.
Dans la zone Appliquer la plage aux colonnes, sélectionnez CREDIT_SCORE. Les zones Reference Links, Operatoret Range column s'affichent.
Pour les liens de référence, sélectionnez Link_9.
Remarque: votre numéro de lien peut être différent.Pour le premier opérateur, sélectionnez < =.
Pour la première Colonne de plage, sélectionnez ENDING_LIMIT.
Pour le second opérateur, sélectionnez > =.
Pour la seconde colonne de plage, sélectionnez STARTING_LIMIT.
Cliquez sur l'onglet Sortie.
Développez la section Colonnes et cliquez sur Éditer.
Sélectionnez les colonnes STARTING_LIMIT et ENDING_LIMIT .
Cliquez sur l'icône Delete pour supprimer ces colonnes inutiles STARTING_LIMIT et ENDING_LIMIT.
Cliquez sur Appliquer et renvoyer pour revenir aux paramètres du noeud Lookup_1.
Cliquez sur Sauvegarder pour enregistrer les modifications apportées au noeud Lookup_1.
Vérifiez vos progrès
L'image suivante montre que le flux DataStage avec l'étape Lookup a été ajouté. Le flux DataStage est maintenant terminé. La dernière tâche avant d'exécuter le flux consiste à spécifier le nom du fichier de sortie.
Tâche 8: Editer le noeud de fichier séquentiel et exécuter le flux DataStage
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 10:22.
Procédez comme suit pour éditer le noeud de fichier séquentiel afin de créer un fichier de sortie final en tant qu'actif de données dans le projet, puis compilez et exécutez le flux DataStage :
Cliquez deux fois sur le noeud Sequential_file_1 pour modifier les paramètres.
Cliquez sur l'onglet Entrée.
Développez la section Propriétés.
Pour le fichier cible, copiez et collez
MORTGAGE_APPLICANTS_INTEREST_RATES.CSV
pour le nom de fichier.Sélectionnez Créer un actif de données.
Pour la zone La première ligne correspond aux noms de colonne , sélectionnez True.
Cliquez sur Sauvegarder.
Cliquez sur Exécuter qui compile, puis exécute le flux DataStage . Le travail prend environ 1 minute.
Cliquez sur Journaux dans la barre d'outils pour surveiller la progression du flux. Il est normal de voir des avertissements pendant l'exécution, puis vous voyez que le flux s'est exécuté avec succès.
Vérifiez vos progrès
L'image suivante montre que le flux DataStage s'est exécuté avec succès. Maintenant que le flux DataStage a créé le fichier de sortie, vous devez créer le catalogue dans lequel vous allez publier le fichier de sortie.
Tâche 9: Créer un catalogue pour stocker l'actif de données publié
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 11:00.
D'autres ingénieurs de données et analystes métier de Golden Bank doivent avoir accès aux taux d'intérêt hypothécaire. Avec le plan Lite IBM Knowledge Catalog , vous pouvez créer deux catalogues. Si vous avez déjà un catalogue, ignorez cette étape. Sinon, procédez comme suit pour créer un catalogue dans lequel vous pouvez publier le jeu de données sur les taux d'intérêt.
Dans le menu de navigation Cloud Pak for Data , choisissez Catalogues > Voir tous les catalogues.
Si vous voyez un catalogue d'approbation hypothécaire sur la page Catalogues , passez à la Tâche 10: Afficher la sortie et publier dans un catalogue. Sinon, procédez comme suit pour créer un nouveau catalogue:
Cliquez sur Créer un catalogue.
Pour le Nom, copiez et collez le nom du catalogue exactement comme indiqué sans espaces de début ou de fin:
Mortgage Approval Catalog
Sélectionnez Appliquer les règles de protection des données, confirmez la sélection et acceptez les valeurs par défaut pour les autres zones.
Cliquez sur Créer.
Vérifiez vos progrès
L'image suivante montre votre catalogue. Maintenant que le catalogue d'approbation hypothécaire existe, vous pouvez publier le fichier de sortie dans le catalogue.
Tâche 10: Afficher la sortie et la publier dans un catalogue
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 11:31.
Pour afficher le fichier de sortie dans le projet, puis le publier dans un catalogue, procédez comme suit:
Dans le menu de navigation Cloud Pak for Data , choisissez Projets > Voir tous les projets.
Ouvrez le projet Intégration de données .
Dans l'onglet Actifs , cliquez sur Données > Actifs de données.
Ouvrez le fichier MORTGAGE_APPLICANTS_INTEREST_RATES.CSV.
Faites défiler pour afficher toutes les colonnes de votre ensemble de données intégré avec les taux d'intérêt à la fin de chaque entrée de données.
Cliquez sur Intégration de données dans la trace de navigation pour revenir au projet.
Dans l'onglet Assets, cliquez sur le menu Overflow à la fin de la ligne du fichier MORTGAGE_APPLICANTS_INTEREST_RATES.CSV, et choisissez Publier dans le catalogue.
Sélectionnez le catalogue d'approbation hypothécaire (ou le nom de votre catalogue) dans la liste, puis cliquez sur Suivant.
Sélectionnez l'option permettant d' accéder au catalogue après sa publication, puis cliquez sur Suivant.
Passez en revue les actifs et cliquez sur Publier.
Dans le catalogue, recherchez
Mortgage
.Ouvrez le fichier MORTGAGE_APPLICANTS_INTEREST_RATES.CSV.
Cliquez sur l'onglet Actif pour afficher les données.
Vérifiez vos progrès
L'image suivante montre MORTGAGE_APPLICANTS_INTEREST_RATES.CSV dans le catalogue. Les données dont les prêteurs ont besoin pour prendre des décisions en matière d'hypothèque sont désormais disponibles.
En tant qu'ingénieur de données chez Golden Bank, vous avez intégré le demandeur d'hypothèque, l'application, l'évaluation de crédit et les informations de score de crédit, et vous avez publié ces données dans un catalogue.
Nettoyage (facultatif)
Si vous souhaitez reprendre les tutoriels dans le cas d'utilisation de l'intégration de données, supprimez les artefacts suivants.
Artefact | Comment supprimer |
---|---|
Catalogue d'approbation de prêt hypothécaire | Supprimer un catalogue |
Exemple de projet d'intégration de données | Supprimer un projet |
Etapes suivantes
Essayez d'autres tutoriels:
Inscrivez-vous pour un autre cas d'utilisation de matrice de données.
En savoir plus
Rubrique parent: Tutoriels de cas d'utilisation