0 / 0
Retourner à la version anglaise de la documentation
Tutoriel sur la gouvernance des données: Consommer vos données
Dernière mise à jour : 28 nov. 2024
Tutoriel sur la gouvernance des données: Consommer vos données

Reprenez ce tutoriel pour travailler avec vos données de haute qualité et protégées après avoir terminé les tutoriels Curate high quality data et Protect your data avec le cas d'utilisation de la gouvernance des données de l'essai data fabric. Votre objectif est d'évaluer, partager, façonner et analyser des données dans le tissu de données.

Démarrage rapide: Si vous n'avez pas encore créé l'exemple de projet pour ce tutoriel, accédez à l' exemple de projet de gouvernance des données dans le concentrateur de ressources.

Le cas d'utilisation de ce tutoriel est que la Golden Bank a plusieurs départements qui ont besoin d'accéder à des données hypothécaires client de haute qualité. En tant qu'analyste de données, vous devez rechercher et trouver les données appropriées, comprendre et faire confiance à son contenu, puis le préparer à d'autres analystes de données et à des scientifiques de données pour utilisation.

L'image animée suivante fournit un aperçu rapide de ce que vous allez accomplir d'ici la fin de ce tutoriel où vous allez afficher les actifs de catalogue, enrichir manuellement les actifs et créer des relations, visualiser les données et filtrer les données pour améliorer la qualité. Cliquez sur l'image pour afficher une image plus grande.

Image animée

Aperçu du tutoriel

Dans ce tutoriel, vous exécutez les tâches suivantes :

Regarder une vidéo Regardez cette vidéo pour prévisualiser les étapes de ce tutoriel. Il peut y avoir de légères différences dans l'interface utilisateur affichée dans la vidéo. La vidéo est destinée à être un compagnon du tutoriel écrit.

Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.





Conseils pour l'exécution de ce tutoriel
Voici quelques conseils pour réussir ce tutoriel.

Utiliser la vidéo image-in-picture

Astuce: Démarrez la vidéo, puis au fur et à mesure que vous faites défiler le tutoriel, la vidéo passe en mode image-en-image. Fermez la table des matières vidéo pour la meilleure expérience avec l'image en image. Vous pouvez utiliser le mode image-dans-image pour pouvoir suivre la vidéo à mesure que vous effectuez les tâches de ce tutoriel. Cliquez sur les horodatages de chaque tâche à suivre.

L'image animée suivante montre comment utiliser les fonctions d'image vidéo et de table des matières:

Comment utiliser l'image en image et les chapitres

Obtenir de l'aide dans la communauté

Si vous avez besoin d'aide pour ce tutoriel, vous pouvez poser une question ou trouver une réponse dans le forum de discussion de la communautéCloud Pak for Data.

Configurez les fenêtres de votre navigateur

Pour une expérience optimale lors de l'exécution de ce tutoriel, ouvrez Cloud Pak for Data dans une fenêtre de navigateur et laissez cette page de tutoriel ouverte dans une autre fenêtre de navigateur pour basculer facilement entre les deux applications. Envisagez d'organiser les deux fenêtres du navigateur côte à côte pour faciliter le suivi.

Tutoriel et interface utilisateur côte à côte

Astuce: Si vous rencontrez une visite guidée lors de l'exécution de ce tutoriel dans l'interface utilisateur, cliquez sur Peut-être plus tard.



Configuration des prérequis

Suivez les tutoriels des prérequis

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 00:39.

Suivez les tutoriels Curate high quality data et Protect your data :

Base Premium Standard Sauf indication contraire, ces informations s'appliquent à toutes les éditions d'IBM Knowledge Catalog




Tâche 1: Comprendre les actifs de données

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 01:12.

Les actifs de données dans les catalogues sont bien plus que des pointeurs vers des données. Ils contiennent des informations sur le format et la signification des données et des statistiques sur les valeurs de données. Pour comprendre la valeur des actifs de données, procédez comme suit:

  1. Dans le menu de navigation " Menu de navigation, choisissez Catalogues > Afficher tous les catalogues.

  2. Ouvrez le fichier Catalogue d'approbation d'hypothèque.

  3. La section des actifs présentés affiche les actifs récemment ajoutés , les actifs recommandés qui sont des actifs suggérés par l'intelligence artificielle et l'apprentissage automatique en fonction de votre utilisation et de votre popularité passées, ainsi que les actifs hautement évalués que les collaborateurs de catalogue ont évalués et examinés.

  4. Cliquez sur Masquer les actifs présentés pour fermer cette section.

  5. Recherchez mortgage.

  6. Cliquez sur MORTGAGE_APPLICANTS_TRUST pour afficher cet actif de catalogue. L'onglet Présentation et le panneau latéral fournissent des informations de base sur l'actif, telles que la description, une évaluation, les étiquettes, l'emplacement de l'actif, les termes métier, les classes de données et les éléments associés.

  7. Cliquez sur l'onglet Profil. Les informations de profil vous aident à comprendre le contenu, la qualité et la convivialité des données.

  8. Faites défiler vers la droite pour localiser la colonne ZIP_CODE .

  9. La classe de données qui a été automatiquement affectée à la colonne ZIP_CODE est Entité commerciale et gouvernementale. Notez que la classe de données affectée automatiquement peut varier. Les valeurs étant des codes postaux, vous pouvez facilement reclasser cette colonne. Cliquez sur la liste déroulante pour afficher les autres classes de données possibles et leurs niveaux de confiance. Sélectionnez Code postal américain.

  10. Cliquez sur l'onglet Actif pour afficher un aperçu des données.

  11. Revenez à l'onglet Présentation pour voir plus de métadonnées sur les colonnes. Dans la liste des colonnes, recherchez la colonne EMPLOYMENT_STATUS pour afficher les métadonnées, y compris les termes métier affectés.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre l'actif MORTGAGE_APPLICANTS_TRUST dans le catalogue. Vous avez exploré le type d'informations que IBM Knowledge Catalog ajoute automatiquement aux actifs de données lors de l'enrichissement des métadonnées. Dans la tâche suivante, vous allez enrichir manuellement cet actif de données.

Actif MORTGAGE_APPLICANTS_TRUST




Tâche 2: Enrichir les actifs et créer des relations

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 02:49.

Vous pouvez rendre les actifs plus précieux en leur ajoutant des informations. Par exemple, vous pouvez ajouter votre opinion sur l'actif, mettre à jour les propriétés de l'actif et créer des relations pour lier des actifs. Pour enrichir des actifs et créer des relations, procédez comme suit:

  1. Pour l'actif de catalogue MORTGAGE_APPLICANTS_TRUST , cliquez sur l'onglet Revue . Notez et commentez cet actif afin que les autres puissent le trouver facilement.

    1. Sélectionnez 5 étoiles pour la notation.

    2. Pour la révision, copiez et collez le texte suivant:

      This contains high quality customer data from the mortgage system.
      
    3. Cliquez sur Soumettre.

  2. Cliquez sur l'onglet Présentation .

  3. Cliquez sur l'icône " Editer ou " Editer à côté du nom de l'actif pour modifier le nom de l'actif.

    1. Remplacez le nom par:

      MORTGAGE_APPLICANTS_TRUST_PROTECT
      
    2. Cliquez sur Appliquer.

  4. Dans la section Description du panneau latéral droit, cliquez sur l'icône d'ajout " Ajouter.

    Remarque :

    Si cette ressource possède une description existante, vous verrez une icône Modifier " Editer au lieu d'une icône Ajouter.

    1. Copiez et collez la description suivante:

      Mortgage applicants from the Mortgage System
      
    2. Cliquez sur Appliquer.

  5. Comme cette immobilisation concerne des prêts hypothécaires, cliquez sur l'icône Ajouter 'Ajouter ou sur l'icône Modifier 'Editer à côté de Termes commerciaux.

    1. Dans la zone Rechercher , entrez loan.

      Remarque: Il n'est pas nécessaire d'appuyer sur la touche Entrée après avoir saisi le terme recherché. Une liste des résultats s'affiche immédiatement après la saisie du terme recherché.
    2. Sélectionnez Prêt.

    3. Cliquez sur Sauvegarder.

  6. Comme cette ressource contient des informations personnelles, cliquez sur l'icône Ajouter " Ajouter ou sur l'icône Modifier " Editer dans la section Classifications.

    1. Sélectionnez informations personnellement identifiables.

    2. Cliquez sur Sauvegarder.

  7. Etant donné que cet actif est lié à d'autres actifs hypothécaires, en regard de Articles liés, cliquez sur Ajouter des articles apparentés > Ajouter des actifs apparentés.

    1. Sélectionnez Est lié à et cliquez sur Suivant.

    2. Sélectionnez les ressources CREDIT_SCORE et MORTGAGE_APPLICATION, puis cliquez sur Ajouter.

  8. Cliquez sur MORTGAGE_APPLICATION pour afficher cet actif associé.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre l'onglet Présentation de l'actif MORTGAGE_APPLICANTS_TRUST_PROTECT dans le catalogue. Vous avez rendu ces actifs plus précieux en vérifiant, en mettant à jour les propriétés et en ajoutant des relations aux actifs. Dans la tâche suivante, vous allez ajouter l'actif enrichi à un projet.

MORTGAGE_APPLICANTS_TRUST avec des actifs apparentés




Tâche 3: Ajouter des données enrichies à un projet

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 04:09.

L'équipe d'analystes de données a besoin des données des demandeurs d'hypothèque dans le projet d'analyse d'hypothèque pour affiner, visualiser, analyser et utiliser comme données de formation pour les modèles. Pour ajouter les données enrichies à un projet, procédez comme suit:

  1. Cliquez sur Catalogue d'approbation des hypothèques dans la piste de navigation.
    Trace de navigation

  2. À la fin de la ligne d'asset du catalogue MORTGAGE_APPLICANTS_TRUST_PROTECT, cliquez sur le menu Overflow 'Menu déroulant dynamique et sélectionnez Add to project.

    1. Dans la liste déroulante Cible , sélectionnez le projet Gouvernance des données .

    2. Cliquez sur Ajouter.

  3. Lorsque la notification s'affiche, cliquez sur Aller au projet. Si vous manquez la notification, procédez comme suit :

    1. Cliquez sur le menu de navigation 'Menu de navigation, choisissez Projets > Voir tous les projets.

    2. Cliquez sur le projet Gouvernance des données .

  4. Dans le projet, cliquez sur l'onglet Actifs pour afficher l'actif de données MORTGAGE_APPLICANTS_TRUST_PROTECT .

Icône de point de contrôle Vérifier votre progression

L'image suivante montre l'actif MORTGAGE_APPLICANTS_TRUST_PROTECT dans le projet. Vous êtes maintenant prêt à visualiser les données.

MORTGAGE_APPLICANTS_TRUST_PROTECT actif dans le projet




Tâche 4: Visualiser les données

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 04:39.

Vous devez nettoyer et affiner les données des demandeurs d'hypothèque pour les préparer à vos outils et modèles analytiques. Un moyen rapide et facile de déterminer comment il doit être mis en forme consiste à visualiser les données dans Data Refinery. La visualisation est basée sur les 5 000 premières lignes des données. Pour visualiser les données, procédez comme suit:

  1. Cliquez sur l'actif de données MORTGAGE_APPLICANTS_TRUST_PROTECT pour prévisualiser les données.

  2. Cliquez sur Préparer les données pour ouvrir l'actif de données dans Data Refineryet attendez que les données soient lues et traitées.

  3. Dans le panneau A propos de cet actif , cliquez sur le X pour fermer le panneau.

  4. Dans le panneau Etapes , cliquez sur le X pour fermer le panneau.

  5. Cliquez sur l'onglet Visualisations.

  6. Pour la colonne à visualiser, sélectionnez EMPLOYMENT_STATUS.

  7. Cliquez sur Visualiser les données. L'outil sélectionne un graphique circulaire comme meilleur type de graphique pour cette colonne, qui affiche la répartition des candidats par statut d'emploi. Notez les types de graphique suggérés qui sont indiqués par un point bleu en regard de la barre, du nuage de mots et du rayon.

  8. Pour Type de graphique, sélectionnez le type de graphique à bulles . Le graphique à bulles est un moyen simple de visualiser rapidement la distribution des valeurs dans un jeu de données particulier.

  9. Dans la liste déroulante Type de graphique , sélectionnez le type de graphique Relation .

  10. Ce type de graphique requiert deux colonnes. Sélectionnez ces colonnes :

    1. Pour la première colonne, sélectionnez EMPLOYMENT_STATUS.

    2. Cliquez sur Ajouter une autre colonne.

    3. Pour la deuxième colonne, sélectionnez ÉDUCATION.

  11. Avec le graphique Relation , vous pouvez sélectionner des noeuds finaux pour afficher les relations. Par exemple, vous pouvez voir le statut d'emploi des candidats par niveau de scolarité.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre l'actif MORTGAGE_APPLICANTS_TRUST_PROTECT visualisé dans Data Refinery. Vous êtes maintenant prêt à nettoyer les données.

Visualisation des relations




Tâche 5: Préparer les données pour l'analyse et l'intelligence artificielle

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 05:59.

Vous ne pouvez pas traiter les candidats sans numéro de sécurité sociale, vous devez donc examiner les données et supprimer les candidats sans numéro de sécurité sociale. Pour préparer les données MORTGAGE_APPLICANTS_TRUST_PROTECT, vous devez:

  • Affichez la fréquence des valeurs dans la colonne Social_Security_Number.
  • Filtrez les candidats dont les valeurs sont manquantes dans la colonne Social_Security_Number.

Procédez comme suit pour préparer les données:

  1. Dans Data Refinery, cliquez sur l'onglet Profil .

  2. Faites défiler vers la droite pour localiser la colonne Social_Security_Number . Notez plusieurs valeurs manquantes.

  3. Cliquez sur l'onglet Données pour filtrer ces enregistrements. Dans la barre d'état située au bas de l'écran, Data Refinery indique que FULL DATA SET comporte 1101 lignes.

  4. Si le panneau Etapes n'est pas visible, cliquez sur Etapes pour ouvrir le panneau.

  5. Cliquez sur Nouvelle étape.

    1. Dans la section Nettoyer , sélectionnez Filtrer.

    2. Dans la zone Colonne , sélectionnez la colonne Social_Security_Number .

    3. Dans la zone Opérateur , sélectionnez N'est pas vide.

    4. Cliquez sur Appliquer. Notez que dans la barre d'état située au bas de l'écran, Data Refinery indique désormais que FULL DATA SET contient 1000 lignes car les lignes dont les numéros de sécurité sociale sont manquants sont filtrées. Notez qu'une nouvelle étape s'affiche dans le panneau Etapes affichant l'opération Filtrer .

  6. Cliquez sur l'onglet Profil.

  7. Faites défiler vers la droite pour localiser la colonne Social_Security_Number . Notez que les valeurs manquantes ont disparu.

  8. Dans la barre d'outils, cliquez sur l'icône Enregistrer " Sauvegarder.

  9. Dans la barre d'outils, cliquez sur l'icône Exporter et sélectionnez Exporter les données actuelles au format CSV.
    Au format csv

    1. Sauvegardez le fichier MORTGAGE_APPLICANTS_TRUST_PROTECT_shaped.csv dans un dossier local.

    2. Accédez à ce dossier et ouvrez le fichier CSV, qui contient 1000 lignes et aucun candidat ne manque le numéro de sécurité sociale.

  10. Retournez à Cloud Pak for Data, et cliquez sur le projet de gouvernance des données dans la piste de navigation.
    Trace de navigation

  11. Cliquez sur Tous les actifset localisez le nouvel actif de flux Data Refinery nommé MORTGAGE_APPLICANTS_TRUST_PROTECT_flow.

Astuce: Vous pouvez sauvegarder l'ensemble de données affiné dans le projet ou dans une source de données externe, telle que l'instance Db2 Warehouse dans laquelle les ensembles de données d'origine sont stockés. Pour plus d'informations, voir Création de travaux dans Data Refinery.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre le fichier MORTGAGE_APPLICANTS_TRUST_PROTECT_shaped.csv que vous avez affiné dans Data Refinery. Cet ensemble de données contient des informations sur les demandeurs d'hypothèque qui ont fourni un numéro de sécurité sociale.

Actif de données affiné



En tant qu'analyste de données pour Golden Bank, vous avez appris à rechercher et à trouver les données appropriées, à comprendre et à faire confiance à leur contenu, puis à les préparer pour que d'autres analystes de données et spécialistes des données les utilisent.

Nettoyage (facultatif)

Si vous souhaitez reprendre les tutoriels dans le cas d'utilisation de gouvernance des données, supprimez les artefacts suivants.

Artefact Comment supprimer
Termes métier importés Supprimer des artefacts de gouvernance
Catégorie bancaire Supprimer une catégorie.
Règles de protection des données: Informations confidentielles et numéro de sécurité sociale Redact Supprimer des règles de protection des données
Catalogue d'approbation de prêt hypothécaire Supprimer un catalogue
Exemple de projet de gouvernance des données Supprimer un projet

Etapes suivantes

En savoir plus

Rubrique parent: Tutoriels de cas d'utilisation

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus