0 / 0
Retourner à la version anglaise de la documentation
Tutoriel sur la gouvernance des données: Organisation de données de haute qualité

Tutoriel sur la gouvernance des données: Organisation de données de haute qualité

Suivez ce tutoriel pour apprendre à préparer des données sécurisées avec le cas d'utilisation de gouvernance des données de l'essai de matrice de données. Votre objectif est de créer des actifs de données de confiance en enrichissant vos données et en exécutant une analyse de la qualité des données.

Démarrage rapide: Si vous n'avez pas encore créé l'exemple de projet pour ce tutoriel, accédez à l' exemple de projet de gouvernance de données dans la galerie.

L'image animée suivante fournit un aperçu rapide de ce que vous allez accomplir d'ici la fin de ce tutoriel où vous allez importer des métadonnées à partir d'une source de données externe, enrichir ces données avec des termes métier affectés automatiquement, afficher les données enrichies et publier les données enrichies dans un catalogue. Cliquez sur l'image pour afficher une image plus grande.

Image animée

Le cas d'utilisation de ce tutoriel est que la Golden Bank a plusieurs départements qui ont besoin d'accéder à des données hypothécaires client de haute qualité. En tant qu'intendant de données au sein de l'équipe de gouvernance, vous devez trier et organiser les données de la société pour fournir des actifs de données de haute qualité et protégés que les consommateurs de données peuvent facilement trouver dans un catalogue en libre-service.

Dans ce tutoriel, vous exécutez les tâches suivantes :

Si vous avez besoin d'aide pour ce tutoriel, posez une question ou trouvez une réponse dans le forum de discussion de la communautéCloud Pak for Data.

Astuce: Pour une expérience optimale lors de l'exécution de ce tutoriel, ouvrez Cloud Pak for Data dans une fenêtre de navigateur et laissez cette page de tutoriel ouverte dans une autre fenêtre de navigateur pour basculer facilement entre les deux applications. Envisagez d'organiser les deux fenêtres du navigateur côte à côte pour faciliter le suivi.

Tutoriel et interface utilisateur côte à côte

Aperçu du tutoriel

Regarder une vidéo Regardez cette vidéo pour prévisualiser les étapes de ce tutoriel. Il peut y avoir de légères différences dans l'interface utilisateur affichée dans la vidéo. La vidéo est destinée à être un compagnon du tutoriel écrit.

Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.

Astuce: Démarrez la vidéo, puis au fur et à mesure que vous faites défiler le tutoriel, la vidéo passe en mode image-en-image. Fermez la table des matières de la vidéo pour la meilleure expérience avec l'image en image. Vous pouvez utiliser le mode image-dans-image pour pouvoir suivre la vidéo à mesure que vous effectuez les tâches de ce tutoriel. Cliquez sur les horodatages de chaque tâche à suivre.

L'image animée suivante montre comment utiliser les fonctions d'image vidéo et de table des matières:

Comment utiliser l'image en image et les chapitres

Prérequis

Inscription à Cloud Pak for Data as a Service (en anglais)

Vous devez vous inscrire à Cloud Pak for Data as a Service et mettre à disposition les services nécessaires pour le cas d'utilisation de gouvernance des données.

  • Si vous disposez d'un compte Cloud Pak for Data as a Service existant, vous pouvez utiliser ce tutoriel. Si vous disposez d'un compte de plan Lite, un seul utilisateur par compte peut exécuter ce tutoriel.
  • Si vous ne disposez pas encore d'un compte Cloud Pak for Data as a Service , inscrivez-vous à un essai de matrice de données.

Vérifiez les services mis à disposition nécessaires

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo à partir de 01:05.

Procédez comme suit pour vérifier ou mettre à disposition les services nécessaires:

  1. Dans le Cloud Pak for Data Menu de navigation, sélectionnez Services > Instances de service.

  2. Utilisez la liste déroulante Produit pour déterminer s'il existe une instance de service Watson Knowledge Catalog .

  3. Si vous devez créer une instance de service Watson Knowledge Catalog, cliquez sur Ajouter un service.

    1. Sélectionnez Watson Knowledge Catalog.

    2. Sélectionnez le plan Lite .

    3. Cliquez sur Créer.

  4. Répétez ces étapes pour vérifier ou mettre à disposition le service Cloud Object Storage .

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre les instances de service mises à disposition:

Services mis à disposition

Créez l'exemple de projet

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo à partir de 01:38.

Si vous n'avez pas déjà créé l'exemple de projet pour ce tutoriel, procédez comme suit:

  1. Accédez à l' exemple de projet de gouvernance des données dans la galerie.

  2. Cliquez sur Créer un projet.

  3. Si vous êtes invité à associer le projet à une instance Cloud Object Storage, sélectionnez une instance Cloud Object Storage dans la liste.

  4. Cliquez sur Créer.

  5. Attendez que l'importation du projet soit terminée, puis cliquez sur Afficher le nouveau projet pour vérifier que le projet et les actifs ont été créés avec succès.

    Remarque: Si c'est la première fois que vous accédez à un projet, une visite guidée vous demande si vous voulez une visite guidée des projets. Pour le moment, cliquez sur Peut-être plus tard.
  6. Cliquez sur l'onglet Actifs pour afficher les actifs du projet.

  7. Dans le menu Menu déroulant dynamique Dépassement situé à la fin de la ligne d'actif de données Banking.csv , choisissez Téléchargeret sauvegardez-le sur votre ordinateur. Vous utiliserez ce fichier dans une étape ultérieure.

Remarque: Vous pouvez voir une visite guidée montrant les tutoriels qui sont inclus avec ce cas d'utilisation. Les liens de la visite guidée ouvriront ces instructions de tutoriel.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre l'onglet Actifs dans l'exemple de projet. Vous êtes maintenant prêt à démarrer le tutoriel.

Exemple de projet

Tâche 1: Créer un catalogue

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo qui commence à 02:49.

Avant de commencer à utiliser des données, créez un catalogue dans lequel vous publierez des données pour les partager avec votre organisation. Avec le plan Lite Watson Knowledge Catalog , vous ne pouvez créer que deux catalogues. Si vous disposez déjà d'un catalogue, vous pouvez ignorer cette étape. Sinon, procédez comme suit pour créer un catalogue:

Astuce: Si c'est la première fois que vous accédez à un catalogue, une visite guidée vous demande si vous souhaitez effectuer une visite guidée des catalogues. Pour le moment, cliquez sur Peut-être plus tard.
  1. Dans le Cloud Pak for Data Menu de navigation, sélectionnez Catalogues > Afficher tous les catalogues.

  2. Si vous voyez un catalogue dans la page Catalogues , passez à la Tâche 2: Créer une catégorie. Sinon, procédez comme suit pour créer un nouveau catalogue:

  3. Cliquez sur Créer un catalogue.

  4. Pour le Nom, copiez et collez le nom du catalogue exactement comme indiqué sans espaces de début ou de fin:

     Mortgage Approval Catalog
    
  5. Si vous êtes invité à associer le catalogue à une instance Cloud Object Storage, sélectionnez un Cloud Object Storage dans la liste.

  6. Sélectionnez Appliquer les règles de protection des données, confirmez la sélection et acceptez les valeurs par défaut pour les autres zones.

  7. Cliquez sur Créer.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre votre catalogue. Vous êtes maintenant prêt à partager des actifs avec votre organisation.

Catalogue d'approbation de prêt hypothécaire

Tâche 2: Créer une catégorie

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo qui commence à 03:13.

Vous avez besoin d'une catégorie pour contenir les termes métier que vous allez importer dans la tâche suivante. Les catégories agissent comme des dossiers pour organiser vos artefacts de gouvernance et les personnes qui peuvent créer et gérer ces artefacts. Pour créer une catégorie, procédez comme suit:

  1. Dans le Cloud Pak for Data Menu de navigation, sélectionnez Gouvernance > Catégories.

  2. Cliquez sur Ajouter une catégorie > Nouvelle catégorie.

  3. Pour le nom, entrez Banking.

  4. Cliquez sur Créer.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre la catégorie Banque. Vous êtes maintenant prêt à importer des termes métier.

Catégorie bancaire

Tâche 3: Ajouter des termes métier

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo qui commence à 03:41.

A présent, importez des termes métier dans la nouvelle catégorie. Vous les utiliserez pour enrichir vos actifs de données lors d'une étape ultérieure. Les termes métier sont des définitions normalisées des concepts métier afin que vos données soient décrites de manière uniforme et facilement compréhensible dans votre entreprise. Pour importer les termes métier à partir d'un fichier, procédez comme suit:

  1. Dans le Cloud Pak for Data Menu de navigation, sélectionnez Gouvernance > Termes métier.

  2. Cliquez sur Ajouter un terme métier > Importer à partir d'un fichier.

  3. Cliquez sur Faire glisser et déposer le fichier ici ou le télécharger.

    1. Sélectionnez le fichier banking.csv que vous avez téléchargé précédemment.

    2. Cliquez sur Ouvrir.

  4. Cliquez sur Suivant.

  5. Sélectionnez Remplacer toutes les valeurs, puis cliquez sur Suivant.

  6. Cliquez sur Accéder à la tâche pour afficher le brouillon des termes métier. Si vous manquez la notification, dans le Cloud Pak for Data Menu de navigation, sélectionnez Gouvernance > Boîte de réception des tâches.

  7. Cochez la case Publier les termes métier , puis cliquez sur Publier. Cliquez sur Publier pour confirmer.

  8. Dans le Cloud Pak for Data Menu de navigation, sélectionnez Gouvernance > Termes métier pour afficher les termes métier publiés.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre les termes métier importés. Vous êtes maintenant prêt à importer les données dans un projet, puis à les enrichir avec les termes métier importés.

Termes métier importés

Tâche 4: Importer des données dans un projet

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo qui commence à 04:47.

L'exemple de projet inclut une connexion à une instance Db2 Warehouse , qui contient les actifs hypothécaires. Vous pouvez importer des métadonnées techniques associées aux actifs de données dans un projet ou un catalogue pour inventorier, évaluer et cataloguer ces actifs. Les métadonnées techniques décrivent la structure des objets de données. Pour importer les actifs de données, procédez comme suit:

  1. Dans le Cloud Pak for Data Menu de navigation, sélectionnez Projets > Afficher tous les projets.

  2. Cliquez sur le projet Gouvernance des données .

  3. Cliquez sur l'onglet Actifs.

  4. Cliquez sur Nouvel actif.

  5. Sélectionnez Importation de métadonnées pour le type d'actif.

  6. Pour le nom, copiez et collez le texte suivant:

    Mortgage data - metadata import
    
  7. Cliquez sur Suivant pour continuer.

  8. Sur la page Sélectionner une cible , sélectionnez Ce projet, puis cliquez sur Suivant pour continuer.

  9. Sur la page Sélectionner une portée , cliquez sur Sélectionner une connexion.

    1. Sélectionnez la connexion Offre d'essai de la matrice de données - Db2 Warehouse .

    2. Cochez la case en regard du schéma WKC_HYPOTHÈQUE , puis cliquez sur le nom de schéma WKC_HYPOTHÈQUE .

    3. Sélectionnez les tableaux suivantes :

      • CLIENT ??? AL_client
      • CREDIT_SCORE
      • HOUSE_PRICE
      • MORTGAGE_APPLICANTS
      • MORTGAGE_APPLICATION
    4. Passez en revue la liste des actifs dans le panneau latéral, puis cliquez sur Sélectionner.

  10. Cliquez sur Suivant pour poursuivre l'exécution de la planification. Vous pouvez exécuter manuellement l'enrichissement de métadonnées, de sorte que le planning reste désactivé.

  11. Cliquez sur Suivant pour passer aux Options avancées.

  12. Acceptez les valeurs par défaut de la page Options avancées et cliquez sur Suivant pour passer à la revue.

  13. Passez en revue le récapitulatif de l'importation et cliquez sur Créer. Le travail d'importation des métadonnées démarre.

  14. Cliquez sur l'icône Actualiser Icône Actualiser pour surveiller le changement de statut de En file d'attente à En cours à Importé. Une fois l'exécution du travail terminée, vous voyez les cinq actifs répertoriés.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre l'importation de métadonnées terminée. Votre tâche suivante consiste à enrichir les actifs de données importés avec les termes métier importés.

Actif d' Metadata import

Tâche 5: Enrichir les données importées

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo qui commence à 06:07.

Vous pouvez enrichir des actifs de données avec des informations qui aident les utilisateurs à trouver des données plus rapidement pour déterminer si les données sont appropriées pour la tâche en cours, si elles peuvent faire confiance aux données et comment les utiliser. Ces informations sont notamment des termes qui définissent la signification des données, des règles qui documentent la propriété ou déterminent des normes de qualité, ou des révisions. Procédez comme suit pour enrichir les données importées:

  1. Cliquez sur le nom de projet Gouvernance des données dans la trace de navigation.
    Trace de navigation

  2. Dans l'onglet Actifs , cliquez sur Nouvel actif.

  3. Sélectionnez Enrichissement de métadonnées pour le type d'actif.

  4. Pour le nom, copiez et collez le texte suivant:

    Mortgage data - metadata enrichment
    
  5. Cliquez sur Suivant pour continuer.

  6. Cliquez sur Sélectionner les données du projet.

    1. Sélectionnez Metadata import.

    2. Cochez la case en regard de Mortgage data-metadata import. Cet actif inclut les actifs suivants:

      • COMMERICIAL_CLIENT
      • CREDIT_SCORE
      • HOUSE_PRICE
      • MORTGAGE_APPLICANTS
      • MORTGAGE_APPLICATION
    3. Cliquez sur Sélectionner.

  7. Cliquez sur Suivant pour poursuivre l'objectif d'enrichissement.

  8. Sélectionner tous les objectifs d'enrichissement:

    • Données de profil
    • Analyser la qualité
    • Affecter des termes
  9. Pour Catégories, cliquez sur Sélectionner des catégories.

    1. Sélectionnez uniquement [ sans catégorie ] et Banque.

    2. Cliquez sur Sélectionner.

  10. Pour Échantillonnage, sélectionnez De base.

  11. Cliquez sur Suivant pour poursuivre l'exécution de la planification. Vous pouvez exécuter manuellement l'importation, de sorte que la planification reste désactivée.

  12. Cliquez sur Suivant pour poursuivre l'examen.

  13. Cliquez sur Créer.

  14. L'actif d'enrichissement de métadonnées s'affiche, mais l'exécution du travail peut prendre plusieurs minutes. Cliquez sur l'icône Actualiser Icône Actualiser pour surveiller le changement de statut de Non analysé à En cours à Terminé. Une fois l'exécution du travail terminée, vous voyez les cinq actifs répertoriés.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre l'enrichissement des métadonnées terminé. Vous pouvez maintenant explorer les actifs de données enrichis.

Actif d'enrichissement de métadonnées

Tâche 6: Afficher les résultats de l'enrichissement des métadonnées

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo qui commence à 07:45.

Une fois l'exécution de l'enrichissement des métadonnées terminée, procédez comme suit pour afficher les données enrichies:

  1. Dans l'écran Mortgage data-metadata enrichissement , cliquez sur l'onglet Columns .

  2. Dans la liste Colonnes, recherchez la colonne EMAIL_ADDRESS de l'actif MORTGAGE_APPLICANTS .

    1. A la fin de la ligne EMAIL_ADDRESS pour MORTGAGE_APPLICANTS , cliquez sur le menu Dépassement Menu déroulant dynamique et sélectionnez Afficher les détails de la colonne.

    2. Dans le panneau latéral de l'onglet Détails , vous pouvez voir des informations de profilage telles que: Format, Distribution des fréquences, Statistiques.

    3. Dans le panneau latéral, cliquez sur l'onglet Gouvernance . Cet onglet inclut les classes de données et les termes métier qui ont été affectés automatiquement lors de l'enrichissement des métadonnées. Vous pouvez également voir les termes métier et les classes de données suggérés et les affecter manuellement.

    4. Passez en revue les termes suggérés et affectez-les manuellement:

      1. Cliquez sur Termes métier suggérés.

      2. Pour Adresse, cliquez sur Affecter.

  3. A la fin de la colonne EMAIL_ADDRESS pour la ligne d'actif MORTGAGE_APPLICANTS , cliquez sur le menu Menu déroulant dynamique Dépassement et sélectionnez Afficher les détails de la qualité des données.

    1. Affichez les informations sur la qualité des données. Watson Knowledge Catalog génère automatiquement un score de qualité de données pour chaque colonne et actif de données en analysant chaque valeur de chaque enregistrement en fonction de dimensions préconfigurées.

    2. Cliquez sur le X pour fermer la fenêtre Qualité de données .

  4. Pour la colonne CITY de l'actif CREDIT_SCORE , cliquez sur le menu Overflow Menu déroulant dynamique et choisissez Marquer comme révisé.

  5. Cliquez sur l'onglet Actifs.

  6. Dans la liste Actifs, pour l'actif MORTGAGE_APPLICANTS , cliquez sur le menu Dépassement Menu déroulant dynamique et sélectionnez Afficher les détails de l'actif.

    1. Dans le panneau latéral, cliquez sur l'onglet Gouvernance pour afficher l'affectation automatique de terme métier.

    2. Cliquez sur l'icône Editer Icône Editer pour affecter manuellement des termes métier.

    3. Recherchez social. Si vous ne voyez aucun résultat, assurez-vous que la liste déroulante est définie sur Tous les termes au lieu de Termes suggérés.

    4. Sélectionnez Numéro de sécurité sociale.

    5. Cliquez sur Assign.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre les actifs de données révisés et enrichis. L'étape suivante consiste à publier les données enrichies dans un catalogue à partager avec votre organisation.

Actifs de données enrichis révisés

Tâche 7: Publier des données dans un catalogue

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo qui commence à 09:06.

Maintenant que vous avez enrichi des données, vous souhaitez publier ces actifs de données dans un catalogue afin que les informaticiens et les analystes de données puissent utiliser les ressources de données enrichies. Procédez comme suit pour stocker les ressources de données enrichies dans un catalogue afin que les autres utilisateurs puissent accéder aux données sécurisées:

  1. Cliquez sur le nom de projet Gouvernance des données dans la trace de navigation.

  2. Cliquez sur l'onglet Actifs.

  3. Sélectionnez Données > Actifs de données.

  4. Sélectionnez les actifs de données MACIAL_CLIENT, HOUSE_PRICE, MORTGAGE_APPLICANTSet MORTGAGE_APPLICATION dans la liste, puis cliquez sur Publier dans le catalogue.

    1. Pour le catalogue Cible, sélectionnez Catalogue d'approbation d'hypothèque.

    2. Pour l'actif MORTGAGE_APPLICANTS , cliquez sur l'icône Editer Icône Editer et remplacez le nom par:

      MORTGAGE_APPLICANTS_TRUST
      
    3. Pour la balise, entrez la balise trustedet cliquez sur + (signe plus).

    4. Notez que l'actif de données et l'actif de connexion seront ajoutés au catalogue. Cliquez sur Publier.

  5. Désélectionnez tous les actifs cochés, puis cochez la case en regard de l'actif CREDIT_SCORE dans la liste, puis cliquez sur Publier dans le catalogue.

    1. Pour le catalogue Cible, sélectionnez Catalogue d'approbation d'hypothèque.

    2. Pour la balise, entrez la balise confidentialet cliquez sur + (signe plus).

    3. Pour la balise, entrez la balise trustedet cliquez sur + (signe plus).

    4. Cliquez sur Publier.

  6. Dans le Cloud Pak for Data Menu de navigation, sélectionnez Catalogues > Afficher tous les catalogues.

  7. Cliquez sur Catalogue d'approbation d'hypothèque.

  8. Dans la liste déroulante Filtrer par > Toute balise , sélectionnez Trusted. Vérifiez que les cinq actifs de données ont été ajoutés au catalogue.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre les actifs de données enrichis publiés dans un catalogue. Vous disposez maintenant de données de confiance disponibles dans le catalogue de votre société.

Actifs publiés dans le catalogue

En tant qu'intendant de données au sein de l'équipe de gouvernance, vous avez appris à trier et à organiser les données de la société afin de fournir des actifs de données de haute qualité et protégés que les consommateurs de données peuvent facilement trouver dans un catalogue en libre-service.

Etapes suivantes

Vous êtes maintenant prêt à protéger vos données en créant des règles de protection des données et des flux de masquage pour contrôler l'accès à vos données.Voir le tutoriel Protégez vos données.

En savoir plus

Rubrique parent : Tutoriels sur les matrices de données

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus