0 / 0
Retourner à la version anglaise de la documentation
Tutoriel sur la gouvernance des données: Organisation de données de haute qualité
Dernière mise à jour : 28 nov. 2024
Tutoriel sur la gouvernance des données: Organisation de données de haute qualité

Suivez ce tutoriel pour apprendre à préparer des données sécurisées avec le cas d'utilisation de gouvernance des données de l'essai de matrice de données. Votre objectif est de créer des actifs de données de confiance en enrichissant vos données et en exécutant une analyse de la qualité des données.

Démarrage rapide: Si vous n'avez pas encore créé l'exemple de projet pour ce tutoriel, accédez à l' exemple de projet de gouvernance des données dans le concentrateur de ressources.

Le cas d'utilisation de ce tutoriel est que la Golden Bank a plusieurs départements qui ont besoin d'accéder à des données hypothécaires client de haute qualité. En tant qu'intendant de données au sein de l'équipe de gouvernance, vous devez trier et organiser les données de la société pour fournir des actifs de données de haute qualité et protégés que les consommateurs de données peuvent facilement trouver dans un catalogue en libre-service.

L'image animée suivante fournit un aperçu rapide de ce que vous allez accomplir d'ici la fin de ce tutoriel où vous allez importer des métadonnées à partir d'une source de données externe, enrichir ces données avec des termes métier affectés automatiquement, afficher les données enrichies et publier les données enrichies dans un catalogue. Cliquez sur l'image pour afficher une image plus grande.

Image animée

Aperçu du tutoriel

Dans ce tutoriel, vous exécutez les tâches suivantes :

Regarder une vidéo Regardez cette vidéo pour prévisualiser les étapes de ce tutoriel. Il peut y avoir de légères différences dans l'interface utilisateur affichée dans la vidéo. La vidéo est destinée à être un compagnon du tutoriel écrit.

Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.





Conseils pour l'exécution de ce tutoriel
Voici quelques conseils pour réussir ce tutoriel.

Utiliser la vidéo image-in-picture

Astuce: Démarrez la vidéo, puis au fur et à mesure que vous faites défiler le tutoriel, la vidéo passe en mode image-en-image. Fermez la table des matières de la vidéo pour la meilleure expérience avec l'image en image. Vous pouvez utiliser le mode image-dans-image pour pouvoir suivre la vidéo à mesure que vous effectuez les tâches de ce tutoriel. Cliquez sur les horodatages de chaque tâche à suivre.

L'image animée suivante montre comment utiliser les fonctions d'image vidéo et de table des matières:

Comment utiliser l'image en image et les chapitres

Obtenir de l'aide dans la communauté

Si vous avez besoin d'aide pour ce tutoriel, vous pouvez poser une question ou trouver une réponse dans le forum de discussion de la communautéCloud Pak for Data.

Configurez les fenêtres de votre navigateur

Pour une expérience optimale lors de l'exécution de ce tutoriel, ouvrez Cloud Pak for Data dans une fenêtre de navigateur et laissez cette page de tutoriel ouverte dans une autre fenêtre de navigateur pour basculer facilement entre les deux applications. Envisagez d'organiser les deux fenêtres du navigateur côte à côte pour faciliter le suivi.

Tutoriel et interface utilisateur côte à côte

Astuce: Si vous rencontrez une visite guidée lors de l'exécution de ce tutoriel dans l'interface utilisateur, cliquez sur Peut-être plus tard.



Configuration des prérequis

Inscription à Cloud Pak for Data as a Service (en anglais)

Vous devez vous inscrire à Cloud Pak for Data as a Service et mettre à disposition les services nécessaires pour le cas d'utilisation d'intégration de données.

  • Si vous disposez d'un compte Cloud Pak for Data as a Service existant, vous pouvez utiliser ce tutoriel. Si vous disposez d'un compte de plan Lite, un seul utilisateur par compte peut exécuter ce tutoriel.
  • Si vous ne disposez pas encore d'un compte Cloud Pak for Data as a Service , inscrivez-vous à un essai de matrice de données.

icône Vidéo Regardez la vidéo suivante pour en savoir plus sur le Data Fabric dans Cloud Pak for Data.

Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.

Vérifiez les services mis à disposition nécessaires

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 01:05.

Procédez comme suit pour vérifier ou mettre à disposition les services nécessaires:

  1. Dans le menu de navigation " Menu de navigation, choisissez Services > Instances de service.

  2. Utilisez la liste déroulante Produit pour déterminer s'il existe une instance de service IBM Knowledge Catalog .

  3. Si vous devez créer une instance de service IBM Knowledge Catalog , cliquez sur Ajouter un service.

    1. Sélectionnez IBM Knowledge Catalog.

    2. Sélectionnez le plan Lite .

    3. Cliquez sur Créer.

  4. Répétez ces étapes pour vérifier ou mettre à disposition le service Cloud Object Storage .

Icône de point de contrôle Vérifier votre progression

L'image suivante montre les instances de service mises à disposition:

Services mis à disposition

Créez l'exemple de projet

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 01:38.

Si vous n'avez pas déjà créé l'exemple de projet pour ce tutoriel, procédez comme suit:

  1. Accédez au projet d'exemple de gouvernance des données dans le centre de ressources.

  2. Cliquez sur Créer un projet.

  3. Si vous êtes invité à associer le projet à une instance Cloud Object Storage, sélectionnez une instance Cloud Object Storage dans la liste.

  4. Cliquez sur Créer.

  5. Attendez que l'importation du projet soit terminée, puis cliquez sur Afficher le nouveau projet pour vérifier que le projet et les actifs ont été créés avec succès.

  6. Cliquez sur l'onglet Actifs pour afficher les actifs du projet.

  7. Dans le menu Overflow " Menu déroulant dynamique à la fin de la ligne Banking.csv data asset, choisissez Download, et enregistrez le fichier sur votre ordinateur. Vous utiliserez ce fichier dans une étape ultérieure.

Remarque: Vous pouvez voir une visite guidée montrant les tutoriels qui sont inclus avec ce cas d'utilisation. Les liens de la visite guidée ouvriront ces instructions de tutoriel.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre l'onglet Actifs dans l'exemple de projet. Vous êtes maintenant prêt à démarrer le tutoriel.

Exemple de projet




Tâche 1: Créer un catalogue

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 02:49.

Avant de commencer à utiliser des données, créez un catalogue dans lequel vous publierez des données pour les partager avec votre organisation. Avec le plan Lite IBM Knowledge Catalog , vous ne pouvez créer que deux catalogues. Si vous disposez déjà d'un catalogue, vous pouvez ignorer cette étape. Sinon, procédez comme suit pour créer un catalogue:

Astuce: Si c'est la première fois que vous accédez à un catalogue, une visite guidée vous demande si vous souhaitez effectuer une visite guidée des catalogues. Pour le moment, cliquez sur Peut-être plus tard.
  1. Dans le menu de navigation " Menu de navigation, choisissez Catalogues > Afficher tous les catalogues.

  2. Si vous voyez un catalogue dans la page Catalogues , passez à la Tâche 2: Créer une catégorie. Sinon, procédez comme suit pour créer un nouveau catalogue:

  3. Cliquez sur Créer un catalogue.

  4. Pour le Nom, copiez et collez le nom du catalogue exactement comme indiqué sans espaces de début ou de fin:

    Mortgage Approval Catalog
    
  5. Sélectionnez Appliquer les règles de protection des données, confirmez la sélection et acceptez les valeurs par défaut pour les autres zones.

  6. Cliquez sur Créer.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre votre catalogue. Vous êtes maintenant prêt à partager des actifs avec votre organisation.

Catalogue d'approbation de prêt hypothécaire




Tâche 2: Créer une catégorie

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 03:13.

Vous avez besoin d'une catégorie pour contenir les termes métier que vous allez importer dans la tâche suivante. Les catégories agissent comme des dossiers pour organiser vos artefacts de gouvernance et les personnes qui peuvent créer et gérer ces artefacts. Pour créer une catégorie, procédez comme suit:

  1. Dans le menu de navigation " Menu de navigation de Cloud Pak for Data, choisissez Gouvernance > Catégories.

  2. Cliquez sur Ajouter une catégorie > Nouvelle catégorie.

  3. Pour le nom, entrez Banking.

  4. Cliquez sur Créer.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre la catégorie Banque. Vous êtes maintenant prêt à importer des termes métier.

Catégorie bancaire




Tâche 3: Ajouter des termes métier

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 03:41.

A présent, importez des termes métier dans la nouvelle catégorie. Vous les utiliserez pour enrichir vos actifs de données lors d'une étape ultérieure. Les termes métier sont des définitions normalisées des concepts métier afin que vos données soient décrites de manière uniforme et facilement compréhensible dans votre entreprise. Pour importer les termes métier à partir d'un fichier, procédez comme suit:

  1. Dans le menu de navigation " Menu de navigation de Cloud Pak for Data, choisissez Gouvernance > Termes commerciaux.

  2. Cliquez sur Ajouter un terme métier > Importer à partir d'un fichier.

  3. Cliquez sur Faire glisser et déposer le fichier ici ou le télécharger.

    1. Sélectionnez le fichier banking.csv que vous avez téléchargé précédemment.

    2. Cliquez sur Ouvrir.

  4. Cliquez sur Suivant.

  5. Sélectionnez Remplacer toutes les valeurs, puis cliquez sur Suivant.

  6. Cliquez sur Accéder à la tâche pour afficher le brouillon des termes métier. Si vous manquez la notification, dans le menu de navigation de Cloud Pak for Data 'Menu de navigation, choisissez Gouvernance > Boîte de réception des tâches.

  7. Cochez la case Publier les termes métier , puis cliquez sur Publier. Cliquez sur Publier pour confirmer.

  8. Dans le menu de navigation " Menu de navigation de Cloud Pak for Data, choisissez Gouvernance > Conditions commerciales pour afficher les conditions commerciales publiées.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre les termes métier importés. Vous êtes maintenant prêt à importer les données dans un projet, puis à les enrichir avec les termes métier importés.

Termes métier importés




Tâche 4: Importer des données dans un projet

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 04:47.

L'exemple de projet inclut une connexion à une instance Db2 Warehouse , qui contient les actifs hypothécaires. Vous pouvez importer des métadonnées techniques associées aux actifs de données dans un projet ou un catalogue pour inventorier, évaluer et cataloguer ces actifs. Les métadonnées techniques décrivent la structure des objets de données. Pour importer les actifs de données, procédez comme suit:

  1. Dans le menu de navigation " Menu de navigation, choisissez Projets > Afficher tous les projets.

  2. Cliquez sur le projet Gouvernance des données .

  3. Cliquez sur l'onglet Actifs.

  4. Cliquez sur Nouvel actif > Importer des métadonnées pour les actifs de données .

  5. Pour le nom, copiez et collez le texte suivant:

    Mortgage data - metadata import
    
  6. Cliquez sur Suivant pour continuer.

  7. Sur la page Sélectionner une cible , sélectionnez Ce projet, puis cliquez sur Suivant pour continuer.

  8. Sur la page Sélectionner une portée , cliquez sur Sélectionner une connexion.

    1. Sélectionnez la connexion Offre d'essai de la matrice de données - Db2 Warehouse .

    2. Cochez la case en regard du schéma WKC_HYPOTHÈQUE , puis cliquez sur le nom de schéma WKC_HYPOTHÈQUE .

    3. Sélectionnez les tableaux suivantes :

      • CLIENT ??? AL_client
      • CREDIT_SCORE
      • HOUSE_PRICE
      • MORTGAGE_APPLICANTS
      • MORTGAGE_APPLICATION
    4. Passez en revue la liste des actifs dans le panneau latéral, puis cliquez sur Sélectionner.

  9. Cliquez sur Suivant pour poursuivre l'exécution de la planification. Vous pouvez exécuter manuellement l'enrichissement de métadonnées, de sorte que le planning reste désactivé.

  10. Cliquez sur Suivant pour passer aux Options avancées.

  11. Acceptez les valeurs par défaut de la page Options avancées et cliquez sur Suivant pour passer à la revue.

  12. Passez en revue le récapitulatif de l'importation et cliquez sur Créer. Le travail d'importation des métadonnées démarre.

  13. Cliquez sur l'icône d'actualisation " Actualiser pour voir le statut passer de " En attente " à " En cours " puis à " Importé". Une fois l'exécution du travail terminée, vous voyez les cinq actifs répertoriés.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre l'importation de métadonnées terminée. Votre tâche suivante consiste à enrichir les actifs de données importés avec les termes métier importés.

Actif d' Metadata import




Tâche 5: Enrichir les données importées

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 06:07.

Vous pouvez enrichir des actifs de données avec des informations qui aident les utilisateurs à trouver des données plus rapidement pour déterminer si les données sont appropriées pour la tâche en cours, si elles peuvent faire confiance aux données et comment les utiliser. Ces informations sont notamment des termes qui définissent la signification des données, des règles qui documentent la propriété ou déterminent des normes de qualité, ou des révisions. Procédez comme suit pour enrichir les données importées:

  1. Cliquez sur le nom du projet de gouvernance des données dans la piste de navigation.
    Trace de navigation

  2. Sur le Actifs onglet, cliquez sur Nouvel actif > Enrichir les actifs de données avec des métadonnées .

  3. Pour le nom, copiez et collez le texte suivant:

    Mortgage data - metadata enrichment
    
  4. Cliquez sur Suivant pour continuer.

  5. Cliquez sur Sélectionner les données du projet.

    1. Sélectionnez Metadata import.

    2. Cochez la case en regard de Mortgage data-metadata import. Cet actif inclut les actifs suivants:

      • COMMERICIAL_CLIENT
      • CREDIT_SCORE
      • HOUSE_PRICE
      • MORTGAGE_APPLICANTS
      • MORTGAGE_APPLICATION
    3. Cliquez sur Sélectionner.

  6. Cliquez sur Suivant pour poursuivre l'objectif d'enrichissement.

  7. Sélectionner tous les objectifs d'enrichissement:

    • Données de profil
    • Affecter des termes
    • Exécuter l'analyse de qualité de base
  8. Pour Catégories, cliquez sur Sélectionner des catégories.

    1. Sélectionnez uniquement [ sans catégorie ] et Banque.

    2. Cliquez sur Sélectionner.

  9. Pour Échantillonnage, sélectionnez De base.

  10. Cliquez sur Suivant pour poursuivre l'exécution de la planification. Vous pouvez exécuter manuellement l'importation, de sorte que la planification reste désactivée.

  11. Cliquez sur Suivant pour poursuivre l'examen.

  12. Cliquez sur Créer.

  13. L'actif d'enrichissement de métadonnées s'affiche, mais l'exécution du travail peut prendre plusieurs minutes. Cliquez sur l'icône d'actualisation " Actualiser pour voir le statut passer de Non analysé à En cours et Terminé. Une fois l'exécution du travail terminée, vous voyez les cinq actifs répertoriés.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre l'enrichissement des métadonnées terminé. Vous pouvez maintenant explorer les actifs de données enrichis.

Actif d'enrichissement de métadonnées




Tâche 6: Afficher les résultats de l'enrichissement des métadonnées

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 07:45.

Une fois l'exécution de l'enrichissement des métadonnées terminée, procédez comme suit pour afficher les données enrichies:

  1. Dans l'écran Mortgage data-metadata enrichissement , cliquez sur l'onglet Columns .

  2. Dans la liste Colonnes, recherchez la colonne EMAIL_ADDRESS de l'actif MORTGAGE_APPLICANTS .

    1. À la fin de la ligne EMAIL_ADDRESS for MORTGAGE_APPLICANTS, cliquez sur le menu de débordement " Menu déroulant dynamique et choisissez View column details.

    2. Dans le panneau latéral de l'onglet Détails , vous pouvez voir des informations de profilage telles que: Format, Distribution des fréquences, Statistiques.

    3. Dans le panneau latéral, cliquez sur l'onglet Gouvernance . Cet onglet inclut les classes de données et les termes métier qui ont été affectés automatiquement lors de l'enrichissement des métadonnées. Vous pouvez également voir les termes métier et les classes de données suggérés et les affecter manuellement.

    4. Passez en revue les termes métier ou les classes de données suggérés et affectez-les manuellement. Par exemple, vous pouvez voir Adresse comme un terme métier suggéré.

      1. Cliquez sur Termes métier suggérés.

      2. Pour Adresse, cliquez sur Affecter.

  3. À la fin de la colonne EMAIL_ADDRESS de la ligne d'actif MORTGAGE_APPLICANTS, cliquez sur le menu de débordement " Menu déroulant dynamique et sélectionnez View data quality details (Afficher les détails de la qualité des données).

    1. Affichez les informations sur la qualité des données. IBM Knowledge Catalog génère automatiquement un score de qualité de données pour chaque colonne et actif de données en analysant chaque valeur de chaque enregistrement en fonction de dimensions préconfigurées.

    2. Cliquez sur le X pour fermer la fenêtre Qualité de données .

  4. Pour la colonne CITY de l'actif CREDIT_SCORE, cliquez sur le menu de débordement " Menu déroulant dynamique et choisissez Mark as reviewed.

  5. Cliquez sur l'onglet Actifs.

  6. Dans la liste des actifs, pour l'actif MORTGAGE_APPLICANTS, cliquez sur le menu de débordement " Menu déroulant dynamique et choisissez Afficher les détails de l'actif.

    1. Dans le panneau latéral, cliquez sur l'onglet Gouvernance pour afficher l'affectation automatique de terme métier.

    2. Cliquez sur l'icône " Editer pour attribuer manuellement des termes commerciaux.

    3. Recherchez social. Si vous ne voyez aucun résultat, assurez-vous que la liste déroulante est définie sur Tous les termes au lieu de Termes suggérés.

    4. Sélectionnez Numéro de sécurité sociale.

    5. Cliquez sur Assign.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre les actifs de données révisés et enrichis. L'étape suivante consiste à publier les données enrichies dans un catalogue à partager avec votre organisation.

Actifs de données enrichis révisés




Tâche 7: Publier des données dans un catalogue

vidéo du tutoriel d'aperçu Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 09:06.

Maintenant que vous avez enrichi des données, vous souhaitez publier ces actifs de données dans un catalogue afin que les informaticiens et les analystes de données puissent utiliser les ressources de données enrichies. Procédez comme suit pour stocker les ressources de données enrichies dans un catalogue afin que les autres utilisateurs puissent accéder aux données sécurisées:

  1. Cliquez sur le nom de projet Gouvernance des données dans la trace de navigation.

  2. Cliquez sur l'onglet Actifs.

  3. Sélectionnez Données > Actifs de données.

  4. Sélectionnez les actifs de données MACIAL_CLIENT, HOUSE_PRICE, MORTGAGE_APPLICANTSet MORTGAGE_APPLICATION dans la liste, puis cliquez sur Publier dans le catalogue.

    1. Pour le catalogue Cible , sélectionnez Catalogue d'approbation hypothécaire, puis cliquez sur Suivant.

    2. Pour les Etiquettes, entrez l'étiquette trusted, puis cliquez sur + (signe plus), puis sur Suivant.

    3. Passez en revue les actifs et cliquez sur Publier.

  5. Désélectionnez tous les actifs cochés, puis cochez la case en regard de l'actif CREDIT_SCORE dans la liste, puis cliquez sur Publier dans le catalogue.

    1. Pour le catalogue Cible , sélectionnez Catalogue d'approbation hypothécaire, puis cliquez sur Suivant.

    2. Pour Etiquettes, entrez l'étiquette confidentialet cliquez sur + (signe plus).

    3. Entrez la balise trustedet cliquez sur + (signe plus) pour une deuxième balise.

    4. Sélectionnez l'option permettant d' accéder au catalogue après sa publication, puis cliquez sur Suivant.

    5. Passez en revue les actifs et cliquez sur Publier.

  6. Filtrez les actifs dans le catalogue d'approbation d'hypothèque.

    1. Cliquez sur l'icône du filtre " Filtrer.

    2. Développez la section Etiquette .

    3. Sélectionnez trusted, puis cliquez sur Apply.

    4. Vérifiez que les cinq actifs de données ont été ajoutés au catalogue.

  7. Modifiez le nom de l'actif de données MORTGAGE_APPLICANTS .

    1. Ouvrez l'actif MORTGAGE_APPLICANTS .

    2. Cliquez sur l'icône Modifier le nom " Editer le nom.

    3. Remplacez le nom par:

      MORTGAGE_APPLICANTS_TRUST
      
    4. Cliquez sur Appliquer.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre les actifs de données enrichis publiés dans un catalogue. Vous disposez maintenant de données de confiance disponibles dans le catalogue de votre société.

Actifs publiés dans le catalogue



En tant qu'intendant de données au sein de l'équipe de gouvernance, vous avez appris à trier et à organiser les données de la société afin de fournir des actifs de données de haute qualité et protégés que les consommateurs de données peuvent facilement trouver dans un catalogue en libre-service.

Etapes suivantes

Vous êtes maintenant prêt à protéger vos données en créant des règles de protection des données et des flux de masquage pour contrôler l'accès à vos données.Voir le tutoriel Protégez vos données.

En savoir plus

Rubrique parent: Tutoriels de cas d'utilisation

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus