Tutoriel : Faites confiance à vos données

Suivez ce tutoriel pour apprendre à fournir des données de confiance avec le cas d'utilisation de la gouvernance des données et de la confidentialité de l'offre d'essai de la matrice de données. Votre objectif est de créer des actifs de données de haute qualité en vous connectant à des sources de données, en enrichissant les ressources de données avec des métadonnées et en exécutant une analyse de la qualité des données.

Le cas d'utilisation de ce tutoriel est que la Golden Bank a plusieurs départements qui ont besoin d'accéder à des données hypothécaires client de haute qualité. En tant que responsable des données de l'équipe de gouvernance, vous devez trier et organiser les données de l'entreprise afin de fournir des actifs de données de haute qualité et protégés que les utilisateurs de données peuvent facilement trouver dans un catalogue en libre-service.

Dans ce tutoriel, vous exécuterez les tâches suivantes :

  1. Ajoutez des termes métier.
  2. Créer une catégorie.
  3. Importer les données dans le projet.
  4. Enrichir les données.
  5. Afficher les résultats de l'enrichissement des métadonnées.
  6. Créer un catalogue.
  7. Publier des actifs dans un catalogue.

Si vous avez besoin d'aide pour ce tutoriel, posez une question ou trouvez une réponse dans le forum de discussion communautaire Cloud Pak for Data.

Astuce : Pour une expérience optimale dans l'exécution de ce tutoriel, ouvrez Cloud Pak for Data en tant que service dans un onglet de navigateur, et gardez cette page de tutoriel ouverte dans un autre onglet de navigateur pour basculer facilement entre les deux applications.

Prérequis

Vous devez vous inscrire pour Cloud Pak for Data en tant que service et fournir les services nécessaires pour le cas d'utilisation de la gouvernance des données et de la confidentialité.

Vous pouvez vous inscrire pour Cloud Pak for Data en tant que service de l'une des manières suivantes :

Mettez à disposition les services nécessaires

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 01:03.

Suivez ces étapes pour vérifier ou mettre à disposition les services nécessaires.

  1. Dans le menu de navigation Cloud Pak for Data, sélectionnez Services > Instances de service.
  2. Utilisez la liste déroulante Produit pour déterminer s'il existe une instance de service Watson Knowledge Catalog existante.
  3. Si vous devez créer une instance de service Watson Knowledge Catalog, cliquez sur Ajouter un service.
  4. Sélectionnez Watson Knowledge Catalog.
  5. Sélectionnez le plan Lite.
  6. Cliquez sur Créer.

Créer l'exemple de projet

Regarder une vidéoPour prévisualiser cette tâche, regardez la vidéo à partir de 01:43.

Si vous n'avez pas encore créé l'exemple de projet pour ce tutoriel, procédez comme suit.

  1. Accédez à l'exemple de projet de tutoriel sur la gouvernance des données et la confidentialité dans la galerie.
  2. Cliquez sur Create Project.
  3. Si vous êtes invité à associer le projet à une instance Cloud Object Storage, sélectionnez une instance Cloud Object Storage dans la liste.
  4. Cliquez sur Créer.
  5. Cliquez sur Afficher le nouveau projet pour vérifier que le projet et les actifs ont été correctement créés.

Étape 1 : Ajouter des termes métier

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 02:23.

Vous créez des termes métier pour normaliser des définitions de concepts métier afin que vos données soient décrites de manière uniforme et facilement compréhensible dans toute votre entreprise. Les termes métier peuvent décrire le contenu des données, la sensibilité des données ou d'autres aspects des données, comme le sujet ou l'objet des données. Procédez comme suit pour créer des termes métier que vous utiliserez pour enrichir les actifs de données.

  1. Dans le projet Gouvernance des données et protection des renseignements personnels, cliquez sur l'onglet Actifs.
  2. Dans le menu déroulant dynamique de l'actif de données Banking.csv, sélectionnez Télécharger.
  3. Dans le menu de navigation Cloud Pak for Data en tant que service, choisissez Gouvernance > Termes métier.
  4. Cliquez sur Ajouter un terme métier > Importer à partir d'un fichier.
  5. Cliquez sur Ajouter un fichier.
    1. Sélectionnez Banking.csv.
    2. Cliquez sur Open.
  6. Cliquez sur Suivant.
  7. Sélectionnez Remplacer toutes les valeurs.
  8. Cliquez sur Import.

Étape 2 : Création d'une catégorie

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 02:23.

Vous créez des catégories pour fournir la structure logique pour tous les types d'artefacts de gouvernance, à l'exception des règles de protection des données. Vous groupez vos artefacts de gouvernance dans des catégories pour les rendre plus faciles à trouver, pour les gérer et pour contrôler leur visibilité. Les catégories peuvent être organisées dans une hiérarchie en fonction de leur signification et des relations qui les unissent. Pour créer une catégorie, procédez comme suit :

  1. Dans le menu de navigation Cloud Pak for Data en tant que service, choisissez Gouvernance > Catégories.
  2. Cliquez sur Ajouter une catégorie > Nouvelle catégorie.
  3. Pour le nom, entrez Banking.
  4. Cliquez sur Créer.

Étape 3 : Importation de données dans un projet

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 02:23.

L'exemple de projet inclut une connexion à une instance Db2 Warehouse qui contient les fichiers hypothécaires que vous voulez importer dans le projet. Procédez comme suit pour importer les ressources de données.

  1. Dans le menu de navigation Cloud Pak for Data, sélectionnez Projets > Afficher tous les projets.
  2. Cliquez sur le projet Gouvernance des données et confidentialité.
  3. Cliquez sur Nouvel actif > Importation de métadonnées.
  4. Pour le nom, entrez Mortgage data - metadata import.
  5. Cliquez sur Next pour continuer.
  6. Pour Sélectionner la cible, sélectionnez Ce projet et cliquez sur Suivant pour continuer.
  7. Pour Sélectionner la portée, cliquez sur Sélectionner une connexion.
    1. Sélectionnez la connexion Offre d'essai de la matrice de données - Db2 Warehouse .
    2. Sélectionnez le schéma HYPOTHÈSEAI.
    3. Sélectionnez les tableaux suivantes :
      • COMMERICIAL_CLIENT
      • CREDIT_SCORE
      • HOUSE_PRICE
      • MORTGAGE_APPLICANTS
      • MORTGAGE_APPLICATION
    4. Cliquez sur Sélectionner.
  8. Cliquez sur Suivant pour poursuivre l'exécution de la planification.
  9. Cliquez sur Suivant pour poursuivre l'examen.
  10. Consultez le récapitulatif de l'importation et cliquez sur Créer. Le travail d'importation des métadonnées va démarrer.

Étape 4 : enrichir les données importées

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 02:23.

Procédez comme suit pour enrichir les données importées.

  1. Cliquez sur le nom du projet Gouvernance des données dans les éléments de navigation.
  2. Cliquez sur Nouvel actif > Enrichissement des métadonnées.
  3. Pour le nom, entrez Mortgage data - metadata enrichment.
  4. Cliquez sur Next pour continuer.
  5. Cliquez sur Sélectionner les données du projet.
    1. Sélectionnez Actif de données.
    2. Sélectionnez les actifs suivants :
      • COMMERICIAL_CLIENT
      • CREDIT_SCORE
      • HOUSE_PRICE
      • MORTGAGE_APPLICANTS
      • MORTGAGE_APPLICATION
  6. Cliquez sur Suivant pour poursuivre l'objectif d'enrichissement.
  7. Sélectionner tous les objectifs d'enrichissement:
    • Données de profil
    • Analyser la qualité
    • Affecter des termes
  8. Cliquez sur Sélectionner des catégories.
    1. Sélectionnez [Non catégorisée] et Banques.
    2. Cliquez sur Sélectionner.
  9. Pour Échantillonnage, sélectionnez De base.
  10. Cliquez sur Suivant pour poursuivre l'exécution de la planification.
  11. Cliquez sur Suivant pour poursuivre l'examen.
  12. Cliquez sur Créer.
  13. Dans la notification qui s'affiche, cliquez sur L'exécution du travail pour afficher les détails du travail. Si vous manquez la notification :
    1. Cliquez sur le nom du projet Gouvernance des données dans les éléments de navigation.
    2. Cliquez sur l'onglet Jobs.
    3. Cliquez sur Données des hypothèques - enrichissement des métadonnées pour afficher les détails du travail.
  14. Le travail peut prendre plusieurs minutes. Pendant ce temps, cliquez sur la date et l'heure de l'exécution du travail pour afficher le journal.

Étape 5 : Affichage des résultats de l'enrichissement des métadonnées

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 02:23.

Une fois l'exécution de l'enrichissement des métadonnées terminée, procédez comme suit pour afficher les données enrichies.

  1. Pour revenir au projet, cliquez sur le nom du projet Gouvernance des données et confidentialité dans les éléments de navigation.
  2. Cliquez sur l'onglet Actifs.
  3. Dans la liste Tous les actifs, cliquez sur Données des hypothèques - enrichissement des métadonnées.
  4. Cliquez sur l'onglet Colonnes.
  5. Dans la liste Colonnes, sélectionnez la colonne Ville pour l'actif CREDIT_SCORE.
    1. Dans le panneau latéral de l'onglet Détails, vous verrez des informations de profilage telles que : Format, Distribution de fréquence, Statistiques.
      • Cette analyse (également appelée analyse de colonne) capture littéralement le profil des données. Le profilage structuré fournit des valeurs d'échantillon, des formats (modèles), la détection des propriétés de données (longueurs, types de données, min / max, etc.) et les distributions de fréquence.
      • Pour les colonnes contenant des noms peu clairs comme “CSRidUpdate21”, des exemples de valeurs qui ressemblent à des adresses électroniques aident les utilisateurs à comprendre ce qui est contenu dans cette colonne. Pour une colonne intitulée " ZIP ", une distribution de fréquences avec des codes postaux américains à 5 chiffres à 5 chiffres et 20 % des codes postaux canadiens à 6 chiffres permettent à l'utilisateur de savoir que ces données proviennent d'une base de données mondiale. Le profilage fournit des informations cohérentes pour aider les utilisateurs à comprendre rapidement les données.
    2. Dans le panneau latéral, cliquez sur l'onglet Gouvernance pour afficher la classe de données et l'affectation automatique des termes métier.
      • La localisation, l'évaluation et la gestion de vos éléments de données les plus critiques sont une condition préalable au déverrouillage de la valeur métier, au respect des normes réglementaires et à la réduction des risques. Watson Knowledge Catalog met à l'échelle la productivité des intendants de données en automatisant le processus d'organisation des données avec une technologie brevetée qui reflète la façon dont les êtres humains reconnaissent et traitent les données.
      • Cette affectation automatique de terme métier permet de connecter le sens métier au signal d'établissement de données du bruit. Ce processus d'attribution de sens est souvent appelé utilisation de phrases telles que le mappage ou le marquage automatique. La valeur de l'affectation des termes métier est que les données ayant le terme métier approprié sont plus faciles à trouver à l'aide de la recherche, plus faciles à protéger à l'aide de règles de protection des données, et plus faciles à analyser à l'aide de règles d'automatisation pour déclencher des règles spécifiques de qualité des données.
      • Tout comme l'attribution automatique de termes métier, l'attribution automatique de la classe de données (ou classification de données) permet la détection automatique de la signification et de la valeur métier. L'affectation automatique de classe de données analyse les valeurs de données réelles pour affecter la meilleure classe de données et ce résultat est l'un des quelques facteurs utilisés dans le cadre d'affectation de terme métier automatique.
      • L'affectation automatique de la classe de données est exécutée conjointement avec le profilage, ensemble connu sous le nom d'analyse de colonne. IBM fournit plus de 200 classes de données prêtes à l'emploi. Ils vont d'un ensemble de base (identificateur, code, texte, quantité, etc.) à des domaines spécifiques (carte de crédit, adresse e-mail, etc.). Dans certains cas, ces classes de données permettent la validation des données, comme la vérification de la structure du numéro de carte de crédit valide.
    3. Pour la colonne Ville de l'actif CREDIT_SCORE, cliquez sur le menu déroulant dynamique et sélectionnez Afficher la qualité des données.
      • La gestion et la confiance des données mises à l'échelle de l'entreprise dépendent d'un cadre extensible pour l'analyse de la qualité des données. En utilisant des mesures de qualité pré-construites ou personnalisées, un utilisateur peut facilement comprendre la nature de ses données à partir d'un seul numéro, puis prendre des mesures sur leurs actifs les plus critiques.
      • WKC génère un score de qualité des données pour chaque colonne et actif de données prêt à l'emploi Le score de qualité des données est calculé pour chaque actif et colonne de données en analysant chaque valeur de chaque enregistrement en fonction des dimensions pré-construites. Pensez à cette notation comme une étiquette nutritionnelle pour un actif de données - il s'agit d'un ensemble standardisé de mesures qui capture la qualité globale d'un actif de données. En utilisant ce score de qualité des données, les clients peuvent rapidement localiser et évaluer les risques.
      • Les scores de qualité des données aident les utilisateurs à localiser, diagnostiquer et prioriser les problèmes de qualité des données. Les scores permettent également d'identifier et de surveiller la valeur métier. Par exemple, si mon score de qualité des données est élevé et que peu de violations de la dimension DQ sont trouvées, je peux être sûr qu'un actif de données est de qualité. Lorsque vous avez terminé, cliquez sur X pour fermer la fenêtre Qualité des données.
    4. Fermez la fenêtre de qualité des données.
  6. Pour la colonne VILLE de l'actif CREDIT_SCORE, cliquez sur le menu déroulant dynamique et sélectionnez Marquer comme révisé.

Étape 6 : Création d'un catalogue

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 02:23.

Maintenant que vous avez enrichi des données, vous souhaitez publier ces actifs de données dans un catalogue afin que les informaticiens et les analystes de données puissent utiliser les ressources de données enrichies. Avec le plan Watson Knowledge Catalog Lite, vous ne pouvez créer qu'un seul catalogue. Si vous avez déjà un catalogue, ignorez cette étape. Sinon, procédez comme suit pour créer un catalogue pour stocker les ressources de données enrichie.

  1. Dans le menu de navigation Cloud Pak for Data, sélectionnez Catalogues > Afficher tous les catalogues.
  2. Cliquez sur Créer un catalogue.
  3. Pour le Nom, entrez Mortgage Approval Catalog. Entrez le nom du catalogue, exactement comme indiqué sans espace de début ou de fin. Si vous êtes invité à associer le catalogue à une instance Cloud Object Storage, sélectionnez un Cloud Object Storage dans la liste.
  4. Acceptez la valeur par défaut pour tous les autres champs.
  5. Cliquez sur Créer.

Étape 7 : Publier des données dans un catalogue

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 02:23.

Procédez comme suit pour stocker les ressources de données enrichies dans un catalogue.

  1. Pour revenir à votre projet, dans le menu de navigation Cloud Pak for Data, choisissez Projets > Afficher tous les projets.
  2. Cliquez sur le projet Gouvernance des données et confidentialité.
  3. Cliquez sur l'onglet Actifs.
  4. Dans la liste Tous les actifs, cliquez sur Données des hypothèques - enrichissement des métadonnées.
  5. Sélectionnez le fichier CREDIT_SCORE dans la liste et cliquez sur Publier.
    1. Pour le catalogue Cible, sélectionnez Catalogue d'approbation d'hypothèque.
    2. Pour la balise, entrez confidential et cliquez sur + (signe plus).
    3. Cliquez sur Publier.
  6. Sélectionnez les quatre fichiers restants dans la liste et cliquez sur Publier.
    1. Pour le catalogue Cible, sélectionnez Catalogue d'approbation d'hypothèque.
    2. Cliquez sur Publier.
  7. Dans le menu de navigation Cloud Pak for Data, sélectionnez Catalogues > Afficher tous les catalogues.
  8. Cliquez sur Catalogue d'approbation d'hypothèque.
  9. Vérifiez que les cinq fichiers ont été ajoutés au catalogue.

Etapes suivantes

Vous êtes maintenant prêt à protéger vos données en créant des règles de protection des données et des flux de masquage pour contrôler l'accès à vos données.Voir le tutoriel Protégez vos données.

En savoir plus

Rubrique parent : Tutoriels sur les matrices de données