Suivez ce tutoriel pour apprendre à préparer des données sécurisées avec le cas d'utilisation de gouvernance des données de l'essai de matrice de données. Votre objectif est de créer des actifs de données de confiance en enrichissant vos données et en exécutant une analyse de la qualité des données.
Le cas d'utilisation de ce tutoriel est que la Golden Bank a plusieurs départements qui ont besoin d'accéder à des données hypothécaires client de haute qualité. En tant qu'intendant de données au sein de l'équipe de gouvernance, vous devez trier et organiser les données de la société pour fournir des actifs de données de haute qualité et protégés que les consommateurs de données peuvent facilement trouver dans un catalogue en libre-service.
L'image animée suivante fournit un aperçu rapide de ce que vous allez accomplir d'ici la fin de ce tutoriel où vous allez importer des métadonnées à partir d'une source de données externe, enrichir ces données avec des termes métier affectés automatiquement, afficher les données enrichies et publier les données enrichies dans un catalogue. Cliquez sur l'image pour afficher une image plus grande.
Aperçu du tutoriel
Dans ce tutoriel, vous exécutez les tâches suivantes :
- Configurez les prérequis.
- Tâche 1: Créer un catalogue.
- Tâche 2: Créer une catégorie.
- Tâche 3: Ajouter des termes métier.
- Tâche 4: Importer des données dans le projet.
- Tâche 5: Enrichir les données.
- Tâche 6: Afficher les résultats de l'enrichissement de métadonnées.
- Tâche 7: Publier des actifs dans un catalogue.
Regardez cette vidéo pour prévisualiser les étapes de ce tutoriel. Il peut y avoir de légères différences dans l'interface utilisateur affichée dans la vidéo. La vidéo est destinée à être un compagnon du tutoriel écrit.
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Conseils pour l'exécution de ce tutoriel
Voici quelques conseils pour réussir ce tutoriel.
Utiliser la vidéo image-in-picture
L'image animée suivante montre comment utiliser les fonctions d'image vidéo et de table des matières:
Obtenir de l'aide dans la communauté
Si vous avez besoin d'aide pour ce tutoriel, vous pouvez poser une question ou trouver une réponse dans le forum de discussion de la communautéCloud Pak for Data.
Configurez les fenêtres de votre navigateur
Pour une expérience optimale lors de l'exécution de ce tutoriel, ouvrez Cloud Pak for Data dans une fenêtre de navigateur et laissez cette page de tutoriel ouverte dans une autre fenêtre de navigateur pour basculer facilement entre les deux applications. Envisagez d'organiser les deux fenêtres du navigateur côte à côte pour faciliter le suivi.
Configuration des prérequis
Inscription à Cloud Pak for Data as a Service (en anglais)
Vous devez vous inscrire à Cloud Pak for Data as a Service et mettre à disposition les services nécessaires pour le cas d'utilisation d'intégration de données.
- Si vous disposez d'un compte Cloud Pak for Data as a Service existant, vous pouvez utiliser ce tutoriel. Si vous disposez d'un compte de plan Lite, un seul utilisateur par compte peut exécuter ce tutoriel.
- Si vous ne disposez pas encore d'un compte Cloud Pak for Data as a Service , inscrivez-vous à un essai de matrice de données.
Regardez la vidéo suivante pour en savoir plus sur le Data Fabric dans Cloud Pak for Data.
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Vérifiez les services mis à disposition nécessaires
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 01:05.
Procédez comme suit pour vérifier ou mettre à disposition les services nécessaires:
Dans le menu de navigation " , choisissez Services > Instances de service.
Utilisez la liste déroulante Produit pour déterminer s'il existe une instance de service IBM Knowledge Catalog .
Si vous devez créer une instance de service IBM Knowledge Catalog , cliquez sur Ajouter un service.
Sélectionnez IBM Knowledge Catalog.
Sélectionnez le plan Lite .
Cliquez sur Créer.
Répétez ces étapes pour vérifier ou mettre à disposition le service Cloud Object Storage .
Vérifier votre progression
L'image suivante montre les instances de service mises à disposition:
Créez l'exemple de projet
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 01:38.
Si vous n'avez pas déjà créé l'exemple de projet pour ce tutoriel, procédez comme suit:
Accédez au projet d'exemple de gouvernance des données dans le centre de ressources.
Cliquez sur Créer un projet.
Si vous êtes invité à associer le projet à une instance Cloud Object Storage, sélectionnez une instance Cloud Object Storage dans la liste.
Cliquez sur Créer.
Attendez que l'importation du projet soit terminée, puis cliquez sur Afficher le nouveau projet pour vérifier que le projet et les actifs ont été créés avec succès.
Cliquez sur l'onglet Actifs pour afficher les actifs du projet.
Dans le menu Overflow " à la fin de la ligne Banking.csv data asset, choisissez Download, et enregistrez le fichier sur votre ordinateur. Vous utiliserez ce fichier dans une étape ultérieure.
Vérifier votre progression
L'image suivante montre l'onglet Actifs dans l'exemple de projet. Vous êtes maintenant prêt à démarrer le tutoriel.
Tâche 1: Créer un catalogue
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 02:49.
Avant de commencer à utiliser des données, créez un catalogue dans lequel vous publierez des données pour les partager avec votre organisation. Avec le plan Lite IBM Knowledge Catalog , vous ne pouvez créer que deux catalogues. Si vous disposez déjà d'un catalogue, vous pouvez ignorer cette étape. Sinon, procédez comme suit pour créer un catalogue:
Dans le menu de navigation " , choisissez Catalogues > Afficher tous les catalogues.
Si vous voyez un catalogue dans la page Catalogues , passez à la Tâche 2: Créer une catégorie. Sinon, procédez comme suit pour créer un nouveau catalogue:
Cliquez sur Créer un catalogue.
Pour le Nom, copiez et collez le nom du catalogue exactement comme indiqué sans espaces de début ou de fin:
Mortgage Approval Catalog
Sélectionnez Appliquer les règles de protection des données, confirmez la sélection et acceptez les valeurs par défaut pour les autres zones.
Cliquez sur Créer.
Vérifier votre progression
L'image suivante montre votre catalogue. Vous êtes maintenant prêt à partager des actifs avec votre organisation.
Tâche 2: Créer une catégorie
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 03:13.
Vous avez besoin d'une catégorie pour contenir les termes métier que vous allez importer dans la tâche suivante. Les catégories agissent comme des dossiers pour organiser vos artefacts de gouvernance et les personnes qui peuvent créer et gérer ces artefacts. Pour créer une catégorie, procédez comme suit:
Dans le menu de navigation " de Cloud Pak for Data, choisissez Gouvernance > Catégories.
Cliquez sur Ajouter une catégorie > Nouvelle catégorie.
Pour le nom, entrez
Banking
.Cliquez sur Créer.
Vérifier votre progression
L'image suivante montre la catégorie Banque. Vous êtes maintenant prêt à importer des termes métier.
Tâche 3: Ajouter des termes métier
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 03:41.
A présent, importez des termes métier dans la nouvelle catégorie. Vous les utiliserez pour enrichir vos actifs de données lors d'une étape ultérieure. Les termes métier sont des définitions normalisées des concepts métier afin que vos données soient décrites de manière uniforme et facilement compréhensible dans votre entreprise. Pour importer les termes métier à partir d'un fichier, procédez comme suit:
Dans le menu de navigation " de Cloud Pak for Data, choisissez Gouvernance > Termes commerciaux.
Cliquez sur Ajouter un terme métier > Importer à partir d'un fichier.
Cliquez sur Faire glisser et déposer le fichier ici ou le télécharger.
Sélectionnez le fichier banking.csv que vous avez téléchargé précédemment.
Cliquez sur Ouvrir.
Cliquez sur Suivant.
Sélectionnez Remplacer toutes les valeurs, puis cliquez sur Suivant.
Cliquez sur Accéder à la tâche pour afficher le brouillon des termes métier. Si vous manquez la notification, dans le menu de navigation de Cloud Pak for Data ', choisissez Gouvernance > Boîte de réception des tâches.
Cochez la case Publier les termes métier , puis cliquez sur Publier. Cliquez sur Publier pour confirmer.
Dans le menu de navigation " de Cloud Pak for Data, choisissez Gouvernance > Conditions commerciales pour afficher les conditions commerciales publiées.
Vérifier votre progression
L'image suivante montre les termes métier importés. Vous êtes maintenant prêt à importer les données dans un projet, puis à les enrichir avec les termes métier importés.
Tâche 4: Importer des données dans un projet
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 04:47.
L'exemple de projet inclut une connexion à une instance Db2 Warehouse , qui contient les actifs hypothécaires. Vous pouvez importer des métadonnées techniques associées aux actifs de données dans un projet ou un catalogue pour inventorier, évaluer et cataloguer ces actifs. Les métadonnées techniques décrivent la structure des objets de données. Pour importer les actifs de données, procédez comme suit:
Dans le menu de navigation " , choisissez Projets > Afficher tous les projets.
Cliquez sur le projet Gouvernance des données .
Cliquez sur l'onglet Actifs.
Cliquez sur Nouvel actif > Importer des métadonnées pour les actifs de données .
Pour le nom, copiez et collez le texte suivant:
Mortgage data - metadata import
Cliquez sur Suivant pour continuer.
Sur la page Sélectionner une cible , sélectionnez Ce projet, puis cliquez sur Suivant pour continuer.
Sur la page Sélectionner une portée , cliquez sur Sélectionner une connexion.
Sélectionnez la connexion Offre d'essai de la matrice de données - Db2 Warehouse .
Cochez la case en regard du schéma WKC_HYPOTHÈQUE , puis cliquez sur le nom de schéma WKC_HYPOTHÈQUE .
Sélectionnez les tableaux suivantes :
- CLIENT ??? AL_client
- CREDIT_SCORE
- HOUSE_PRICE
- MORTGAGE_APPLICANTS
- MORTGAGE_APPLICATION
Passez en revue la liste des actifs dans le panneau latéral, puis cliquez sur Sélectionner.
Cliquez sur Suivant pour poursuivre l'exécution de la planification. Vous pouvez exécuter manuellement l'enrichissement de métadonnées, de sorte que le planning reste désactivé.
Cliquez sur Suivant pour passer aux Options avancées.
Acceptez les valeurs par défaut de la page Options avancées et cliquez sur Suivant pour passer à la revue.
Passez en revue le récapitulatif de l'importation et cliquez sur Créer. Le travail d'importation des métadonnées démarre.
Cliquez sur l'icône d'actualisation " pour voir le statut passer de " En attente " à " En cours " puis à " Importé". Une fois l'exécution du travail terminée, vous voyez les cinq actifs répertoriés.
Vérifier votre progression
L'image suivante montre l'importation de métadonnées terminée. Votre tâche suivante consiste à enrichir les actifs de données importés avec les termes métier importés.
Tâche 5: Enrichir les données importées
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 06:07.
Vous pouvez enrichir des actifs de données avec des informations qui aident les utilisateurs à trouver des données plus rapidement pour déterminer si les données sont appropriées pour la tâche en cours, si elles peuvent faire confiance aux données et comment les utiliser. Ces informations sont notamment des termes qui définissent la signification des données, des règles qui documentent la propriété ou déterminent des normes de qualité, ou des révisions. Procédez comme suit pour enrichir les données importées:
Cliquez sur le nom du projet de gouvernance des données dans la piste de navigation.
Sur le Actifs onglet, cliquez sur Nouvel actif > Enrichir les actifs de données avec des métadonnées .
Pour le nom, copiez et collez le texte suivant:
Mortgage data - metadata enrichment
Cliquez sur Suivant pour continuer.
Cliquez sur Sélectionner les données du projet.
Sélectionnez Metadata import.
Cochez la case en regard de Mortgage data-metadata import. Cet actif inclut les actifs suivants:
- COMMERICIAL_CLIENT
- CREDIT_SCORE
- HOUSE_PRICE
- MORTGAGE_APPLICANTS
- MORTGAGE_APPLICATION
Cliquez sur Sélectionner.
Cliquez sur Suivant pour poursuivre l'objectif d'enrichissement.
Sélectionner tous les objectifs d'enrichissement:
- Données de profil
- Affecter des termes
- Exécuter l'analyse de qualité de base
Pour Catégories, cliquez sur Sélectionner des catégories.
Sélectionnez uniquement [ sans catégorie ] et Banque.
Cliquez sur Sélectionner.
Pour Échantillonnage, sélectionnez De base.
Cliquez sur Suivant pour poursuivre l'exécution de la planification. Vous pouvez exécuter manuellement l'importation, de sorte que la planification reste désactivée.
Cliquez sur Suivant pour poursuivre l'examen.
Cliquez sur Créer.
L'actif d'enrichissement de métadonnées s'affiche, mais l'exécution du travail peut prendre plusieurs minutes. Cliquez sur l'icône d'actualisation " pour voir le statut passer de Non analysé à En cours et Terminé. Une fois l'exécution du travail terminée, vous voyez les cinq actifs répertoriés.
Vérifier votre progression
L'image suivante montre l'enrichissement des métadonnées terminé. Vous pouvez maintenant explorer les actifs de données enrichis.
Tâche 6: Afficher les résultats de l'enrichissement des métadonnées
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 07:45.
Une fois l'exécution de l'enrichissement des métadonnées terminée, procédez comme suit pour afficher les données enrichies:
Dans l'écran Mortgage data-metadata enrichissement , cliquez sur l'onglet Columns .
Dans la liste Colonnes, recherchez la colonne EMAIL_ADDRESS de l'actif MORTGAGE_APPLICANTS .
À la fin de la ligne EMAIL_ADDRESS for MORTGAGE_APPLICANTS, cliquez sur le menu de débordement " et choisissez View column details.
Dans le panneau latéral de l'onglet Détails , vous pouvez voir des informations de profilage telles que: Format, Distribution des fréquences, Statistiques.
Dans le panneau latéral, cliquez sur l'onglet Gouvernance . Cet onglet inclut les classes de données et les termes métier qui ont été affectés automatiquement lors de l'enrichissement des métadonnées. Vous pouvez également voir les termes métier et les classes de données suggérés et les affecter manuellement.
Passez en revue les termes métier ou les classes de données suggérés et affectez-les manuellement. Par exemple, vous pouvez voir Adresse comme un terme métier suggéré.
Cliquez sur Termes métier suggérés.
Pour Adresse, cliquez sur Affecter.
À la fin de la colonne EMAIL_ADDRESS de la ligne d'actif MORTGAGE_APPLICANTS, cliquez sur le menu de débordement " et sélectionnez View data quality details (Afficher les détails de la qualité des données).
Affichez les informations sur la qualité des données. IBM Knowledge Catalog génère automatiquement un score de qualité de données pour chaque colonne et actif de données en analysant chaque valeur de chaque enregistrement en fonction de dimensions préconfigurées.
Cliquez sur le X pour fermer la fenêtre Qualité de données .
Pour la colonne CITY de l'actif CREDIT_SCORE, cliquez sur le menu de débordement " et choisissez Mark as reviewed.
Cliquez sur l'onglet Actifs.
Dans la liste des actifs, pour l'actif MORTGAGE_APPLICANTS, cliquez sur le menu de débordement " et choisissez Afficher les détails de l'actif.
Dans le panneau latéral, cliquez sur l'onglet Gouvernance pour afficher l'affectation automatique de terme métier.
Cliquez sur l'icône " pour attribuer manuellement des termes commerciaux.
Recherchez
social
. Si vous ne voyez aucun résultat, assurez-vous que la liste déroulante est définie sur Tous les termes au lieu de Termes suggérés.Sélectionnez Numéro de sécurité sociale.
Cliquez sur Assign.
Vérifier votre progression
L'image suivante montre les actifs de données révisés et enrichis. L'étape suivante consiste à publier les données enrichies dans un catalogue à partager avec votre organisation.
Tâche 7: Publier des données dans un catalogue
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 09:06.
Maintenant que vous avez enrichi des données, vous souhaitez publier ces actifs de données dans un catalogue afin que les informaticiens et les analystes de données puissent utiliser les ressources de données enrichies. Procédez comme suit pour stocker les ressources de données enrichies dans un catalogue afin que les autres utilisateurs puissent accéder aux données sécurisées:
Cliquez sur le nom de projet Gouvernance des données dans la trace de navigation.
Cliquez sur l'onglet Actifs.
Sélectionnez Données > Actifs de données.
Sélectionnez les actifs de données MACIAL_CLIENT, HOUSE_PRICE, MORTGAGE_APPLICANTSet MORTGAGE_APPLICATION dans la liste, puis cliquez sur Publier dans le catalogue.
Pour le catalogue Cible , sélectionnez Catalogue d'approbation hypothécaire, puis cliquez sur Suivant.
Pour les Etiquettes, entrez l'étiquette
trusted
, puis cliquez sur + (signe plus), puis sur Suivant.Passez en revue les actifs et cliquez sur Publier.
Désélectionnez tous les actifs cochés, puis cochez la case en regard de l'actif CREDIT_SCORE dans la liste, puis cliquez sur Publier dans le catalogue.
Pour le catalogue Cible , sélectionnez Catalogue d'approbation hypothécaire, puis cliquez sur Suivant.
Pour Etiquettes, entrez l'étiquette
confidential
et cliquez sur + (signe plus).Entrez la balise
trusted
et cliquez sur + (signe plus) pour une deuxième balise.Sélectionnez l'option permettant d' accéder au catalogue après sa publication, puis cliquez sur Suivant.
Passez en revue les actifs et cliquez sur Publier.
Filtrez les actifs dans le catalogue d'approbation d'hypothèque.
Cliquez sur l'icône du filtre " .
Développez la section Etiquette .
Sélectionnez trusted, puis cliquez sur Apply.
Vérifiez que les cinq actifs de données ont été ajoutés au catalogue.
Modifiez le nom de l'actif de données MORTGAGE_APPLICANTS .
Ouvrez l'actif MORTGAGE_APPLICANTS .
Cliquez sur l'icône Modifier le nom " .
Remplacez le nom par:
MORTGAGE_APPLICANTS_TRUST
Cliquez sur Appliquer.
Vérifier votre progression
L'image suivante montre les actifs de données enrichis publiés dans un catalogue. Vous disposez maintenant de données de confiance disponibles dans le catalogue de votre société.
En tant qu'intendant de données au sein de l'équipe de gouvernance, vous avez appris à trier et à organiser les données de la société afin de fournir des actifs de données de haute qualité et protégés que les consommateurs de données peuvent facilement trouver dans un catalogue en libre-service.
Etapes suivantes
Vous êtes maintenant prêt à protéger vos données en créant des règles de protection des données et des flux de masquage pour contrôler l'accès à vos données.Voir le tutoriel Protégez vos données.
En savoir plus
Présentation de Cloud Pak for Data en tant que service et matrice de données
Essayez les tutoriels suivants:
Rubrique parent: Tutoriels de cas d'utilisation