Tutoriel sur la gouvernance des données: Gouvernance des données virtualisées
Cette Prenez ce tutoriel pour gouverner les données qui ont été virtualisées après avoir suivi le tutoriel Curate high quality data, le tutoriel Protéger vos donnéeset le tutoriel Virtualiser les données externes avec le cas d'utilisation Intégration de données de l'essai de matrice de données. Votre objectif est de protéger les données virtuelles qui contiennent les demandeurs et les demandes d'hypothèque et leurs scores de crédit pour les accès non autorisés. Certains renseignements personnels, comme le numéro de sécurité sociale, doivent être masqués afin que tous les employés de Golden Bank n'aient pas accès à ces renseignements personnels.
L'histoire du tutoriel est que Golden Bank dispose de plusieurs services qui ont besoin d'accéder à des données de prêt hypothécaire client de haute qualité qui sont stockées dans trois sources de données externes. En tant qu'intendant de données dans l'équipe de gouvernance, vous devez enrichir les données virtualisées et vous assurer que les données virtualisées sont protégées.
L'image animée suivante fournit un aperçu rapide de ce que vous allez accomplir à la fin de ce tutoriel. Vous allez ajouter des données virtuelles à votre projet, puis les enrichir avec des termes métier, et voir comment les règles de protection des données d' IBM Knowledge Catalog masquent les données via Cloud Pak for Data as a Service. Cliquez sur l'image pour afficher une image plus grande.
Aperçu du tutoriel
Dans ce tutoriel, vous exécutez les tâches suivantes :
- Configurez les prérequis.
- Tâche 1: Activer la gouvernance des données virtualisées.
- Tâche 2: Exécuter une requête SQL sur les tables virtuelles.
- Tâche 3: Copier les données virtualisées dans votre projet.
- Tâche 4: Enrichir les données virtualisées.
- Tâche 5: Afficher les résultats de l'enrichissement de métadonnées.
- Tâche 6: Publier des tables virtuelles dans un catalogue.
- Nettoyer
Regardez cette vidéo pour prévisualiser les étapes de ce tutoriel. Il peut y avoir de légères différences dans l'interface utilisateur affichée dans la vidéo. La vidéo est destinée à être un compagnon du tutoriel écrit.
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Conseils pour l'exécution de ce tutoriel
Voici quelques conseils pour réussir ce tutoriel.
Utiliser la vidéo image-in-picture
L'image animée suivante montre comment utiliser les fonctions d'image vidéo et de table des matières:
Obtenir de l'aide dans la communauté
Si vous avez besoin d'aide pour ce tutoriel, vous pouvez poser une question ou trouver une réponse dans le forum de discussion de la communautéCloud Pak for Data.
Configurez les fenêtres de votre navigateur
Pour une expérience optimale lors de l'exécution de ce tutoriel, ouvrez Cloud Pak for Data dans une fenêtre de navigateur et laissez cette page de tutoriel ouverte dans une autre fenêtre de navigateur pour basculer facilement entre les deux applications. Envisagez d'organiser les deux fenêtres du navigateur côte à côte pour faciliter le suivi.
Configuration des prérequis
Suivez les tutoriels prérequis
Pour prévisualiser cette tâche, regardez la vidéo à partir de 00:27.
Suivez les tutoriels suivants:
- Tutoriel Virtualiser les données externes pour créer des tables virtuelles et joindre des vues à partir de données stockées dans trois sources externes.
- Tutoriel Organisation de données de haute qualité pour importer et enrichir des actifs de données et les publier dans un catalogue.
- Tutoriel Protégez vos données pour créer des règles de protection des données afin de protéger les données.
Tâche 1: Activer la gouvernance des données virtualisées
Deux étapes sont requises pour activer la gouvernance des données virtualisées:
- Appliquez les règles de protection des données dans Watson Query.
- Configurez l'autorisation entre IBM Knowledge Catalog et Watson Query.
Appliquer les règles de protection des données
Pour prévisualiser cette tâche, regardez la vidéo qui commence à 01:02.
Pour appliquer des règles de protection des données dans Watson Query, procédez comme suit:
Dans le menu de navigation , choisissez Données > Data virtualization
Si vous voyez une notification Configurer un catalogue principal pour appliquer la gouvernance, cliquez sur Aller à la gouvernance. Si ce message ne s'affiche pas, dans le menu du service, cliquez sur Administration > Paramètres de service, puis sur l'onglet Gouvernance .
Activez l'option Appliquer les règles de protection des données aux objets virtuels et cliquez sur Sauvegarder.
Dans le menu du service, revenez à Virtualisation > Sources de données.
Vérifiez votre progression
L'image suivante montre l'onglet Gouvernance avec l'application des règles activée. Ensuite, vous devez configurer l'autorisation entre IBM Knowledge Catalog et Data Virtualization.
Vérifiez votre progression
L'image suivante montre la page Autorisations dans IBM Cloud avec l'autorisation entre IBM Knowledge Catalog et Data Virtualization. Vous êtes maintenant prêt à interroger les tables virtuelles gouvernées dans Data Virtualization.
Tâche 2: Exécuter une requête SQL sur les tables virtuelles gouvernées
Pour prévisualiser cette tâche, regardez la vidéo qui commence à 02:20.
Lorsque des règles de protection des données sont en place, les tables virtuelles sont régies par ces règles. Pour exécuter une requête SQL sur une table virtuelle gouvernée, procédez comme suit:
Dans le menu du service Watson Query , cliquez sur Exécuter SQL.
Copiez et collez l'instruction SELECT suivante pour la nouvelle requête. Remplacez
<your schema>
par le nom de schéma que vous avez noté précédemment.SELECT * FROM <your-schema>.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
Votre requête est similaire à SELECT * FROM DV_IBMID_663002GN1Q.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE'CA'
Cliquez sur Exécuter tout.
Une fois la requête terminée, sélectionnez-la dans l'onglet Historique . Dans l'onglet Résultats , vous pouvez voir que la table est filtrée uniquement pour les demandeurs de l'état de Californie. Les règles de protection des données s'appliquent dans Watson Query, l'aperçu du catalogue, le téléchargement du catalogue, Data Refineryet l'aperçu des actifs de projet. La règle ne s'applique pas au propriétaire de l'actif. Regardez la vidéo à l'adresse 02:47 pour voir ce que les autres utilisateurs voient lorsqu'ils exécutent la requête SQL.
Vérifiez votre progression
L'image suivante montre les résultats de la requête SQL du point de vue d'un autre utilisateur. Vous êtes maintenant prêt à copier les tables virtuelles dans votre projet.
Tâche 3: Copier les données virtuelles dans votre projet
Pour prévisualiser cette tâche, regardez la vidéo qui commence à 03:02.
Dans le tutoriel Virtualiser les données externes , vous avez créé des tables virtuelles et des vues de jointure virtuelle et vous les avez copiées dans votre projet d'intégration de données. Si vous souhaitez utiliser ce projet pour exécuter ce tutoriel, passez à la Tâche 3. Si vous souhaitez utiliser votre projet de gouvernance de données pour exécuter ce tutoriel, procédez comme suit:
Dans le menu du service, cliquez sur Virtualisation > Données virtualisées.
Sélectionnez les tableaux suivantes :
- MORTGAGE_APPLICATION
- MORTGAGE_APPLICANT
- CREDIT_SCORE
- APPLICANTS_APPLICATIONS_JOINT
- APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINT
Cliquez sur Assign.
Pour le Projet, sélectionnez Gouvernance des données.
Cliquez sur Assign.
Une fois les objets virtuels correctement affectés, accédez à votre projet.
Dans le projet Gouvernance des données , cliquez sur l'onglet Actifs . Les tables de données virtuelles commencent par
<your schema>
.Ouvrez l'une des tables de données virtuelles. Par exemple, cliquez sur la table virtuelle APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINT pour l'afficher.
Indiquez vos données d'identification pour accéder à l'actif de données.
Pour la méthode d'authentification, sélectionnez Clé d'API.
Collez la même clé d'API que celle que vous avez créée dans le tutoriel Virtualiser les données externes .
Cliquez sur Connexion. Les règles de protection des données s'appliquent dans l'aperçu du catalogue, le téléchargement du catalogue, Data Refineryet l'aperçu des actifs de projet. La règle ne s'applique pas au propriétaire de l'actif. Regardez la vidéo à l'adresse 04:09 pour voir ce que les autres utilisateurs voient en tentant d'accéder à la table de données virtuelles.
Vérifiez votre progression
L'image suivante montre la table virtuelle avec une colonne masquée dans le projet du point de vue d'un utilisateur différent. Vous êtes maintenant prêt à enrichir les données.
Tâche 4: Enrichir les tables de données virtuelles
Pour prévisualiser cette tâche, regardez la vidéo qui commence à 04:21.
Vous pouvez enrichir les actifs de données avec des informations qui aident les utilisateurs à trouver des données plus rapidement. Les utilisateurs peuvent utiliser les enrichissements pour déterminer si les données sont appropriées pour la tâche en cours, s'ils peuvent faire confiance aux données et comment les utiliser. Ces informations sont notamment des termes qui définissent la signification des données, des règles qui documentent la propriété ou déterminent des normes de qualité, ou des révisions. Procédez comme suit pour enrichir les tables de données virtuelles:
Cliquez sur Gouvernance des données dans la piste de navigation pour revenir au projet.
Sur le Actifs onglet, cliquez sur Nouvel actif > Enrichir les actifs de données avec des métadonnées .
Pour le nom, copiez et collez le texte suivant:
Virtual mortgage data - metadata enrichment
Cliquez sur Suivant pour continuer.
Cliquez sur Sélectionner les données du projet.
Sélectionnez Actif de données.
Cochez la case en regard des actifs suivants:
<your schema>.MORTGAGE_APPLICATION
<your schema>.MORTGAGE_APPLICANT
<your schema>.CREDIT_SCORE
<your schema>.APPLICANTS_APPLICATIONS_JOINED
<your schema>.APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED
Cliquez sur Sélectionner.
Cliquez sur Suivant pour poursuivre l'objectif d'enrichissement.
Sélectionner tous les objectifs d'enrichissement:
- Données de profil
- Affecter des termes
- Exécuter l'analyse de qualité de base
Pour Catégories, cliquez sur Sélectionner des catégories.
Sélectionnez uniquement [ sans catégorie ] et Banque.
Cliquez sur Sélectionner.
Pour Échantillonnage, sélectionnez De base.
Cliquez sur Suivant pour poursuivre l'exécution de la planification.
Cliquez sur Suivant pour poursuivre l'examen.
Cliquez sur Créer.
L'actif d'enrichissement de métadonnées s'affiche, mais l'exécution du travail peut prendre plusieurs minutes. Cliquez sur l'icône Actualiser pour surveiller le changement de statut de En file d'attente à En cours à Terminé. Une fois l'exécution du travail terminée, vous voyez les cinq actifs répertoriés.
Vérifiez votre progression
L'image suivante montre l'enrichissement des métadonnées terminé. Vous pouvez maintenant explorer les actifs de données enrichis.
Tâche 5: Afficher les résultats de l'enrichissement des métadonnées
Pour prévisualiser cette tâche, regardez la vidéo qui commence à 05:48.
Une fois l'exécution de l'enrichissement des métadonnées terminée, procédez comme suit pour afficher les données enrichies:
Dans l'écran Données d'hypothèque virtuelle-enrichissement des métadonnées , cliquez sur l'onglet Colonnes .
Recherchez
mortgage_applicant
.Dans la liste Colonnes, recherchez la colonne EMAIL_ADDRESS pour l'actif your-schema.MORTGAGE_APPLICANT .
Cliquez sur le menu Dépassement à la fin de la ligne EMAIL_ADDRESS de votre your_schema.MORTGAGE_APPLICANT et choisissez Afficher les détails de la colonne.
Dans le panneau latéral de l'onglet Détails , vous pouvez voir des informations de profilage telles que: Format, Distribution des fréquences, Statistiques.
Dans le panneau latéral, cliquez sur l'onglet Gouvernance . Cet onglet inclut les classes de données et les termes métier qui ont été affectés automatiquement lors de l'enrichissement des métadonnées. Vous pouvez également voir les termes métier et les classes de données suggérés et les affecter manuellement.
Passez en revue les termes métier ou les classes de données suggérés et affectez-les manuellement. Par exemple, vous pouvez voir Adresse comme un terme métier suggéré.
Cliquez sur Termes métier suggérés.
Pour Adresse, cliquez sur Affecter.
Cliquez sur Classes de données suggérées.
Pour Texte, cliquez sur Affecter.
A la fin de la colonne EMAIL_ADDRESS de votre ligne d'actif your_schema.MORTGAGE_APPLICANT , cliquez sur le menu Dépassement et sélectionnez Afficher les détails de la qualité des données.
Affichez le score de qualité des données. IBM Knowledge Catalog génère automatiquement un score de qualité de données pour chaque colonne et actif de données en analysant chaque valeur de chaque enregistrement en fonction de dimensions préconfigurées.
Cliquez sur le X pour fermer la fenêtre Qualité de données .
Recherchez
credit_score
.Pour la colonne CITY de l'actif your_schema.CREDIT_SCORE , cliquez sur le menu Overflow et choisissez Marquer comme révisé.
Cliquez sur l'onglet Actifs.
Dans la liste Actifs, pour votre actif your_schema.MORTGAGE_APPLICANT , cliquez sur le menu Dépassement et sélectionnez Afficher les détails de l'actif.
Dans le panneau latéral, cliquez sur l'onglet Gouvernance pour afficher les termes métier qui ont été affectés automatiquement.
Cliquez sur l'icône Ajouter (ou vous pouvez voir l'icône Editer ) pour affecter manuellement des termes métier.
Recherchez
social
. Si vous ne voyez aucun résultat, assurez-vous que la liste déroulante est définie sur Tous les termes au lieu de Termes suggérés.Sélectionnez Numéro de sécurité sociale.
Cliquez sur Assign.
Vérifiez votre progression
L'image suivante montre les actifs de données révisés et enrichis. L'étape suivante consiste à publier les données enrichies dans un catalogue à partager avec votre organisation.
Tâche 6: Publier des tables virtuelles dans un catalogue
Pour prévisualiser cette tâche, regardez la vidéo à partir de 7:18.
Maintenant que les données virtualisées sont enrichies avec des termes métier, procédez comme suit pour publier les tables virtuelles dans un catalogue:
Cliquez sur Gouvernance des données dans la piste de navigation pour revenir au projet.
Cliquez sur l'onglet Actifs.
Accédez à Données > Actifs de données.
Cochez la case en regard des actifs suivants:
<your schema>.MORTGAGE_APPLICATION
<your schema>.MORTGAGE_APPLICANT
<your schema>.CREDIT_SCORE
<your schema>.APPLICANTS_APPLICATIONS_JOINED
<your schema>.APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED
Cliquez sur Publier dans le catalogue.
Sélectionnez le catalogue d'approbation hypothécaire (ou le nom de votre catalogue) dans la liste, puis cliquez sur Suivant.
Sélectionnez l'option permettant d' accéder au catalogue après sa publication, puis cliquez sur Suivant.
Passez en revue les actifs et cliquez sur Publier.
Dans Mortgage Approval Catalog, recherchez
<your-schema>
.Ouvrez l'une des tables virtuelles. Si vous y êtes invité, indiquez vos données d'identification:
Pour la méthode d'authentification, sélectionnez Clé d'API.
Collez la même clé d'API que celle que vous avez créée dans le tutoriel Virtualiser les données externes .
Cliquez sur l'onglet Actif pour afficher les données. Les règles de protection des données s'appliquent dans l'aperçu du catalogue, le téléchargement du catalogue, Data Refineryet l'aperçu des actifs de projet. La règle ne s'applique pas au propriétaire de l'actif. Regardez la vidéo à l'adresse 08:17 pour voir ce que les autres utilisateurs voient en tentant d'accéder à la table de données virtuelles dans le catalogue.
Vérifiez votre progression
L'image suivante montre l'aperçu des données de la table virtuelle dans le catalogue du point de vue de l'utilisateur.
En tant qu'ingénieurs en traitement de données et intendants de données chez Golden Bank, vous avez enrichi les données virtualisées pour vous assurer qu'elles sont protégées.
Nettoyage (facultatif)
Si vous souhaitez reprendre les tutoriels dans le cas d'utilisation de la gouvernance des données, reportez-vous à la section Nettoyer dans chacun des tutoriels prérequis:
Etapes suivantes
Essayez les tutoriels suivants:
Inscrivez-vous pour un autre cas d'utilisation de matrice de données.
En savoir plus
Rubrique parent: Tutoriels de cas d'utilisation