Cette Suivez ce tutoriel pour régir les données qui ont été virtualisées après avoir terminé les tutoriels Curate high quality data, Protect your data, et Virtualize external data avec le cas d'utilisation Data integration of the data fabric trial. Votre objectif est de protéger les données virtuelles qui contiennent les demandeurs et les demandes d'hypothèque et leurs scores de crédit pour les accès non autorisés. Certains renseignements personnels, comme le numéro de sécurité sociale, doivent être masqués afin que tous les employés de Golden Bank n'aient pas accès à ces renseignements personnels.
L'histoire du tutoriel est que Golden Bank dispose de plusieurs services qui ont besoin d'accéder à des données de prêt hypothécaire client de haute qualité qui sont stockées dans trois sources de données externes. En tant qu'intendant de données dans l'équipe de gouvernance, vous devez enrichir les données virtualisées et vous assurer que les données virtualisées sont protégées.
L'image animée suivante fournit un aperçu rapide de ce que vous allez accomplir à la fin de ce tutoriel. Vous allez ajouter des données virtuelles à votre projet, puis les enrichir avec des termes métier, et voir comment les règles de protection des données d' IBM Knowledge Catalog masquent les données via Cloud Pak for Data as a Service. Cliquez sur l'image pour afficher une image plus grande.
Aperçu du tutoriel
Dans ce tutoriel, vous exécutez les tâches suivantes :
- Configurez les prérequis.
- Tâche 1: Activer la gouvernance des données virtualisées.
- Tâche 2: Exécuter une requête SQL sur les tables virtuelles.
- Tâche 3: Copier les données virtualisées dans votre projet.
- Tâche 4: Enrichir les données virtualisées.
- Tâche 5: Afficher les résultats de l'enrichissement de métadonnées.
- Tâche 6: Publier des tables virtuelles dans un catalogue.
- Nettoyer
Regardez cette vidéo pour prévisualiser les étapes de ce tutoriel. Il peut y avoir de légères différences dans l'interface utilisateur affichée dans la vidéo. La vidéo est destinée à être un compagnon du tutoriel écrit.
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Conseils pour l'exécution de ce tutoriel
Voici quelques conseils pour réussir ce tutoriel.
Utiliser la vidéo image-in-picture
L'image animée suivante montre comment utiliser les fonctions d'image vidéo et de table des matières:
Obtenir de l'aide dans la communauté
Si vous avez besoin d'aide pour ce tutoriel, vous pouvez poser une question ou trouver une réponse dans le forum de discussion de la communautéCloud Pak for Data.
Configurez les fenêtres de votre navigateur
Pour une expérience optimale lors de l'exécution de ce tutoriel, ouvrez Cloud Pak for Data dans une fenêtre de navigateur et laissez cette page de tutoriel ouverte dans une autre fenêtre de navigateur pour basculer facilement entre les deux applications. Envisagez d'organiser les deux fenêtres du navigateur côte à côte pour faciliter le suivi.
Configuration des prérequis
Suivez les tutoriels prérequis
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 00:27.
Suivez les tutoriels suivants:
- Tutoriel Virtualiser les données externes pour créer des tables virtuelles et joindre des vues à partir de données stockées dans trois sources externes.
- Tutoriel Organisation de données de haute qualité pour importer et enrichir des actifs de données et les publier dans un catalogue.
- Tutoriel Protégez vos données pour créer des règles de protection des données afin de protéger les données.
Base Premium Standard Sauf indication contraire, ces informations s'appliquent à toutes les éditions d'IBM Knowledge Catalog
Tâche 1: Activer la gouvernance des données virtualisées
Deux étapes sont requises pour activer la gouvernance des données virtualisées:
- Appliquer les règles de protection des données dans le cadre de la Data Virtualization.
- Configurer l'autorisation entre IBM Knowledge Catalog et Data Virtualization.
Appliquer les règles de protection des données
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 01:02.
Procédez comme suit pour appliquer les règles de protection des données dans le cadre de la Data Virtualization:
Dans le menu de navigation " , choisissez Données > Data virtualization.
Si vous voyez une notification Configurer un catalogue principal pour appliquer la gouvernance, cliquez sur Aller à la gouvernance. Si vous ne voyez pas ce message, dans le menu du service, cliquez sur Administration > Paramètres du service, puis sur l'onglet Gouvernance.
Activez l'option Appliquer les règles de protection des données aux objets virtuels et cliquez sur Sauvegarder.
Dans le menu du service, revenez à Virtualisation > Sources de données.
Vérifier votre progression
L'image suivante montre l'onglet Gouvernance avec l'application des règles activée. Ensuite, vous devez configurer l'autorisation entre IBM Knowledge Catalog et Data Virtualization.
Vérifier votre progression
L'image suivante montre la page Autorisations dans IBM Cloud avec l'autorisation entre IBM Knowledge Catalog et Data Virtualization. Vous êtes maintenant prêt à interroger les tables virtuelles gouvernées dans Data Virtualization.
Tâche 2: Exécuter une requête SQL sur les tables virtuelles gouvernées
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 02:20.
Lorsque des règles de protection des données sont en place, les tables virtuelles sont régies par ces règles. Pour exécuter une requête SQL sur une table virtuelle gouvernée, procédez comme suit:
Dans le menu du service de Data Virtualization, cliquez sur Exécuter SQL.
Copiez et collez l'instruction SELECT suivante pour la nouvelle requête. Remplacez
<your schema>
par le nom de schéma que vous avez noté précédemment.SELECT * FROM <your-schema>.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
Votre requête ressemble à 'SELECT * FROM 'DV_IBMID_663002GN1Q.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA' (code d'état) '
''Cliquez sur Exécuter tout.
Une fois la requête terminée, sélectionnez-la dans l'onglet Historique . Dans l'onglet Résultats , vous pouvez voir que la table est filtrée uniquement pour les demandeurs de l'état de Californie. Les règles de protection des données s'appliquent à la Data Virtualization, à l'aperçu du catalogue, au téléchargement du catalogue, à l'Data Refinery et à l'aperçu des actifs du projet. La règle ne s'applique pas au propriétaire de l'actif. Regardez la vidéo à 02:47 pour voir ce que les autres utilisateurs voient lorsqu'ils exécutent la requête SQL.
Vérifier votre progression
L'image suivante montre les résultats de la requête SQL du point de vue d'un autre utilisateur. Vous êtes maintenant prêt à copier les tables virtuelles dans votre projet.
Tâche 3: Copier les données virtuelles dans votre projet
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 03:02.
Dans le tutoriel Virtualiser les données externes , vous avez créé des tables virtuelles et des vues de jointure virtuelle et vous les avez copiées dans votre projet d'intégration de données. Si vous souhaitez utiliser ce projet pour exécuter ce tutoriel, passez à la Tâche 3. Si vous souhaitez utiliser votre projet de gouvernance de données pour exécuter ce tutoriel, procédez comme suit:
Dans le menu de service, cliquez sur Virtualisation > Données virtualisées.
Sélectionnez les tableaux suivantes :
- MORTGAGE_APPLICATION
- MORTGAGE_APPLICANT
- CREDIT_SCORE
- APPLICANTS_APPLICATIONS_JOINT
- APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINT
Cliquez sur Assign.
Pour le Projet, sélectionnez Gouvernance des données.
Cliquez sur Assign.
Une fois les objets virtuels correctement affectés, accédez à votre projet.
Dans le projet Gouvernance des données , cliquez sur l'onglet Actifs . Les tables de données virtuelles commencent par
<your schema>
.Ouvrez l'une des tables de données virtuelles. Par exemple, cliquez sur la table virtuelle APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINT pour l'afficher.
Indiquez vos données d'identification pour accéder à l'actif de données.
Pour la méthode d'authentification, sélectionnez Clé d'API.
Collez la même clé API que vous avez créée dans le tutoriel Virtualiser les données externes.
Cliquez sur Connexion. Les règles de protection des données s'appliquent dans l'aperçu du catalogue, le téléchargement du catalogue, Data Refineryet l'aperçu des actifs de projet. La règle ne s'applique pas au propriétaire de l'actif. Regardez la vidéo à 04:09 pour voir ce que les autres utilisateurs voient en essayant d'accéder à la table de données virtuelle.
Vérifier votre progression
L'image suivante montre la table virtuelle avec une colonne masquée dans le projet du point de vue d'un utilisateur différent. Vous êtes maintenant prêt à enrichir les données.
Tâche 4: Enrichir les tables de données virtuelles
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 04:21.
Vous pouvez enrichir les actifs de données avec des informations qui aident les utilisateurs à trouver des données plus rapidement. Les utilisateurs peuvent utiliser les enrichissements pour déterminer si les données sont appropriées pour la tâche en cours, s'ils peuvent faire confiance aux données et comment les utiliser. Ces informations sont notamment des termes qui définissent la signification des données, des règles qui documentent la propriété ou déterminent des normes de qualité, ou des révisions. Procédez comme suit pour enrichir les tables de données virtuelles:
Cliquez sur Gouvernance des données dans la piste de navigation pour revenir au projet.
Sur le Actifs onglet, cliquez sur Nouvel actif > Enrichir les actifs de données avec des métadonnées .
Pour le nom, copiez et collez le texte suivant:
Virtual mortgage data - metadata enrichment
Cliquez sur Suivant pour continuer.
Cliquez sur Sélectionner les données du projet.
Sélectionnez Actif de données.
Cochez la case en regard des actifs suivants:
<your schema>.MORTGAGE_APPLICATION
<your schema>.MORTGAGE_APPLICANT
<your schema>.CREDIT_SCORE
<your schema>.APPLICANTS_APPLICATIONS_JOINED
<your schema>.APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED
Cliquez sur Sélectionner.
Cliquez sur Suivant pour poursuivre l'objectif d'enrichissement.
Sélectionner tous les objectifs d'enrichissement:
- Données de profil
- Affecter des termes
- Exécuter l'analyse de qualité de base
Pour Catégories, cliquez sur Sélectionner des catégories.
Sélectionnez uniquement [ sans catégorie ] et Banque.
Cliquez sur Sélectionner.
Pour Échantillonnage, sélectionnez De base.
Cliquez sur Suivant pour poursuivre l'exécution de la planification.
Cliquez sur Suivant pour poursuivre l'examen.
Cliquez sur Créer.
L'actif d'enrichissement de métadonnées s'affiche, mais l'exécution du travail peut prendre plusieurs minutes. Cliquez sur l'icône d'actualisation " pour voir le statut passer de " En attente " à " En cours " puis à " Terminé". Une fois l'exécution du travail terminée, vous voyez les cinq actifs répertoriés.
Vérifier votre progression
L'image suivante montre l'enrichissement des métadonnées terminé. Vous pouvez maintenant explorer les actifs de données enrichis.
Tâche 5: Afficher les résultats de l'enrichissement des métadonnées
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 05:48.
Une fois l'exécution de l'enrichissement des métadonnées terminée, procédez comme suit pour afficher les données enrichies:
Dans l'écran Données d'hypothèque virtuelle-enrichissement des métadonnées , cliquez sur l'onglet Colonnes .
Recherchez
mortgage_applicant
.Dans la liste Colonnes, recherchez la colonne EMAIL_ADDRESS pour l'actif your-schema.MORTGAGE_APPLICANT .
Cliquez sur le menu de débordement " à la fin de la ligne EMAIL_ADDRESS for your_schema.MORTGAGE_APPLICANT, et choisissez View column details.
Dans le panneau latéral de l'onglet Détails , vous pouvez voir des informations de profilage telles que: Format, Distribution des fréquences, Statistiques.
Dans le panneau latéral, cliquez sur l'onglet Gouvernance . Cet onglet inclut les classes de données et les termes métier qui ont été affectés automatiquement lors de l'enrichissement des métadonnées. Vous pouvez également voir les termes métier et les classes de données suggérés et les affecter manuellement.
Passez en revue les termes métier ou les classes de données suggérés et affectez-les manuellement. Par exemple, vous pouvez voir Adresse comme un terme métier suggéré.
Cliquez sur Termes métier suggérés.
Pour Adresse, cliquez sur Affecter.
Cliquez sur Classes de données suggérées.
Pour Texte, cliquez sur Affecter.
À la fin de la colonne EMAIL_ADDRESS de votre ligne d'actif your_schema.MORTGAGE_APPLICANT, cliquez sur le menu Overflow ' et choisissez View data quality details.
Affichez le score de qualité des données. IBM Knowledge Catalog génère automatiquement un score de qualité de données pour chaque colonne et actif de données en analysant chaque valeur de chaque enregistrement en fonction de dimensions préconfigurées.
Cliquez sur le X pour fermer la fenêtre Qualité de données .
Recherchez
credit_score
.Pour la colonne CITY de l'actif your_schema.CREDIT_SCORE, cliquez sur le menu de débordement ' et choisissez Mark as reviewed.
Cliquez sur l'onglet Actifs.
Dans la liste des actifs, pour votre actif your_schema.MORTGAGE_APPLICANT, cliquez sur le menu de débordement ', et choisissez View asset details.
Dans le panneau latéral, cliquez sur l'onglet Gouvernance pour afficher les termes métier qui ont été affectés automatiquement.
Cliquez sur l'icône Ajouter " (ou sur l'icône Modifier " ) pour attribuer manuellement des termes commerciaux.
Recherchez
social
. Si vous ne voyez aucun résultat, assurez-vous que la liste déroulante est définie sur Tous les termes au lieu de Termes suggérés.Sélectionnez Numéro de sécurité sociale.
Cliquez sur Assign.
Vérifier votre progression
L'image suivante montre les actifs de données révisés et enrichis. L'étape suivante consiste à publier les données enrichies dans un catalogue à partager avec votre organisation.
Tâche 6: Publier des tables virtuelles dans un catalogue
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 7:18.
Maintenant que les données virtualisées sont enrichies avec des termes métier, procédez comme suit pour publier les tables virtuelles dans un catalogue:
Cliquez sur Gouvernance des données dans la piste de navigation pour revenir au projet.
Cliquez sur l'onglet Actifs.
Accédez à Données > Actifs de données.
Cochez la case en regard des actifs suivants:
<your schema>.MORTGAGE_APPLICATION
<your schema>.MORTGAGE_APPLICANT
<your schema>.CREDIT_SCORE
<your schema>.APPLICANTS_APPLICATIONS_JOINED
<your schema>.APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED
Cliquez sur Publier dans le catalogue.
Sélectionnez le catalogue d'approbation hypothécaire (ou le nom de votre catalogue) dans la liste, puis cliquez sur Suivant.
Sélectionnez l'option permettant d' accéder au catalogue après sa publication, puis cliquez sur Suivant.
Passez en revue les actifs et cliquez sur Publier.
Dans Mortgage Approval Catalog, recherchez
<your-schema>
.Ouvrez l'une des tables virtuelles. Si vous y êtes invité, indiquez vos données d'identification:
Pour la méthode d'authentification, sélectionnez Clé d'API.
Collez la même clé d'API que celle que vous avez créée dans le tutoriel Virtualiser les données externes .
Cliquez sur l'onglet Actif pour afficher les données. Les règles de protection des données s'appliquent dans l'aperçu du catalogue, le téléchargement du catalogue, Data Refineryet l'aperçu des actifs de projet. La règle ne s'applique pas au propriétaire de l'actif. Regardez la vidéo à 08:17 pour voir ce que les autres utilisateurs voient en essayant d'accéder à la table de données virtuelle dans le catalogue.
Vérifier votre progression
L'image suivante montre l'aperçu des données de la table virtuelle dans le catalogue du point de vue de l'utilisateur.
En tant qu'ingénieurs en traitement de données et intendants de données chez Golden Bank, vous avez enrichi les données virtualisées pour vous assurer qu'elles sont protégées.
Nettoyage (facultatif)
Si vous souhaitez reprendre les tutoriels dans le cas d'utilisation de la gouvernance des données, reportez-vous à la section Nettoyer dans chacun des tutoriels prérequis:
Etapes suivantes
Essayez les tutoriels suivants:
Inscrivez-vous pour un autre cas d'utilisation de matrice de données.
En savoir plus
Rubrique parent: Tutoriels de cas d'utilisation