Tutoriel : Connaître vos données

Ce tutoriel vous permet de travailler avec vos données sécurisées et protégées avec le cas d'utilisation de la gouvernance des données et de la confidentialité de l'offre d'essai de matrice de données. Votre objectif est d'évaluer, partager, façonner et analyser des données dans le tissu de données.

Le cas d'utilisation de ce tutoriel est que la Golden Bank a plusieurs départements qui ont besoin d'accéder à des données hypothécaires client de haute qualité. En tant qu'analyste de données, vous devez rechercher et trouver les données appropriées, comprendre et faire confiance à son contenu, puis le préparer à d'autres analystes de données et à des scientifiques de données pour utilisation.

Dans ce tutoriel, vous exécuterez les tâches suivantes :

  1. Comprendre et socialiser les actifs de données.
  2. Informer les actifs et créer des relations.
  3. Ajouter des données enrichies à un projet.
  4. Visualisez les données.
  5. Préparez les données pour l'analyse et l'IA.
  6. Exécutez le flux Data Refinery.

Si vous avez besoin d'aide pour ce tutoriel, posez une question ou trouvez une réponse dans le forum de discussion communautaire Cloud Pak for Data.

Astuce : Pour une expérience optimale dans l'exécution de ce tutoriel, ouvrez Cloud Pak for Data en tant que service dans un onglet de navigateur, et gardez cette page de tutoriel ouverte dans un autre onglet de navigateur pour basculer facilement entre les deux applications.

Prérequis

Vous devez vous inscrire pour Cloud Pak for Data en tant que service et fournir les services nécessaires pour le cas d'utilisation de la gouvernance des données et de la confidentialité.

Vous pouvez vous inscrire pour Cloud Pak for Data en tant que service de l'une des manières suivantes :

Mettez à disposition les services nécessaires

Suivez ces étapes pour vérifier ou mettre à disposition les services nécessaires.

  1. Dans le menu de navigation Cloud Pak for Data, sélectionnez Services > Instances de service.
  2. Utilisez la liste déroulante Produit pour déterminer s'il existe une instance de service Watson Knowledge Catalog existante.
  3. Si vous devez créer une instance de service Watson Knowledge Catalog, cliquez sur Ajouter un service.
  4. Sélectionnez Watson Knowledge Catalog.
  5. Sélectionnez le plan Lite.
  6. Cliquez sur Créer.

Approuvez et protégez vos données

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 00:47.

Faites ces deux tutoriels :

Étape 1 : Comprendre et socialiser les actifs de données

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 02:23.

Les catalogues sont l'endroit où vous partagez des actifs avec d'autres utilisateurs. Les organisations peuvent créer différents catalogues pour différents actifs. Les utilisateurs ne peuvent accéder qu'aux catalogues pour lesquels ils ont été ajoutés en tant que collaborateurs. Suivez ces étapes pour comprendre et socialiser les ressources de données.

  1. Dans le menu de navigation Cloud Pak for Data, sélectionnez Catalogues > Afficher tous les catalogues.
  2. Ouvrez le fichier Catalogue d'approbation d'hypothèque.
  3. Les sections des actifs présentés indiquent les actifs Récemment ajouté, les actifs Watson recommande qui sont des actifs suggérés à partir d'IA et d'apprentissage automatique en fonction de votre utilisation passée et de la popularité, ainsi que les actifs très bien notés que les collaborateurs de catalogue ont notés et examinés.
  4. Cliquez sur Masquer les actifs présentés pour fermer cette section.
  5. Recherchez mortgage.
  6. Cliquez sur MORTGAGE_APPLICANTS pour afficher cet actif de catalogue. L'onglet Aperçu fournit des informations de base sur l'actif, telles que la description, une évaluation, des balises, l'emplacement de l'actif, les termes métier, les classifications et les actifs associés.
  7. Cliquez sur l'onglet Profil. Lorsque des actifs sont ajoutés à un catalogue avec des règles de données activées, Watson Knowledge Catalog profile automatiquement et classifie le contenu de l'actif selon les valeurs dans ces colonnes. L'information sur le profil est très utile aux analystes de données et aux spécialistes des données pour comprendre le contenu, la qualité et la facilité d'utilisation des données. Watson Knowledge Catalog infère automatiquement les classifications de données pour identifier le type de données. Vous pouvez utiliser ces classifications de données dans l'application des règles pour protéger les données sensibles.
  8. Faites défiler la page vers la droite pour sélectionner la colonne ZIP_CODE.
  9. La classification des données de cette colonne est Entité commerciale et gouvernementale. Il est facile de reclasser cette colonne. Cliquez sur la liste déroulante pour afficher les autres classifications possibles et leur niveau de fiabilité. Sélectionnez Code postal américain.
  10. Cliquez sur l'onglet Actif pour afficher un aperçu des données.
  11. Pour afficher les métadonnées de colonne, cliquez sur l'icône œil pour une colonne dans les termes métier affectés.
  12. Cliquez sur l'onglet Révision. Vous décidez de noter et de commenter l'actif MORTGAGE_APPLICANTS afin que les autres puissent trouver facilement l'actif.
    1. Sélectionnez 5 étoiles pour la notation.
    2. Pour la vérification, entrez This contains high quality customer data from the mortgage system.
    3. Cliquez sur Submit.

Étape 2 : Enrichissez des actifs et création de relations

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 02:23.

Une fois que les actifs sont ajoutés ou publiés dans le catalogue, vous pouvez effectuer un enrichissement manuel supplémentaire sur les actifs afin de fournir plus d'informations à partager avec d'autres utilisateurs. Par exemple, vous pouvez créer des relations entre des actifs afin que d'autres utilisateurs puissent voir comment les actifs peuvent être liés. Procédez comme suit pour enrichir les actifs et créer des relations.

  1. Pour l'actif de catalogue MORTGAGE_APPLICANTS , cliquez sur l'onglet Aperçu.
  2. Dans la section Description, cliquez sur l'icône Éditer.
    1. Entrez Mortgage applicants from the Mortgage System.
    2. Cliquez sur le bouton Sauvegarder.
  3. Étant donné que cet actif provient du système hypothécaire, en regard des termes métier, cliquez sur + (signe plus).
    1. Recherchez default.
    2. Sélectionnez Hypothèque par défaut.
    3. Cliquez sur Ajouter.
  4. Étant donné que cet actif contient des informations personnelles, en regard des Classifications, cliquez sur + (signe plus).
    1. Sélectionnez informations personnellement identifiables.
    2. Cliquez sur Ajouter.
  5. Étant donné que cet actif est lié à d'autres actifs hypothécaires, en regard des actifs associés, cliquez sur Ajouter un actif.
    1. Sélectionnez Est lié à et cliquez sur Suivant.
    2. Sélectionnez les ressources CREDIT_SCORE et MORTGAGE_APPLICATION, puis cliquez sur Ajouter.
  6. Cliquez sur MORTGAGE_APPLICATION pour afficher cet actif associé.

Étape 3 : Ajout de données enrichies à un projet

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 02:23.

L'équipe d'analystes de données a déterminé que le MORTGAGE_APPLICANTS sera utile dans le cadre de votre projet d'analyse des prêts hypothécaires. Procédez comme suit pour ajouter les données enrichies à un projet.

  1. Cliquez sur Catalogue d'approbation d'hypothèque dans les éléments de navigation.
  2. Pour l'actif de catalogue MORTGAGE_APPLICANTS, dans le menu déroulant dynamique, sélectionnez Ajouter au projet.
    1. Sélectionnez le projet Gouvernance des données et confidentialité.
    2. Cliquez sur Ajouter.
  3. Lorsque la notification s'affiche, cliquez sur Aller au projet. Si vous manquez la notification, procédez comme suit :
    1. Cliquez sur le menu de navigation Cloud Pak for Data, choisissez Projets > Afficher tous les projets.
    2. Cliquez sur le projet Gouvernance des données et confidentialité.
  4. Dans le projet, cliquez sur l'onglet Actifs pour afficher l'actif de données MORTGAGE_APPLICANTS et l'actif de connexion Offre d'essai de matrice de données - Db2 Warehouse.

Étape 4 : Visualisation des données

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 02:23.

Les données MORTGAGE_APPLICANTS doivent être nettoyages et raffinés pour être prêts pour vos outils et modèles analytiques. La capacité de visualisation dans Data Refinery fournit un moyen rapide et facile pour l'utilisateur de mieux comprendre le contenu des données, afin qu'il puisse déterminer comment il doit être façonné. Notez que la visualisation est basée sur les 5 000 premières lignes des données. Procédez comme suit pour visualiser les données.

  1. Cliquez sur l'actif de données MORTGAGE_APPLICANTS pour prévisualiser les données.
  2. Cliquez sur Affiner pour ouvrir l'actif de données dans Data Refinery et attendez que les données soient lues et traitées.
  3. Cliquez sur l'onglet Visualisations.
  4. Pour la colonne à visualiser, sélectionnez ÉTAT.
  5. Cliquez sur Visualiser les données. L'outil sélectionne un graphique à secteurs comme le meilleur type de diagramme pour cette colonne. Notez qu'il existe plusieurs types de graphiques suggérés par un point bleu à côté de la barre, du cloud de mots.
  6. Sélectionnez le type de graphique Bulle. Le Bulle est une façon simple de visualiser rapidement la distribution des valeurs dans un jeu de données particulier.
  7. Dans la liste déroulante Type de graphique, sélectionnez le type de graphique Carte de densité.
  8. Ce type de graphique requiert deux colonnes. Sélectionnez ces colonnes :
    1. Dans la zone Colonne, sélectionnez ÉTAT.
    2. Dans la zone Ligne, sélectionnez ÉDUCATION.
  9. Avec la carte de densité, vous pouvez ajuster les leviers de la légende pour zoomer sur la gamme qui vous intéresse.

Étape 5 : Préparation des données pour l'analyse et l'IA

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 02:23.

Pour préparer les données MORTGAGE_APPLICANTS, vous devez :

  • Diviser le nom entre prénom et nom de famille.
  • Renommez la colonne Nom en FULL_NAME.

Procédez comme suit pour préparer les données.

  1. Cliquez sur l'onglet Données.
  2. Vous souhaitez diviser la colonne Nom en prénom et nom. Sélectionnez la colonne Nom.
  3. Dans le panneau Étapes, cliquez sur Nouvelle étape.
    1. Accédez à la section Organiser et sélectionnez Diviser la colonne.
    2. Dans la zone Noms de nouvelles colonnes, entrez FIRST_NAME, LAST_NAME(remarquez la virgule et l'espace entre les deux nouveaux noms de colonne).
    3. Cliquez sur Apply. Les nouvelles colonnes FIRST_NAME et LAST_NAME s'affichent en regard de la colonne NOM d'origine.
  4. Vous souhaitez renommer la colonne Nom pour indiquer qu'il s'agit du nom complet du demandeur. Dans la colonne Nom, cliquez sur l'icône Éditer (crayon).
    1. Entrez FULL_NAME.
    2. Appuyez sur Entrée sur votre clavier.

Étape 6 : Exécution du flux de Data Refinery

Regarder une vidéo Pour prévisualiser cette tâche, regardez la vidéo à partir de 02:23.

Maintenant que vous avez nettoyé les données, suivez ces étapes pour exécuter le flux de Data Refinery.

  1. Le panneau Information doit être affiché à droite. Si vous ne le voyez pas, cliquez sur le panneau, cliquez sur l'icône Information dans la barre d'outils.
  2. Par défaut, le fichier cible est stocké dans le projet. Cliquez sur Éditer pour modifier l'emplacement cible. Dans ce scénario, vous souhaitez conserver le nom par défaut (MORTGAGE_APPLICANTS_shaped et l'emplacement de sortie (projet de gouvernance des données et confidentialité). Cliquez sur Terminé pour revenir à l'onglet Données.
  3. Dans la barre d'outils, cliquez sur l'icône Travaux et sélectionnez Enregistrer et créer un travail.
    Enregistrer et créer un travail
    1. Pour le Nom, entrez Job to refine MORTGAGE_APPLICANTS.
    2. Cliquez sur Suivant pour poursuivre la configuration du travail.
    3. Acceptez les valeurs par défaut et cliquez sur Suivant pour continuer à planifier le travail.
    4. Conservez la planification désactivée et cliquez sur Suivant pour continuer les paramètres de notification.
    5. Acceptez la valeur par défaut pour les notifications et cliquez sur Suivant pour poursuivre l'examen.
    6. Vérifiez les paramètres du travail et cliquez sur Créer et exécuter.
  4. Lorsque la notification s'affiche, cliquez sur Détails du travail. Si vous manquez la notification, procédez comme suit :
    1. Cliquez sur le projet Gouvernance des données et protection des renseignements personnels dans les éléments de navigation.
    2. Cliquez sur l'onglet Jobs.
    3. Cliquez sur le travail Travail pour affiner MORTGAGE_APPLICANTS.
  5. Cliquez sur l'icône Actualiser pour mettre à jour le statut. Le statut passera à Terminé lorsque l'exécution du travail est terminée.
  6. Cliquez sur le projet Gouvernance des données et confidentialité dans les éléments de navigation pour afficher les nouveaux actifs :
    • MORTGAGE_APPLICANTS_flow : le flux de Data Refinery
    • MORTGAGE_APPLICANTS_shaped : actif de données en forme de cible
  7. Cliquez sur MORTGAGE_APPLICANTS_shaped pour prévisualiser l'actif de données. Notez le nom de colonne mis à jour et les deux nouvelles colonnes.

En savoir plus

Rubrique parent : Tutoriels sur les matrices de données