Chaque source de données ou actif doit être mappé et publié dans le modèle de données pour pouvoir être utilisé dans les fonctions IBM Match 360 telles que la mise en correspondance.
- Autorisations requises
- Pour ajouter, mapper et publier des actifs de données dans une instance de données maître, vous devez être membre du groupe d'utilisateurs DataEngineer pour le service IBM Match 360 .
- Si vous utilisez un catalogue gouverné, vous pouvez uniquement afficher ou ajouter des actifs de catalogue dont vous êtes le propriétaire de l'actif de données.
IBM Match 360 fournit une puissante capacité de mappage automatique qui évite aux ingénieurs en traitement de données de devoir mapper eux-mêmes chaque colonne de données dans le modèle. La fonction de mappage automatique détecte et analyse chaque colonne de données, puis la classe par rapport aux attributs ou aux champs correspondants du modèle de données. Avant de pouvoir exécuter le mappage automatique, vous devez profiler vos données. Le profilage analyse et classe vos données pour permettre l'exécution du processus de mappage automatique.
Le profilage et le mappage automatique ne sont pris en charge que pour les types d'enregistrement de personne et d'organisation. Pour les autres types d'enregistrement, mappez manuellement vos colonnes au modèle de données.
Dans cette rubrique :
- Ajout de données d'enregistrement à partir d'un fichier de données à plat
- Ajout de données ou de sources au moyen de votre projet
- Mappage de vos données dans le modèle de données
- Application d'un modèle de mappage à un actif de données
- Ajout de données de relation à partir d'un fichier de données à plat
- Publication d'exemples de données
Ajout de données d'enregistrement à partir d'un fichier de données à plat
Pour ajouter des données d'enregistrement dans IBM Match 360 à partir d'un fichier de données CSV ou TSV :
Dans le menu de navigation des données de base, cliquez sur l'icône Actifs " .
Dans la barre d'action, cliquez sur Ajouter des données ou sur l'icône Télécharger un actif dans le projet " .
Dans le panneau Données qui s'ouvre, indiquez si vous souhaitez ajouter des données par téléchargement ou à partir du projet ou du catalogue. Pour télécharger un fichier de données, choisissez charger.
Sur votre ordinateur local, sélectionnez un fichier de données non hiérarchique au format CSV ou TSV et faites-le glisser dans le panneau Données. Une fois le téléchargement du fichier terminé, il est ajouté à la liste récapitulative de vos actifs.
Dans l'onglet Actifs, utilisez le tableau récapitulatif des actifs pour examiner les détails de l'actif nouvellement ajouté et des autres actifs de données du système.
Si la colonne Contenu de l'actif ne contient aucune information, vous devez définir le type de données que contient l'actif, par exemple un type d'enregistrement spécifique. Il est important d'attribuer le bon type de contenu à chaque ressource afin que IBM Match 360 puisse trouver la partie du modèle de données qui correspond le mieux aux données. Les actifs pour lesquels aucun type de contenu n'est défini ont un statut Type de données d'actif manquant. Vous ne pouvez pas mapper une ressource sans avoir défini au préalable son type de contenu.
Pour définir le type de contenu d'un actif, sélectionnez-le dans la liste déroulante de la colonne Contenu de l'actif de l'enregistrement. L'état de la ressource devient Prêt pour la cartographie.
Si un type de données approprié ne figure pas dans la liste du contenu des actifs, vous devrez peut-être personnaliser votre modèle de données. Pour plus d'informations, voir Personnalisation de votre modèle de données.
Etape suivante: Mappage de vos données dans le modèle de données
Ajout de données ou de sources au moyen de votre projet
Vous pouvez ajouter des actifs de données, des sources ou des connexions à IBM Match 360 via votre projet.
Vous pouvez utiliser IBM Match 360 comme source de données ou cible connectée. Pour plus d'informations sur la configuration et l'utilisation de la connexion IBM Match 360 , voir IBM Match 360.
Tous les fichiers d'actifs de données que vous souhaitez charger dans IBM Match 360 doivent inclure une extension de fichier d'un type pris en charge, tel que .csv
ou .tsv
. Cette exigence inclut les actifs qui se trouvent déjà dans votre projet. Si un nom d'actif dans votre projet n'inclut pas d'extension de fichier prise en charge, il apparaît en grisé lorsque vous tentez de l'ajouter. Pour éditer le nom d'un actif dans votre projet, accédez à l'onglet Actifs de votre projet, sélectionnez votre actif, puis éditez le nom dans le panneau A propos de cet actif .
Regardez cette vidéo pour voir comment créer une connexion et ajouter les données connectées à un projet.
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Retranscription de la vidéo Heure Transcription 00:00 Cette vidéo vous montre comment établir une connexion à une source de données et ajouter des données connectées à un projet. 00:08 Si vous disposez de données stockées dans une source de données, vous pouvez configurer une connexion à cette source de données à partir de n'importe quel projet. 00:16 À partir de là, vous pouvez ajouter différents éléments au projet. 00:20 Dans ce cas, vous souhaitez ajouter une connexion. 00:24 Vous pouvez créer une nouvelle connexion à un service IBM , tel qu' IBM Db2 et Cloud Object Storage, ou à un service tiers, tel qu'Amazon, Microsoft ou Apache. 00:39 Vous pouvez également filtrer la liste en fonction de services compatibles. 00:45 Vous pouvez également ajouter une connexion qui a été créée au niveau de la plateforme et qui peut être utilisée dans les projets et les catalogues. 00:54 Vous pouvez également créer une connexion à l'un de vos services IBM Cloud mis à disposition. 00:59 Dans ce cas, sélectionnez le service IBM Cloud mis à disposition pour Db2 Warehouse on Cloud. 01:08 Si les données d'identification ne sont pas préremplies, vous pouvez obtenir les données d'identification de l'instance à partir de la page de lancement du service IBM Cloud. 01:17 Testez d'abord la connexion, puis créez-la. 01:25 La nouvelle connexion s'affiche désormais dans la liste des actifs de données. 01:30 Ajoutez ensuite des actifs de données connectés à ce projet. 01:37 Sélectionnez la source. Dans ce cas, il s'agit de la connexion Db2 Warehouse on Cloud qui vient d'être créée. 01:43 Sélectionnez ensuite le schéma et le tableau. 01:50 Vous pouvez voir que cela va ajouter une référence aux données à l'intérieur de cette connexion et l'inclure dans le projet cible. 01:58 Indiquez un nom et une description et cliquez sur " Créer ". 02:06 Les données s'affichent désormais dans la liste des actifs de données. 02:09 Ouvrez l'ensemble de données pour obtenir un aperçu ; à partir de là, vous pouvez affiner directement les données. 02:17 Trouvez d'autres vidéos dans la documentation de Cloud Pak for Data as a Service.
Pour plus d'informations sur l'ajout de données directement à votre projet, voir Ajout de données à un projet.
Après avoir ajouté des données, vous devez les mapper dans le modèle de données IBM Match 360 . Pour plus de détails, voir Mapper vos données dans le modèle de données.
Mappage de vos données dans le modèle de données
Avant de pouvoir publier un actif de données à utiliser dans IBM Match 360, vous devez le mapper. Chacune des colonnes d'un actif doit soit être associée à un attribut de modèle de données correspondant, soit être exclue.
Pour mapper un actif de données, vous disposez de plusieurs options:
- Vous pouvez mapper manuellement chaque colonne.
- Vous pouvez cartographier chaque colonne à l'aide du profilage et de l'automapping.
- Vous pouvez appliquer un modèle de mappage.
Rappel: Pour utiliser les fonctionnalités de profilage et de mise en correspondance automatique de IBM Match 360, votre déploiement IBM Cloud Pak for Data doit inclure IBM Knowledge Catalog.
Pour plus de détails sur le mappage manuel ou l'utilisation du mappage automatique, lisez les procédures suivantes. Pour plus de détails sur l'application d'un modèle de mappage, voir Application d'un modèle de mappage à un actif de données.
Pour mapper un actif de données dans le modèle de données IBM Match 360 :
Dans l'écran récapitulatif des actifs, cliquez sur l'onglet Mapping.
Dans la liste des actifs, cliquez sur l'actif de données que vous souhaitez mapper au système.
Pour vous aider à trouver l'actif que vous recherchez, vous pouvez effectuer une recherche par nom d'actif ou filtrer en fonction du nombre de colonnes, du type d'enregistrement, de l'état de la mise en correspondance, de l'état de la publication ou des modèles de mise en correspondance disponibles. Cliquez sur l'icône Filtre ' pour appliquer un filtre.
Les données de l'actif que vous sélectionnez s'affichent sous forme de tableau avec un certain nombre de lignes et de colonnes. Chaque colonne représente un attribut qui doit être mappé à un type d'attribut correspondant dans le modèle de données. Lorsque vous ouvrez pour la première fois une source de données ou un actif, chaque colonne est marquée d'une balise non mappée.
Astuce : Vous pouvez mapper manuellement chaque colonne si vous le voulez, mais vous pouvez accélérer considérablement le processus de mappage en tirant parti de la fonction d'automatisation.Dans le panneau des détails de la cartographie, examinez les statistiques de cartographie pour cet actif. En un coup d'œil, vous pouvez voir combien de colonnes de données de cette ressource ont été mappées, le cas échéant.
Pour activer le mappage automatique pour cette source ou cet actif, vous devez tout d'abord profiler les données. Cliquez sur Données du profil.
Le profilage analyse et classe vos données pour permettre l'exécution du processus de mappage automatique. Le profilage pouvant nécessiter un certain temps, il s'exécute en arrière-plan pour vous permettre de continuer à travailler. Il peut être préférable de commencer à examiner et à mapper manuellement certaines colonnes.
Le mappage automatique ne remplacera jamais un mappage que vous avez fait vous-même.
Lorsque le profilage est terminé, cliquez sur Automap asset. IBM Match 360 with Watson analyse vos données et mappe automatiquement autant de colonnes que possible dans le modèle de données. Même si elle ne parvient pas à mapper une colonne donnée, la fonction de mappage automatique peut suggérer certaines des sélections de mappage les plus probables.
Vérifiez les résultats du mappage automatique. Si l'un des mappages est incorrect ou si une colonne n'est toujours pas mappée, effectuez le bon mappage manuellement. Par ailleurs, si une colonne spécifique n'est pas nécessaire, vous pouvez l'exclure du chargement dans IBM Match 360 en sélectionnant Exclure la colonne.
Pour mapper manuellement une colonne, sélectionnez-le, puis utilisez le panneau Mappage des cibles pour rechercher et sélectionner l'attribut ou la zone appropriée dans le modèle de données. Cliquez sur Mapper et enregistrer dans le modèle de données.
Si un attribut ou une zone approprié n'existe pas dans le modèle de données, vous pouvez en créer un à partir du panneau Mappage des cibles. Cliquez sur Nouveau > Créer un attribut ou Nouveau > Créer un champ pour définir et fournir les détails d'un nouvel attribut ou d'un nouveau champ.
Si vous choisissez de créer un attribut simple au lieu d'affecter un type d'attribut existant, le nouvel attribut simple est ajouté directement au type d'enregistrement dans l'onglet Modélisation . Elle n'est pas catégorisée sous Types d'attribut.
Faites défiler l'écran horizontalement pour vérifier que chacune des colonnes de votre source ou actif de données est mappée. Si aucune colonne n'est mappée, automatique ou explicitement exclue du mappage, l'actif de données reste dans un état de mappage en cours.
Pour exclure une colonne du chargement dans IBM Match 360, sélectionnez la colonne, puis Exclure la colonne.
Important: Si l'attribut
record_source
est mappé à une zone de l'actif, cette zone doit être renseignée dans tous les enregistrements de l'actif. Si une valeur est manquante pour la zonerecord_source
dans un enregistrement, l'actif ne peut pas être chargé. Si vous ne mappez pas l'attributrecord_source
à une zone existante, un nom de source d'enregistrement par défaut est dérivé à l'aide du nom d'actif.Une fois le mappage de l'actif de données terminé, vous êtes prêt à publier les données dans le système.
- Si votre modèle de données est nouveau ou modifié, publiez d'abord votre modèle en cliquant sur l'icône de publication de modèle " dans la barre d'action. Attendez que le travail de publication se termine.
- Pour publier vos données, cliquez sur l'icône de publication de données " dans la barre d'action. Attendez que le travail de publication se termine.
Revenez à la page de présentation de la configuration en sélectionnant la présentation de la configuration dans le menu de navigation.
Dans la page de présentation de la configuration, vérifiez que vous disposez d'au moins une source de données ou un actif ajouté et mappé.
Application d'un modèle de mappage à un actif de données
Les modèles de mappage vous aident à maintenir la cohérence entre des actifs de données similaires en facilitant la répétition de vos sélections de mappage de données pour des actifs compatibles.
Un modèle de mappage est automatiquement créé lorsque vous mappez manuellement un actif de données. Le modèle sauvegarde vos sélections de mappage de colonne afin qu'elles puissent être réutilisées par d'autres actifs de données qui partagent le même format de colonne et le même type d'enregistrement. En appliquant un modèle de mappage, vous pouvez éviter de mapper manuellement des actifs de données qui sont similaires à des actifs existants que vous avez déjà mappés.
IBM Match 360 identifie lorsqu'un nouvel actif est compatible avec un modèle de mappage existant dans le système, puis vous informe que vous pouvez utiliser un modèle pour éviter le travail de mappage manuel.
Les modèles de mappage peuvent être créés en mappant manuellement des actifs de données ou importés à l'aide d'instantanés de configuration.
Pour plus d'informations sur la gestion et l'application de modèles de mappage à l'aide d'instantanés de configuration, voir Sauvegarde et chargement d'instantanés de configuration.
Pour appliquer un modèle de mappage à un actif de données mappé ou non mappé:
Dans l'écran récapitulatif des actifs, cliquez sur l'onglet Mapping.
Dans la liste des actifs, recherchez un ou plusieurs actifs de données auxquels vous souhaitez appliquer un modèle de mappage.
Pour vous aider à trouver les actifs que vous recherchez, vous pouvez effectuer une recherche par nom ou filtrer en fonction du nombre de colonnes, du type d'enregistrement, de l'état de la mise en correspondance, de l'état de la publication ou des modèles de mise en correspondance disponibles. Cliquez sur l'icône Filtre ' pour appliquer un filtre.
Sélectionnez les actifs de données auxquels vous souhaitez appliquer un modèle de mappage.
- Pour appliquer un modèle de mappage à une seule ressource de données, cliquez sur l'icône Appliquer le modèle de mappage " à côté du nom de la ressource.
- Pour appliquer un modèle de mappage à un ou plusieurs actifs de données, cochez la case en regard du nom de l'actif, puis cliquez sur Appliquer le mappage dans la liste Actifs. Les actifs de données sélectionnés doivent partager la même structure et le même format de colonne pour pouvoir partager un modèle de mappage.
La page Appliquer des modèles de mappage affiche une liste des modèles de mappage disponibles. S'il existe un modèle de correspondance recommandé pour cet actif, il est accompagné d'une icône de badge " .
Passez en revue les modèles de mappage. Vous pouvez voir à quels autres actifs le modèle de mappage s'applique actuellement, ainsi que le type d'enregistrement applicable, la date de dernière mise à jour et la source d'origine.
Pour plus de détails et pour comparer des modèles de mappage les uns aux autres, sélectionnez un modèle de mappage principal, puis cliquez sur Comparer les modèles de mappage. Faites défiler horizontalement les modèles pour les comparer à celui que vous avez sélectionné. Faites défiler verticalement la page pour afficher plus de détails, tels que les détails de l'instantané et les mappages de colonne.
Sélectionnez le modèle de mappage à appliquer aux actifs de données sélectionnés, puis cliquez sur Suivant.
Passez en revue les modifications de mappage que vous avez sélectionnées. Confirmez que vous avez choisi les actifs et le modèle de mappage appropriés.
L'application d'un modèle de mappage peut modifier le type d'enregistrement d'un actif. Veillez à ne pas modifier le type d'enregistrement par erreur. Les modifications de mappage effectuées en appliquant un modèle de mappage ne peuvent pas être annulées sans remappage manuel de l'actif.
Cliquez sur Terminer pour appliquer le modèle de mappage.
Après avoir appliqué le modèle de mappage, vous êtes prêt à publier les données dans le système.
- Si votre modèle de données est nouveau ou modifié, publiez d'abord votre modèle en cliquant sur l'icône de publication de modèle " dans la barre d'action. Attendez que le travail de publication se termine.
- Pour publier vos données, cliquez sur l'icône de publication de données " dans la barre d'action. Attendez que le travail de publication se termine.
Ajout de données de relation à partir d'un fichier de données à plat
Avant de pouvoir charger un actif de données de relation dans IBM Match 360, vous devez d'abord définir le type de relation correspondant dans le modèle de données. Pour plus de détails, voir Personnalisation de votre modèle de données.
Les actifs de données de relation sont formatés en lignes délimitées (CSV ou TSV). Il existe plusieurs colonnes de données requises:
- ID d'enregistrement pour les deux parties dans chaque relation
- Types d'enregistrement pour les deux parties dans chaque relation
- Enregistrer les sources pour les deux parties dans chaque relation
Vous pouvez créer l'actif de données de relation manuellement, via un processus ETL ou à l'aide de l'application dans laquelle vos relations sont stockées.
Pour ajouter des données de relation dans IBM Match 360 à partir d'un fichier de données CSV ou TSV:
Dans le menu de navigation des données de base, cliquez sur l'icône Actifs " .
Chargez, mappez et publiez les actifs de données d'enregistrement dans IBM Match 360. Ces actifs de données doivent contenir les données d'enregistrement que vous souhaitez associer à l'aide de relations. Pour plus de détails, voir Ajout de données d'enregistrement à partir d'un fichier de données à plat et Mappage de vos données dans le modèle de données.
Chargez votre fichier d'actif de données de relation:
a. Dans la barre d'action, cliquez sur Ajouter des données ou sur l'icône Télécharger un actif dans le projet " .
b. Dans le panneau Données qui s'ouvre, indiquez si vous souhaitez ajouter des données par téléchargement ou à partir du projet ou du catalogue. Pour télécharger un fichier de données, choisissez charger.
Remarque: Si vos données incluent des catalogues gouvernés, vous risquez de ne pas pouvoir afficher ou ajouter des actifs de catalogue. En fonction de vos droits, il se peut que vous ne puissiez afficher que les actifs de catalogue que vous possédez ou gérez.c. Sur votre ordinateur local, sélectionnez un fichier de données à plat contenant des données de relation au format CSV ou TSV et faites-le glisser dans le panneau Données. Une fois le téléchargement du fichier terminé, il est ajouté à la liste récapitulative de vos actifs.
Passez en revue les détails de l'actif de relations que vous venez d'ajouter.
Survolez la ligne de l'actif de vos relations dans la liste récapitulative des actifs et cliquez sur le menu déroulant dynamique à trois points.
Cliquez sur Définir les propriétés de l'actif.
Sélectionnez Relations dans la liste Catégorie de données d'actif .
Sélectionnez le type de relation correct dans la liste Type de données d'actif et cliquez sur Sauvegarder.
Si le type de relation approprié ne figure pas dans la liste des types de données d'actif, vous devrez peut-être personnaliser votre modèle de données. Pour plus d'informations, voir Personnalisation de votre modèle de données.
Mappez et publiez votre actif de données de relation. Pour plus de détails, voir Mappage de vos données dans le modèle de données. Veillez à mapper chacune des colonnes de données requises:
from record ID
,to record ID
,from record type
,to record type
,from record source
etto record source
.Restriction: les données de relation ne prennent pas en charge le profilage et le mappage automatique. Mappez manuellement vos colonnes vers le modèle de données.
Publication d'exemples de données
Si vous ne disposez pas de vos propres actifs de données prêts à partir mais que vous souhaitez commencer à utiliser le service IBM Match 360, chargez les exemples de données et de modèle fournis à la place.
Pour charger l'exemple de données IBM Match 360 :
- Accédez à la page d'accueil des données maître.
- Dans la mosaïque Données maître, cliquez sur Publier un exemple de modèle.
- Une fois que l'exemple de publication du modèle est terminé, cliquez sur Publier des exemples de données.
- Si vous le souhaitez, vous pouvez accéder à la page " Jobs" pour suivre l'évolution des travaux de chargement de vos échantillons. Si vous ne voulez pas regarder la progression, vous pouvez aller dans un autre écran et les travaux vont continuer à travailler en arrière-plan.
Etapes suivantes
En savoir plus
- Sauvegarde et chargement des instantanés de configuration
- Utilisation des données gouvernées dans IBM Match 360
- TutorielMaster Data Management : Configuration d'une vue à 360 degrés
Rubrique parent : Configuration des données maître