0 / 0
Retourner à la version anglaise de la documentation
Conception des importations de métadonnées
Dernière mise à jour : 09 déc. 2024
Conception des importations de métadonnées

Lorsque vous importez des métadonnées, vous devez décider du type de métadonnées à importer, de la cible et de la portée de l'importation, de la planification des tâches d'importation et de la manière dont vous souhaitez personnaliser le comportement de l'importation.

Objectifs d'importation

La première étape de l'importation de métadonnées consiste à définir les objectifs de l'importation. Vous devez décider du type de métadonnées à importer et si vous souhaitez travailler avec les actifs importés dans un projet ou les publier directement dans un catalogue.

Généralement, l'importation de métadonnées fait partie d'un plan plus large de conservation des données. Par exemple, après avoir importé des métadonnées pour les ressources de données, vous pouvez ajouter des métadonnées professionnelles à vos ressources de données importées en exécutant l'enrichissement des métadonnées. Vous pouvez également exécuter des règles de qualité des données. Enfin, vous pouvez publier les ressources de données terminées dans un catalogue afin de les partager avec votre organisation. Avant de concevoir votre importation de métadonnées, assurez-vous de comprendre les implications de vos choix pour votre plan de curation global. Voir Planification de la conservation.

Par exemple, un processus typique de conservation des données comprend les tâches suivantes :

  1. Lancez l'importation de métadonnées avec l'option Importer les métadonnées des actifs pour ajouter des actifs de données à un projet.
  2. Lancez l'enrichissement des métadonnées sur les ressources de données afin de profiler vos données, d'effectuer une analyse de base de la qualité des données et de fournir un contexte commercial par le biais de l'attribution de termes.
  3. Exécuter des règles de qualité des données sur les actifs.
  4. Publier les ressources dans un catalogue.
  5. Exécutez l'importation de métadonnées pour les mêmes ressources de données avec l'option Importer des métadonnées de lignage pour ajouter des informations de lignage à ces ressources dans le catalogue.

Vous pouvez ajouter d'autres types de ressources directement à un catalogue, car l'enrichissement des métadonnées et l'évaluation de la qualité des données ne sont pas applicables. Vous pouvez choisir les options Importer des métadonnées d'actifs et Importer des métadonnées de lignage pour importer simultanément des métadonnées techniques et de lignage pour les actifs pendant que vous ajoutez ces actifs à un catalogue.

Vous pouvez choisir parmi les méthodes d'importation suivantes :

Importation des métadonnées d'actif
Les métadonnées techniques des actifs fournissent des informations sur les détails des actifs, les relations et l'aperçu des actifs. Vous pouvez soit l'ajouter à un projet en vue d'un traitement ultérieur, soit le publier dans un catalogue immédiatement après l'importation.
Importer des métadonnées de lignage
Les métadonnées de lignage fournissent des informations sur le flux de données, leur origine, leur évolution et leur déplacement dans le temps. Les métadonnées de lignage sont stockées dans le référentiel de lignage.

Importer une cible

Vous pouvez importer des métadonnées dans le projet sur lequel vous travaillez ou dans tout catalogue dans lequel vous avez un rôle d'éditeur ou d'administrateur.

Projets

Dans les projets, vous pouvez exécuter des règles d'enrichissement des métadonnées et de qualité des données sur les actifs de données. Vous publiez les ressources de données importées dans un catalogue une fois que vous êtes satisfait de leurs affectations de métadonnées d'entreprise et de la qualité des données.

Les informations sur les lignées sont disponibles dans les catalogues et les projets. Les informations de lignage ne sont disponibles dans les projets que si les actifs ont un lignage importé à l'aide de l'Metadata import.

Si votre projet est marqué comme sensible, vous ne pouvez importer des métadonnées que dans le projet, et non dans un catalogue. Pour plus d'informations, voir Marquer un projet comme sensible.

Catalogues

Si vous connaissez bien le contenu des données et que vous ne souhaitez pas appliquer de règles d'enrichissement des métadonnées ou de qualité des données, vous pouvez importer leurs métadonnées directement dans le catalogue. Une fois l'importation terminée, les actifs sont publiquement disponibles dans le catalogue sélectionné.

Vous pouvez importer des métadonnées dans n'importe quel catalogue pour lequel vous avez un rôle d'éditeur ou d'administrateur, sauf si le catalogue fait partie d'un projet marqué comme sensible.

Si vous importez dans un catalogue, assurez-vous que la gestion des doublons dans le catalogue cible est réglée de manière à mettre à jour les fichiers originaux plutôt que d'autoriser les doublons. Voir Gestion des biens en double.

Si vous souhaitez que les règles de protection des données soient appliquées aux ressources de données importées, vous devez sélectionner un catalogue gouverné comme cible d'importation.

Source de données

Pour la liste des sources de données prises en charge, voir Sources de données prises en charge pour la curation et la qualité des données.

Pour vous connecter à la source de données, vous devez spécifier les détails suivants :

  • Définition de la source de données. Il est obligatoire lorsque vous importez des métadonnées de lignage et facultatif lorsque vous importez des métadonnées d'actifs. Il est utilisé pour identifier de manière unique une source de données en utilisant des points de terminaison. Les points d'extrémité comprennent des informations telles que le nom d'hôte ou l'adresse IP, le numéro de port et le nom de la base de données ou l'identifiant de l'instance. Par exemple, lorsque vous avez plusieurs bases de données Microsoft SQL Server, la définition de la source de données identifie l'une d'entre elles. Ou lorsque votre cluster Teradata contient plusieurs nœuds avec différents noms d'hôtes, la définition de la source de données identifie l'ensemble du cluster comme une seule entité. Pour plus d'informations, voir Création d'une définition de source de données. Créez une définition de la source de données avant de commencer à créer une importation de métadonnées.

  • Scanner. Il est utilisé pour extraire et traiter les métadonnées afin de créer une lignée. Vous sélectionnez un scanner lorsque la source de données à partir de laquelle la lignée est importée peut héberger des métadonnées de plusieurs technologies. Par exemple, Microsoft SQL Server peut être utilisé comme stockage de métadonnées pour Microsoft SQL Server Integration Services. Dans ce cas, les métadonnées de lignage peuvent être importées de la base de donnéesMicrosoft SQL Server) ou de travaux ETLMicrosoft SQL Server Integration Services). Vous sélectionnez un scanner pour importer le type spécifique de métadonnées de lignage.

  • Connexion. Les détails de la connexion comprennent les informations d'identification. Vous pouvez créer plusieurs connexions pour une même source de données, par exemple pour vous connecter en utilisant différents noms d'hôtes, ou pour vous connecter à différents comptes d'utilisateurs avec des privilèges spécifiques. Les détails nécessaires pour se connecter à une source de données spécifique sont décrits dans chaque rubrique de connexion de la section Connecteurs. Lorsque vous importez des métadonnées d'actifs, vous devez sélectionner une définition de source de données ou une connexion. Créez une connexion avant de commencer à créer une importation de métadonnées. Vous pouvez soit créer une connexion dans un projet où vous souhaitez importer des données, soit créer une connexion à la plate-forme et l'ajouter ensuite au projet. Pour plus d'informations, voir Ajouter des connexions aux sources de données dans un projet.

Remarque :

La connexion doit être affectée à une définition de source de données. Si vous créez d'abord une définition de source de données, puis une connexion, créez l'affectation manuellement. Voir Ajouter des points de terminaison à une définition de source de données nouvelle ou existante.

Champ d'application de l'importation

Déterminez l'étendue des données que vous souhaitez importer. En fonction de la taille et du contenu de votre source de données, il se peut que vous ne souhaitiez pas importer tous les actifs, mais un sous-ensemble sélectionné. Vous pouvez inclure des schémas ou dossiers complets, ou passer au niveau inférieur vers des tables ou fichiers individuels. Lorsque vous sélectionnez un schéma ou un dossier, vous pouvez immédiatement voir le nombre d'éléments qu'il contient. Ainsi, vous pouvez décider si vous souhaitez inclure tout l'ensemble ou si un sous-ensemble est plus approprié.

Vous ne pouvez pas importer de données à partir de schémas dont le nom contient des caractères spéciaux.

Listes d'inclusion et d'exclusion pour les métadonnées de lignage

Lorsque vous définissez une étendue pour extraire des métadonnées de lignage, vous pouvez ajouter une liste d'actifs à inclure dans l'extraction ou à exclure de l'extraction. Cette liste est généralement une expression régulière et son format est spécifique à la source de données sélectionnée. Pour plus de détails, reportez-vous à la section Connecteurs.

Entrées externes

Lorsque vous importez des métadonnées de lignée, vous pouvez fournir des entrées manuelles supplémentaires pour certaines sources de données afin que la lignée finale contienne des données plus complètes. Vous disposez des options suivantes :

Ajouter des entrées à partir d'un fichier
Vous ajoutez généralement un fichier .zip dont la structure répond aux exigences d'une source de données spécifique. Les exigences en matière de structure sont expliquées en détail dans chaque rubrique de connexion de la section Connecteurs.
Ingérer des métadonnées d'agents externes
Vous pouvez vous connecter manuellement à un système de fichiers agent ou à un dépôt Git. Les actifs sont ensuite téléchargés et utilisés pour l'extraction des métadonnées.

Remplacements de marque de réservation

Lorsque vous ajoutez des entrées externes pour le lignage, vous pouvez remplacer les valeurs de remplacement telles que les variables d'environnement par des valeurs réelles à utiliser pour l'analyse du lignage. Le tableau suivant contient des exemples de la façon dont l'affichage des données peut être modifié pour l'analyse des lignées.

Portée du remplacement Format de traitement de la portée Valeur de marque de réservation Valeur de remplacement
(L'expression régulière n'est pas sélectionnée, le texte brut est utilisé) ${table_name} clients
*bteq Expression régulière ${db} dwh

Une autre façon de fournir des remplaçants est de créer un fichier CSV et de l'ajouter au fichier .zip que vous téléchargez en tant qu'entrée externe. Ce fichier doit être nommé " replace.csv et doit avoir la structure suivante :

"PLACEHOLDER","REPLACEMENT_VALUE"[,SCOPE]

Où :

  • PLACEHOLDER est la valeur que vous souhaitez remplacer.
  • REPLACEMENT_VALUE est la nouvelle valeur qui remplace la valeur originale.
  • SCOPE est un filtre qui permet d'appliquer le remplacement uniquement aux actifs sélectionnés. Cette colonne est facultative. Il est interprété comme une expression régulière. L'exemple de chemin d'accès qui peut être utilisé dans ce fichier est " \MyBD\MySchema\MyScript.sql.

Chaque paire de remplacement doit être placée sur une ligne séparée. Chaque valeur doit être placée entre guillemets doubles ("").

Options de planification

Si vous ne définissez pas de calendrier, vous exécutez l'importation lors de l'enregistrement initial de la ressource d'importation de métadonnées. Vous pouvez réexécuter l'importation manuellement à tout moment.

Si vous choisissez d'exécuter l'importation selon une planification spécifique, définissez la date et l'heure de l'exécution du travail. Il se peut que vous souhaitiez coordonner l'importation programmée de métadonnées et les tâches d'enrichissement des métadonnées correspondantes pour les mêmes actifs.

Si vous choisissez d'exécuter l'importation selon une planification spécifique, définissez la date et l'heure de l'exécution du travail. Vous pouvez planifier des exécutions uniques et récurrentes. Si vous planifiez une exécution unique, le travail est exécuté une seule fois au jour et à l'heure spécifiés. Si vous planifiez des exécutions récurrentes, le travail est exécuté pour la première fois à l'heure indiquée dans la section Récurrence.

Le nom par défaut de la tâche d'importation est metadata_import_name job. Lorsque vous configurez l'importation de métadonnées, vous pouvez modifier le nom pour l'adapter à votre schéma de dénomination. Toutefois, vous ne pouvez pas modifier le nom ultérieurement. Vous pouvez accéder au travail d'importation que vous avez créé à partir de la ressource d'importation de métadonnées ou de la page Travaux du projet. Voir Travaux.

Vous pouvez mettre à jour la planification d'une importation de métadonnées en modifiant la ressource d'importation de métadonnées.

Phases d'importation du lignage

L'importation de métadonnées de lignage est un processus qui comporte plusieurs phases. Pour optimiser l'importation en fonction de vos besoins, vous pouvez décider des phases à exécuter avec chaque tâche d'importation de métadonnées. Par exemple, vous pouvez exécuter uniquement la phase d'extraction sur les connexions sélectionnées qui ont été rafraîchies récemment afin d'améliorer les performances. Une fois cette phase achevée, vous pouvez effectuer l'analyse sur tous les éléments - les connexions actualisées et celles qui ont été extraites précédemment.

La liste suivante explique brièvement les processus exécutés lors de chaque phase d'importation de lignées :

Extraction du dictionnaire
Extraction et importation de ressources de lignage (tables, vues, synonymes et autres) dans le référentiel de lignage.
Extraction des transformations
Extrait les définitions des transformations de la source de données.
Analyse des données extraites
Analyse le lignage des données pour les transformations extraites automatiquement.
Ingestion d'entrées externes
Ingère des entrées externes provenant d'un système de fichiers d'agent ou d'un référentiel Git.
Analyse des entrées externes
Analyse le lignage des données pour les entrées externes qui ont été ingérées ou téléchargées par un travail d'importation de métadonnées.

Options d'importation avancées

Vous pouvez personnaliser le comportement général de l'importation et ce qu'il advient des actifs importés lorsque vous réexécutez une importation de métadonnées.

Options d'importation des métadonnées des actifs

Empêcher la mise à jour de certaines propriétés
Par défaut, toutes les propriétés des actifs sont mises à jour lorsqu'ils sont réimportés. Si vous ne souhaitez pas que les noms des biens, les descriptions des biens ou les descriptions des colonnes soient mis à jour lors de la réimportation, décochez les cases correspondantes dans la liste Mettre à jour lors de la réimportation.
Supprimer les actifs existants qui ne sont pas inclus dans la réimportation
Par défaut, aucune ressource n'est supprimée du projet ou du catalogue cible lorsque vous réexécutez l'importation. Pour nettoyer le projet ou le catalogue cible, sélectionnez l'une des options Supprimer lors de la réimportation.
  • Actif non trouvé dans la source de données ou exclu de l'importation: Dans ces cas, supprimez les actifs précédemment importés de la cible d'importation lors de la réexécution de l'importation :
    • L'actif n'est plus disponible dans la source de données.
    • Le paramètre Exclure de l'importation a été modifié lors de la réexécution, de sorte que la ressource est désormais exclue de l'importation (applicable uniquement aux importations de métadonnées que vous exécutez sur des bases de données relationnelles).
  • Actif retiré de la portée de l'importation: Supprime les biens qui ont été retirés de la portée de ces métadonnées après la dernière exécution de la cible d'importation lorsque l'importation est réexécutée.
Ne pas importer des types spécifiques d'actifs relationnels

Pour les importations de métadonnées que vous exécutez sur des bases de données relationnelles, dans le paramètre Exclure de l'importation, vous pouvez choisir d'importer tous les types d'actifs relationnels ou d'exclure les tables, les vues, les alias et les synonymes. Ces options s'excluent mutuellement.

Importer des propriétés d'actifs supplémentaires

Pour les importations de métadonnées que vous exécutez sur des bases de données relationnelles, vous pouvez choisir si les clés primaires et étrangères qui peuvent être définies dans la base de données sont importées.

Activer des options d'importation supplémentaires

Activez les importations incrémentielles pour n'importer que les données nouvelles ou modifiées lorsque vous réexécutez l'importation. Cette option n'est disponible que pour les importations de métadonnées que vous exécutez sur des bases de données relationnelles et lorsque la source de données sélectionnée prend en charge les importations incrémentielles :

La mise à jour ou la suppression de la description d'une immobilisation dans la source de données ne modifie pas la date de modification de l'immobilisation. La date de modification ne change pas non plus pour les biens qui sont supprimés de la liste des biens importés. Par conséquent, ces actifs ne sont pas pris en compte pour les importations supplémentaires. En outre, les actifs supprimés de la source de données ou du champ d'application ne sont pas détectés lors des importations incrémentielles. Par conséquent, ces actifs ne sont pas marqués comme retirés ou supprimés comme spécifié dans les paramètres de suppression lors de la réimportation. Pour que ces modifications soient prises en compte, désactivez les importations incrémentielles afin de réimporter tous les actifs dans l'étendue des données.

Important :

Les importations incrémentielles peuvent ne pas fonctionner si la source de données et le poste de travail du client Cloud Pak for Data se trouvent dans des fuseaux horaires différents. Si le client se trouve dans un fuseau horaire en avance sur celui de la source de données, la tâche d'importation des métadonnées risque de ne pas détecter les actifs qui ont été ajoutés ou modifiés après la dernière exécution de l'importation. Dans ce cas, désactivez l'importation incrémentielle pour que tous les actifs soient inclus lorsque vous réexécutez l'importation.
For incremental imports to work, the data source must be in the GMT time zone regardless of the client's time zone.

Collecter des métadonnées à partir du catalogue de base de données

Pour les importations de métadonnées que vous exécutez sur des bases de données relationnelles, vous pouvez choisir d'importer les métadonnées à partir du catalogue de la base de données. Ainsi, l'utilisateur qui exécute l'importation n'a besoin d'accéder qu'au catalogue de la base de données, mais n'a pas besoin d'avoir l'autorisation SELECT sur les données réelles. Les actifs importés ne peuvent pas être profilés ou utilisés dans l'enrichissement de métadonnées.

Importer l'horodatage de l'actif

Vous pouvez inclure des informations sur l'heure de la dernière modification de l'actif. L'attribut " metadata_modification_token est ajouté à la propriété " extended_metadata d'un bien.

Options d'importation des métadonnées de lignage

Les options avancées pour le lignage dépendent de la source de données sélectionnée. Pour plus de détails, reportez-vous à la section Connecteurs.

En savoir plus

Planification de la conservation

Sujet parent : Importer des métadonnées

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus