Lorsque vous importez des métadonnées, vous devez décider du type de métadonnées à importer, de la cible et de la portée de l'importation, de la planification ou non des travaux d'importation et de la manière dont vous souhaitez personnaliser le comportement de l'importation.
- Objectifs d'importation
- Importer une cible
- Source de données
- Portée de l'importation
- Options de planification
- Phases d'importation de la lignée
- Options d'importation avancées
Objectifs d'importation
La première étape de l'importation de métadonnées consiste à définir les objectifs de l'importation. Vous devez décider du type de métadonnées à importer et si vous souhaitez travailler avec les actifs importés dans un projet ou les publier directement dans un catalogue.
En règle générale, l'importation de métadonnées fait partie d'un plan de curation des données plus important. Par exemple, après avoir importé des métadonnées pour des actifs de données, vous pouvez ajouter des métadonnées métier à vos actifs de données importés en exécutant l'enrichissement des métadonnées. Vous pouvez également exécuter des règles de qualité de données. Enfin, vous pouvez publier les actifs de données terminés dans un catalogue à partager avec votre organisation. Avant de concevoir votre importation de métadonnées, assurez-vous de bien comprendre les implications de vos choix sur votre plan de curation global. Voir Planification de l'organisation.
Par exemple, un processus de curation standard pour les actifs de données inclut les tâches suivantes:
- Lancez l'importation de métadonnées avec l'option Importer les métadonnées des actifs pour ajouter des actifs de données à un projet.
- Exécutez l'enrichissement de métadonnées sur les actifs de données pour profiler vos données, pour effectuer une analyse de base de la qualité des données et pour fournir un contexte métier via l'affectation de termes.
- Exécuter des règles de qualité de données sur les actifs.
- Publier les actifs dans un catalogue.
- Exécutez l'importation de métadonnées pour les mêmes ressources de données avec l'option Importer des métadonnées de lignage pour ajouter des informations de lignage à ces ressources dans le catalogue.
Vous pouvez ajouter d'autres types d'actifs directement à un catalogue car l'enrichissement des métadonnées et l'évaluation de la qualité des données ne sont pas applicables. Vous pouvez choisir les options Importer des métadonnées d'actifs et Importer des métadonnées de lignage pour importer simultanément des métadonnées techniques et de lignage pour les actifs pendant que vous ajoutez ces actifs à un catalogue.
Vous pouvez choisir parmi les méthodes d'importation suivantes:
- Importation des métadonnées d'actif
- Les métadonnées techniques des actifs fournissent des informations sur les détails des actifs, les relations et l'aperçu des actifs. Vous pouvez soit l'ajouter à un projet en vue d'un traitement ultérieur, soit le publier dans un catalogue immédiatement après l'importation.
- Importer des métadonnées de lignage
- Les métadonnées de lignage fournissent des informations sur le flux de données, leur origine, leur évolution et leur déplacement dans le temps. Les métadonnées de lignage sont stockées dans le référentiel de lignage.
Before you can import lineage metadata, you must configure data lineage. Pour plus d'informations, voir Configuration du lignage des données.
Importer une cible
Vous pouvez importer des métadonnées dans le projet sur lequel vous travaillez ou dans tout catalogue dans lequel vous avez un rôle d'éditeur ou d'administrateur.
Projets
Dans les projets, vous pouvez exécuter des règles d'enrichissement des métadonnées et de qualité des données sur les actifs de données. Vous publiez les actifs de données importés dans un catalogue une fois que vous êtes satisfait de leurs affectations de métadonnées métier et de la qualité des données.
Les informations sur les lignées sont disponibles dans les catalogues et les projets. Les informations de lignage ne sont disponibles dans les projets que si les actifs ont un lignage importé à l'aide de Metadata import
Si votre projet est marqué comme sensible, vous ne pouvez importer des métadonnées que dans le projet, et non dans un catalogue. Pour plus d'informations, voir Marquer un projet comme sensible.
Catalogues
Si vous connaissez bien le contenu des actifs de données et que vous ne souhaitez pas exécuter d'enrichissement de métadonnées ou de règles de qualité de données, vous pouvez importer leurs métadonnées directement dans le catalogue. Une fois l'importation terminée, les actifs sont publiquement disponibles dans le catalogue sélectionné.
Vous pouvez importer des métadonnées dans n'importe quel catalogue pour lequel vous avez un rôle d'éditeur ou d'administrateur, sauf si le catalogue fait partie d'un projet marqué comme sensible.
Si vous effectuez une importation dans un catalogue, assurez-vous que le catalogue cible possède un ensemble de gestion des actifs en double pour mettre à jour les actifs d'origine au lieu d'autoriser les actifs en double. Voir Traitement des actifs en double.
Si vous souhaitez que les règles de protection des données soient appliquées aux actifs de données importés, vous devez sélectionner un catalogue gouverné comme cible d'importation.
Source de données
Pour la liste des sources de données prises en charge, voir Sources de données prises en charge pour la curation et la qualité des données.
Pour vous connecter à la source de données, vous devez spécifier les détails suivants :
Définition de la source de données. Il est obligatoire lorsque vous importez des métadonnées de lignage et facultatif lorsque vous importez des métadonnées d'actifs. Il est utilisé pour identifier de manière unique une source de données en utilisant des points d'extrémité. Les points d'extrémité comprennent des informations telles que le nom d'hôte ou l'adresse IP, le numéro de port et le nom de la base de données ou l'identifiant de l'instance. Par exemple, lorsque vous avez plusieurs bases de données Microsoft SQL Server, la définition de la source de données identifie l'une d'entre elles. Ou lorsque votre cluster Teradata contient plusieurs nœuds avec différents noms d'hôtes, la définition de la source de données identifie l'ensemble du cluster comme une seule entité. Pour plus d'informations, voir Création d'une définition de source de données.
Scanner. Il est utilisé pour extraire et traiter les métadonnées afin de créer une lignée. Vous sélectionnez un scanner lorsque la source de données à partir de laquelle la lignée est importée peut héberger des métadonnées de plusieurs technologies. Par exemple, Microsoft SQL Server peut être utilisé comme stockage de métadonnées pour Microsoft SQL Server Integration Services. Dans ce cas, les métadonnées de lignage peuvent être importées de la base de donnéesMicrosoft SQL Server) ou de travaux ETLMicrosoft SQL Server Integration Services). Vous sélectionnez un scanner pour importer le type spécifique de métadonnées de lignage.
Connexion. Les détails de la connexion comprennent les informations d'identification. Vous pouvez créer plusieurs connexions pour une même source de données, par exemple pour vous connecter en utilisant différents noms d'hôtes, ou pour vous connecter à différents comptes d'utilisateurs avec des privilèges spécifiques. Les détails nécessaires pour se connecter à une source de données spécifique sont décrits dans chaque rubrique de connexion de la section Connecteurs. Lorsque vous importez des métadonnées d'actifs, vous devez sélectionner une définition de source de données ou une connexion.
Portée de l'importation
Déterminez l'étendue des données que vous souhaitez importer. En fonction de la taille et du contenu de votre source de données, il se peut que vous ne souhaitiez pas importer tous les actifs, mais un sous-ensemble sélectionné. Vous pouvez inclure des schémas ou dossiers complets, ou passer au niveau inférieur vers des tables ou fichiers individuels. Lorsque vous sélectionnez un schéma ou un dossier, vous pouvez immédiatement voir le nombre d'éléments qu'il contient. Ainsi, vous pouvez décider si vous souhaitez inclure tout l'ensemble ou si un sous-ensemble est plus approprié.
Vous ne pouvez pas importer de données à partir de schémas dont le nom contient des caractères spéciaux.
Listes d'inclusion et d'exclusion pour les métadonnées de lignage
Lorsque vous définissez une étendue pour extraire des métadonnées de lignage, vous pouvez ajouter une liste d'actifs à inclure dans l'extraction ou à exclure de l'extraction. Cette liste est généralement une expression régulière et son format est spécifique à la source de données sélectionnée. Pour plus de détails, reportez-vous à la section Connecteurs.
Entrées externes
Lorsque vous importez des métadonnées de lignage, vous pouvez fournir des entrées manuelles supplémentaires pour certaines sources de données afin que le lignage final contienne des données plus complètes. Vous disposez des options suivantes :
- Ajouter des entrées à partir d'un fichier
- Vous ajoutez généralement un fichier .zip dont la structure répond aux exigences d'une source de données spécifique. Les exigences en matière de structure sont expliquées en détail dans chaque rubrique de connexion de la section Connecteurs.
- Intégrer des métadonnées provenant d'agents externes
- Vous pouvez vous connecter manuellement à un système de fichiers agent ou à un dépôt Git. Les actifs sont ensuite téléchargés et utilisés pour l'extraction des métadonnées.
Remplacements de caractères génériques
Lorsque vous ajoutez des entrées externes pour le lignage, vous pouvez remplacer les valeurs de remplacement telles que les variables d'environnement par des valeurs réelles à utiliser pour l'analyse du lignage. Le tableau suivant contient des exemples de la façon dont l'affichage des données peut être modifié pour l'analyse des lignées.
Champ d'application du remplacement | Format de traitement du champ d'application | Valeur de marque de réservation | Valeur de remplacement |
---|---|---|---|
(L'expression régulière n'est pas sélectionnée, le texte brut est utilisé) | ${table_name} | clients | |
*bteq | Expression régulière | ${db} | dwh |
Une autre façon de fournir des remplaçants est de créer un fichier CSV et de l'ajouter au fichier .zip que vous téléchargez en tant qu'entrée externe. Ce fichier doit être nommé replace.csv
et doit avoir la structure suivante :
"PLACEHOLDER","REPLACEMENT_VALUE"[,SCOPE]
Où :
PLACEHOLDER
is the value that you want to replace.REPLACEMENT_VALUE
is the new value that replaces the original value.SCOPE
is a filter to apply the replacement only on the selected assets. Cette colonne est facultative. Il est interprété comme une expression régulière. L'exemple de chemin d'accès qui peut être utilisé dans ce fichier est\MyBD\MySchema\MyScript.sql
.
Chaque paire de remplacement doit être placée sur une ligne séparée. Chaque valeur doit être placée entre guillemets doubles ("").
Options de planification
Si vous ne définissez pas de planification, vous exécutez l'importation lors de la sauvegarde initiale de l'actif d'importation de métadonnées. Vous pouvez réexécuter l'importation manuellement à tout moment.
Si vous choisissez d'exécuter l'importation selon une planification spécifique, définissez la date et l'heure de l'exécution du travail. Vous pouvez coordonner l'importation de métadonnées planifiée et les travaux d'enrichissement de métadonnées correspondants pour les mêmes actifs.
Si vous choisissez d'exécuter l'importation selon une planification spécifique, définissez la date et l'heure de l'exécution du travail. Vous pouvez planifier des exécutions uniques et récurrentes. Si vous planifiez une exécution unique, le travail s'exécute exactement une fois au jour et à l'heure indiqués. Si vous planifiez des exécutions récurrentes, le travail est exécuté pour la première fois à l'heure indiquée dans la section Récurrence.
Le nom par défaut du travail d'importation est metadata_import_name . Lorsque vous configurez l'importation de métadonnées, vous pouvez modifier le nom en fonction de votre schéma de dénomination. Cependant, vous ne pouvez pas changer le nom plus tard. Vous pouvez accéder au travail d'importation que vous avez créé à partir de la ressource d'importation de métadonnées ou de la page Travaux du projet. Voir Travaux.
Vous pouvez mettre à jour la planification d'une importation de métadonnées en éditant l'actif d'importation de métadonnées.
Phases d'importation de la lignée
L'importation de métadonnées de lignage est un processus qui comporte plusieurs phases. Pour optimiser l'importation en fonction de vos besoins, vous pouvez décider des phases à exécuter avec chaque tâche d'importation de métadonnées. Par exemple, vous pouvez exécuter uniquement la phase d'extraction sur les connexions sélectionnées qui ont été rafraîchies récemment afin d'améliorer les performances. Une fois cette phase achevée, vous pouvez effectuer l'analyse sur tous les éléments - les connexions actualisées et celles qui ont été extraites précédemment.
La liste suivante explique brièvement les processus exécutés lors de chaque phase d'importation de lignées :
- Extraction du dictionnaire
- Extraction et importation de ressources de lignage (tables, vues, synonymes et autres) dans le référentiel de lignage.
- Extraction des transformations
- Extrait les définitions des transformations de la source de données.
- Analyse des données extraites
- Analyse le cheminement des données pour les transformations extraites automatiquement.
- Ingestion d'intrants externes
- Il intègre des données externes provenant d'un système de fichiers d'agent ou d'un dépôt Git.
- Analyse des entrées externes
- Analyse le lignage des données pour les entrées externes qui ont été ingérées ou téléchargées par un travail d'importation de métadonnées.
Options d'importation avancées
Vous pouvez personnaliser le comportement général de l'importation et ce qu'il advient des actifs importés lorsque vous réexécutez une importation de métadonnées.
Options d'importation des métadonnées des actifs
- Empêcher la mise à jour de propriétés spécifiques
- Par défaut, toutes les propriétés d'actif sont mises à jour lorsque des actifs sont réimportés. Si vous ne souhaitez pas que les noms des immobilisations, les descriptions des immobilisations ou les descriptions des colonnes soient mises à jour lors de la réimportation, décochez les cases correspondantes dans la liste Mettre à jour lors de la réimportation.
- Supprimer les actifs existants qui ne sont pas inclus dans la réimportation
- Par défaut, aucun actif n'est supprimé du projet ou du catalogue cible lorsque vous réexécutez l'importation. Pour nettoyer le projet ou le catalogue cible, sélectionnez l'option Supprimer lors de la réimportation .
- Actif non trouvé dans la source de données ou exclu de l'importation: Dans ces cas, supprimez les actifs précédemment importés de la cible d'importation lorsque l'importation est réexécutée :
- L'actif n'est plus disponible dans la source de données.
- Le paramètre Exclure de l'importation a été modifié lors de la réexécution, de sorte que la ressource est désormais exclue de l'importation (applicable uniquement aux importations de métadonnées que vous exécutez sur des bases de données relationnelles).
- Actif retiré de la portée de l'importation: Supprime les biens qui ont été retirés de la portée de ces métadonnées après la dernière exécution de la cible d'importation lorsque l'importation est réexécutée.
- Actif non trouvé dans la source de données ou exclu de l'importation: Dans ces cas, supprimez les actifs précédemment importés de la cible d'importation lorsque l'importation est réexécutée :
- Ne pas importer de types spécifiques d'actifs relationnels
Pour les importations de métadonnées que vous exécutez sur des bases de données relationnelles, dans le paramètre Exclure de l'importation, vous pouvez choisir d'importer tous les types d'actifs relationnels ou d'exclure les tables, les vues, les alias et les synonymes. Ces options s'excluent mutuellement.
- Importation de propriétés d'actif supplémentaires
Pour les importations de métadonnées que vous exécutez sur des bases de données relationnelles, vous pouvez choisir si les clés primaires et étrangères qui peuvent être définies dans la base de données sont importées.
- Activer les options d'importation supplémentaires
Activez les importations incrémentielles pour importer uniquement les actifs de données nouveaux ou modifiés lorsque vous réexécutez l'importation. Cette option n'est disponible que pour les importations de métadonnées que vous exécutez sur des bases de données relationnelles et lorsque la source de données sélectionnée prend en charge les importations incrémentielles :
- Amazon RDS for Oracle
- IBM Db2
- IBM Db2 Big SQL
- IBM Db2 on Cloud
- IBM Netezza Performance Server
- IBM Data Virtualization
- Microsoft Azure SQL Database
- Microsoft SQL Server
- Oracle
- Teradata
La mise à jour ou la suppression de la description d'un actif dans la source de données ne modifie pas la date de modification de l'actif. La date de modification ne change pas non plus pour les actifs supprimés de la liste des actifs importés. Par conséquent, ces actifs ne sont pas pris en considération pour les importations supplémentaires. En outre, les actifs qui sont supprimés de la source de données ou de la portée ne sont pas détectés avec des importations incrémentielles. Par conséquent, ces actifs ne sont pas marqués comme supprimés ou supprimés comme indiqué dans les paramètres Supprimer lors de la réimportation . Pour que ces modifications soient prises en compte, désactivez les importations incrémentielles pour réimporter tous les actifs de la portée de données.
Important :Les importations incrémentielles peuvent ne pas fonctionner si la source de données et le poste de travail client Cloud Pak for Data se trouvent dans des fuseaux horaires différents. Si le client se trouve dans un fuseau horaire qui est en avance sur le fuseau horaire de la source de données, le travail d'importation de métadonnées risque de ne pas détecter les actifs qui ont été ajoutés ou modifiés après la dernière exécution de l'importation. Dans ce cas, désactivez l'importation incrémentielle pour que tous les actifs soient inclus lorsque vous réexécutez l'importation.
Pour que les importations incrémentielles fonctionnent, la source de données doit être dans le fuseau horaire GMT, quel que soit le fuseau horaire du client.- Collecter des métadonnées à partir du catalogue de base de données
Pour les importations de métadonnées que vous exécutez sur des bases de données relationnelles, vous pouvez choisir d'importer les métadonnées à partir du catalogue de la base de données. Par conséquent, l'utilisateur qui exécute l'importation doit uniquement accéder au catalogue de la base de données, mais il n'a pas besoin de disposer du droit SELECT sur les données réelles. Les actifs importés ne peuvent pas être profilés ou utilisés dans l'enrichissement de métadonnées.
- Importer l'horodatage de l'actif
Vous pouvez inclure des informations sur l'heure de la dernière modification de l'actif. L'attribut
metadata_modification_token
est ajouté à la propriétéextended_metadata
d'un bien.
Options d'importation des métadonnées de lignage
Les options avancées pour le lignage dépendent de la source de données sélectionnée. Pour plus de détails, reportez-vous à la section Connecteurs.
En savoir plus
Planification de l'organisation
Rubrique parent: Importation de métadonnées