Conception d'enrichissements de métadonnées | IBM Cloud Pak for Data as a Service

Retourner à la version anglaise de la documentation

Conception d'enrichissements de métadonnées

Dernière mise à jour : 13 déc. 2024

Conception d'enrichissements de métadonnées

Lorsque vous enrichissez les métadonnées d'un actif, vous devez décider quels actifs de données enrichir, quel type de métadonnées ajouter et s'il faut planifier des tâches d'enrichissement.

En règle générale, l'enrichissement des métadonnées fait partie d'un plan de curation des données plus important. Par exemple, après avoir importé des métadonnées pour des actifs de données, vous pouvez ajouter des métadonnées métier aux actifs de données importés, identifier les relations entre les actifs et exécuter une analyse de la qualité des données de ces actifs. Enfin, vous pouvez publier les actifs de données terminés dans un catalogue à partager avec votre organisation. Avant de concevoir votre enrichissement de métadonnées, assurez-vous de comprendre les implications de vos choix sur votre plan de curation global. Voir Planification de l'organisation.

Configuration du projet
Portée de l'enrichissement
Objectifs d'enrichissement
Sélection de catégorie
Echantillonnage
Planification d'enrichissement

Configuration du projet

Sélectionnez ou créez le projet dans lequel vous souhaitez travailler. N'oubliez pas que les projets marqués comme sensibles ne permettent pas de publier des catalogues ou de télécharger des données. Ils ne conviennent donc pas si vous souhaitez partager les actifs enrichis ou télécharger les résultats pour les examiner dans une feuille de calcul.

En tant qu'administrateur du projet, définissez les paramètres d'enrichissement par défaut qui s'appliquent à tous les enrichissements de métadonnées dans le projet sélectionné. Vous pouvez remplacer certains de ces paramètres lorsque vous créez ou éditez votre enrichissement de métadonnées.

Champ d'application de l'enrichissement

Généralement, la première étape lorsque vous enrichissez les métadonnées consiste à sélectionner les données que vous souhaitez enrichir. Vous pouvez enrichir les actifs de données relationnels et structurés.

L'enrichissement des métadonnées est exécuté sur les actifs disponibles dans le projet. Par conséquent, la liste des actifs enrichis dans les résultats d'enrichissement peut ne pas correspondre à la portée configurée des actifs d'importation de métadonnées inclus dans les cas suivants:

Metadata import n'était pas encore terminée lorsque l'enrichissement a démarré.
Metadata import a échoué pour un ensemble d'actifs ou a échoué complètement.

Portée des données initiales

La liste Actifs de données affiche tous les actifs des formats pris en charge. Vous pouvez enrichir les actifs de données relationnels et structurés. Vous pouvez sélectionner des actifs individuels, mais vous pouvez également sélectionner des actifs d'importation de métadonnées pour enrichir l'ensemble des actifs de données à partir de ces importations de métadonnées. Toutefois, vous ne pouvez pas sélectionner des actifs de données ou des importations de métadonnées qui sont déjà inclus dans un enrichissement de métadonnées. Pour les actifs de données individuels, vous pouvez survoler le nom de l'actif pour voir dans quel enrichissement de métadonnées l'actif est inclus.

Un actif d'importation de métadonnées est automatiquement exclu de la portée de sélection dans les cas suivants:

Il a un catalogue comme cible d'importation.
Il a été exécuté sur une connexion qui ne prend pas en charge l'accès aux données réelles.

Voir Importation de métadonnées.

Rappel: Chaque actif de données ou importation de métadonnées peut être inclus dans un seul enrichissement de métadonnées par projet. Si vous souhaitez enrichir un actif de données plusieurs fois avec différentes options d'enrichissement, vous devez le faire dans des projets distincts.

Si l'une des connexions des actifs de données sélectionnés est configurée pour utiliser des droits d'accès personnels à la place des droits d'accès partagés, vous devez déverrouiller cette connexion avant de pouvoir continuer.

Vous pouvez également créer un actif d'enrichissement de métadonnées vide et définir la portée ultérieurement.

Portée des réexécutions de l'enrichissement

Pour les réexécutions de l'enrichissement, qu'elles soient planifiées ou exécutées manuellement, la portée de données peut être tous les actifs de la portée de données initialement sélectionnée ou un sous-ensemble d'actifs. L'option par défaut est Nouveaux actifs et actifs modifiés et actifs non enrichis lors de l'exécution précédente. Avec cette option, les actifs sont sélectionnés pour l'enrichissement comme suit:

Actifs qui ont été ajoutés après la dernière exécution de l'enrichissement
Actifs dans lesquels des colonnes ont été ajoutées ou supprimées après la dernière exécution de l'enrichissement
Actifs dans lesquels les descriptions d'actifs ou de colonnes ont été modifiées après la dernière exécution de l'enrichissement
Actifs pour lesquels l'enrichissement précédent a échoué ou a été annulé

L'enrichissement est toujours exécuté sur l'ensemble de l'actif de données, qu'un actif soit nouveau ou modifié.

Le journal d'exécution des tâches montre les réexécutions des enrichissements de métadonnées qui sont configurés avec l'étendue limitée des données en tant qu'exécutions de tâches d'enrichissement de métadonnées delta.

Objectifs d'enrichissement

Vous pouvez choisir parmi les objectifs d'enrichissement suivants:

Données de profil
Développer les métadonnées
Affecter des termes et des classifications
Exécuter l'analyse de qualité de base
Définir les relations

Données de profil

Générer des statistiques de base sur le contenu des actifs, assigner et suggérer des classes de données.

Ce type de profilage est rapide, mais fait quelques approximations pour certaines métriques telles que la distribution de fréquence et l'unicité. Pour obtenir des résultats plus précis sans approximation, exécutez un profilage avancé sur des actifs de données sélectionnés. Voir Profilage de données avancé. Pour plus d'informations sur les statistiques, voir Résultats de profilage détaillés.

Les classes de données décrivent le contenu des données dans la colonne : par exemple, ville, numéro de compte ou numéro de carte de crédit. Les classes de données peuvent être utilisées pour masquer des données à l'aide de règles de protection des données ou pour restreindre l'accès aux actifs de données à l'aide de règles. En outre, ils peuvent contribuer à des affectations de terme s'il existe une liaison de classe de données à terme correspondante.

La confiance d'une classe de données est le pourcentage de valeurs non null qui correspondent à la classe de données. La cote de confiance d'une classe de données à affecter ou à suggérer doit être au moins égale au seuil défini. Voir Paramètres d'affectation de classe de données. Si un seuil est défini sur une classe de données directement, ce seuil est prioritaire lorsque des classes de données sont affectées. Il n'est pas pris en considération pour les suggestions. En plus de la cote de confiance, la priorité d'une classe de données est prise en compte.

Plusieurs classes de données sont des identificateurs plus génériques qui sont détectés et attribués au niveau de la colonne. Ces classes de données sont affectées lorsqu'une classe de données plus spécifique n'a pas pu être identifiée au niveau de la valeur. Les identificateurs génériques ont toujours un niveau de confiance de 100 % et comprennent les classes de données suivantes : code, identificateur, indicateur, quantité et texte.

Les clés primaires à colonne unique sont suggérées en fonction des statistiques de profilage. Si des contraintes de clé primaire et de clé externe sont déjà définies dans vos données et que ces informations sont incluses dans l'importation de métadonnées, ces clés sont automatiquement affectées.

A partir des résultats d'enrichissement, vous pouvez exécuter une analyse de clé primaire multicolonne dans laquelle les données réelles sont vérifiées. Pour plus d'informations, voir Identification des clés primaires.

Développer les métadonnées

Générer des noms et des descriptions sémantiques pour les données et les colonnes. Les noms qui existent dans la source sont développés sur la base des métadonnées collectées et d'un glossaire prédéfini en utilisant une correspondance floue et en comparant les noms aux abréviations des termes commerciaux dans les catégories sélectionnées pour l'enrichissement. Si le nom de l'actif ou de la colonne dans la source peut être associé à une abréviation de terme commercial, le terme commercial correspondant est utilisé comme nom d'affichage. L'IA générative est utilisée pour fournir des descriptions basées sur les noms développés, les colonnes environnantes et le contexte des données. Utilisez cette option pour fournir des noms alternatifs plus faciles à consommer que les noms d'origine souvent très techniques. Les descriptions générées par l'IA peuvent aider à comprendre le contenu, en particulier lorsque des descriptions de colonne ou d'actif de données sont manquantes dans la source de données. Les seuils d'affectation et de suggestion sont définis dans les paramètres d'enrichissement par défaut.

Affecter des termes et des classifications

Attribuez automatiquement des termes commerciaux aux colonnes et aux actifs entiers, ou suggérez des termes commerciaux à attribuer manuellement. Ces affectations ou suggestions sont générées par un ensemble de services. Voir Affectation automatique de terme.

En fonction de quels services d'affectation de terme sont actifs pour votre projet, une affectation de terme peut nécessiter un profilage.

En outre, attribuez des classifications aux ressources de données et aux colonnes en fonction des termes et des classes de données attribués automatiquement. L'attribution de classification doit être activée dans les paramètres d'enrichissement par défaut. L'attribution d'une classification basée sur des classes de données nécessite également l'établissement d'un profil.

Exécuter l'analyse de qualité de base

Exécuter des contrôles de qualité des données prédéfinis sur les colonnes d'une ressource de données. L'ensemble de vérifications appliqué est défini dans les paramètres d'enrichissement. Voir Paramètres d'analyse de qualité de base. Chaque vérification peut contribuer aux coeurs de qualité de données globaux de l'actif. Ce type d'analyse de la qualité des données ne peut être effectué qu'en combinaison avec le profilage. Par conséquent, l'option Données de profil est automatiquement sélectionnée lorsque vous choisissez d'analyser la qualité des données.

Vous pouvez choisir d'écrire la sortie de ces vérifications dans une base de données. S'il existe des paramètres par défaut, les sections sont renseignées en conséquence. Vous pouvez remplacer les paramètres. Si aucun paramètre par défaut n'existe, configurez la sortie et l'emplacement de sortie. Pour plus d'informations sur les sources de données prises en charge comme cible de sortie, voir la colonne Tables de sortie dans Sources de données prises en charge. Les noms de schéma et de table doivent respecter la convention suivante:

Le premier caractère du nom doit être un caractère alphabétique.
Le reste du nom peut être composé de caractères alphabétiques, de caractères numériques ou de traits de soulignement.
Le nom ne doit pas contenir d'espaces.

Si vous choisissez d'écrire les exceptions ou les lignes dans lesquelles les problèmes ont été détectés (enregistrements d'exception) dans des tables existantes, assurez-vous que ces tables ont le format requis. Voir Sortie de qualité de données.

Si la connexion que vous sélectionnez est verrouillée, vous êtes invité à entrer vos données d'identification personnelles. Il s'agit d'une étape ponctuelle qui déverrouille définitivement la connexion pour vous.

Définir les relations

Utilise les statistiques de profilage et les similitudes de noms entre les colonnes pour fournir des clés primaires et externes et pour suggérer ou affecter des relations entre les actifs et les colonnes. Les paramètres d'enrichissement par défaut des relations de clé sont appliqués. Ce type d'analyse de relation nécessite un profilage.

Évaluer la qualité des données à l'aide des règles de l'accord de niveau de service (SLA)

Vérifie si la qualité des données est conforme aux accords de niveau de service définis en matière de qualité des données. Les règles SLA relatives à la qualité des données définissent les seuils de qualité des données pour les ressources de données ou les colonnes des ressources de données. Avec cette option d'enrichissement, les actifs de données dans l'enrichissement des métadonnées sont vérifiés par rapport aux critères de sélection dans les règles SLA de qualité des données. Si des ressources de données ou des colonnes individuelles correspondent aux critères de sélection d'une règle SLA de qualité des données, leur qualité est vérifiée par rapport aux seuils de qualité définis dans cette règle SLA.

À la suite d'une exécution d'enrichissement avec cette option, un rapport de conformité SLA est généré pour chaque ressource de données dans l'enrichissement, indépendamment du fait que les conditions de la règle SLA de qualité des données aient été violées ou non. Les rapports de conformité SLA font partie des informations sur la qualité d'une ressource de données qui sont disponibles à partir des résultats de l'enrichissement ou sur la page Qualité des données de la ressource dans un projet.

En fonction de la configuration d'une règle SLA de qualité des données, un flux de travail de remédiation de la qualité des données peut être lancé si une ressource de données enfreint cette règle.

Si vous combinez cet objectif avec d'autres objectifs, les considérations suivantes s'appliquent :

Si l'objectif de profilage des données est également sélectionné, l'évaluation SLA de la qualité des données n'est exécutée que si le profilage s'est déroulé avec succès.
Si l'objectif Assigner des termes et des classifications est également sélectionné, l'évaluation SLA de la qualité des données n'est exécutée que si l'assignation des termes s'est déroulée avec succès. Étant donné que le travail de fin d'études nécessite l'établissement de profils de données, l'établissement de profils doit également avoir été effectué avec succès.

Vous pouvez procéder à l'enrichissement des métadonnées avec pour seul objectif l'évaluation des accords de niveau de service (SLA) en matière de qualité des données. Cependant, avant de le faire, confirmez que les actifs de données ou les colonnes dans l'étendue de l'enrichissement ont des termes assignés et ont un score de qualité des données. En outre, l'étendue des données des réexécutions doit être définie sur Tous les actifs de données dans ce cas.

Sélection de catégorie

Sélectionnez des catégories pour déterminer les classes de données et les termes métier qui peuvent être appliqués lors de l'enrichissement. Un administrateur de projet peut avoir limité l'ensemble de catégories à choisir lorsque vous créez un enrichissement. Cette limitation ne s'applique pas lorsque vous éditez l'enrichissement. Dans tous les cas, vous ne pouvez choisir que les catégories où vous êtes un collaborateur avec au moins le rôle Afficheur.

Sélectionnez uniquement les catégories avec des artefacts de gouvernance qui sont pertinents pour votre cas d'utilisation.

Cette sélection s'applique uniquement aux affectations et suggestions automatiques. Lorsque vous affectez manuellement des termes ou des classes de données, vous pouvez choisir parmi toutes les catégories auxquelles vous avez accès.

Les modifications apportées à l'ensemble de catégories à choisir ou à la sélection de catégorie effective prennent effet avec le prochain programme d'enrichissement. Toutefois, les affectations existantes demeurent inchangées.

Si votre accès à l'une des catégories sélectionnées est révoqué après l'exécution de l'enrichissement de métadonnées et que vous n'apportez aucune modification à l'enrichissement, toute réexécution prend en compte toutes les catégories sélectionnées pour les affectations de classes de données et de termes.

Echantillonnage

Vous pouvez choisir parmi les types d'échantillonnage suivants:

Basique

L'échantillonnage de base fonctionne avec la taille d'échantillon la plus petite possible pour accélérer le processus: 1 000 lignes par table sont analysées et la classification est effectuée en fonction des 100 valeurs les plus fréquentes par colonne.

Modérée

L'échantillonnage modéré fonctionne avec une taille d'échantillon de taille moyenne pour fournir des résultats raisonnablement précis sans être trop long: 10 000 lignes par table sont analysées et la classification est effectuée en fonction des 100 valeurs les plus fréquentes par colonne.

Complète

L'échantillonnage complet fonctionne avec une grande taille d'échantillon pour fournir des résultats plus précis: 100 000 lignes par table sont analysées, et la classification tient compte de toutes les valeurs par colonne. Cependant, cette méthode exige beaucoup de temps et de ressources.

Personnalisation

Définissez la méthode d'échantillonnage, la taille de l'échantillon et la base de la classification vous-même:

Choisissez entre l'échantillonnage séquentiel et l'échantillonnage aléatoire. Avec l'échantillonnage séquentiel, les premières lignes d'un jeu de données sont sélectionnées dans un ordre séquentiel. Avec un échantillonnage aléatoire, les lignes à inclure sont sélectionnées de manière aléatoire. Pour les deux méthodes, le nombre maximal de lignes à sélectionner est déterminé par la taille d'échantillon définie.

L'échantillonnage aléatoire est disponible uniquement pour les actifs de données provenant de sources de données qui prennent en charge ce type d'échantillonnage. Pour plus d'informations, voir Concepts d'échantillonnage aléatoire.
Définissez la taille maximale de l'échantillon. Vous pouvez définir un nombre fixe de lignes ou spécifier le pourcentage de lignes du jeu de données à analyser. Si vous définissez la taille de l'échantillon en tant que valeur de pourcentage, vous pouvez éventuellement définir le nombre minimal et maximal de lignes que l'échantillon peut inclure. Vous pouvez définir ces valeurs lorsque vous ne connaissez pas la taille des jeux de données à analyser. Le nombre ou le pourcentage de lignes sélectionnées pour l'échantillon ne peut qu'approximer la valeur spécifiée.
Indiquez si vous souhaitez qu'une classe de données soit affectée en fonction de toutes les valeurs d'une colonne ou des valeurs les plus fréquentes d'une colonne dans laquelle vous pouvez spécifier le nombre de valeurs à prendre en compte.

L'échantillonnage de base, moyen ou complet est séquentiel et commence en haut de la table. Pour supprimer l'échantillonnage, utilisez un échantillonnage personnalisé configuré avec un échantillonnage aléatoire et une taille d'échantillon de 100%.

Options de planification

Si votre périmètre de données comprend des ressources d'importation de métadonnées, la page Schedule fournit des informations sur les calendriers configurés des tâches d'importation de métadonnées respectives. Ces informations vous aident à coordonner votre programme d'enrichissement avec toutes les planifications d'importation.

Définition d'exécution

Définir quand l'enrichissement des métadonnées est exécuté. Vous pouvez sélectionner aucune, une ou les deux options :

Exécuter après la création du travail

Sélectionnez cette option pour exécuter l'enrichissement de métadonnées lorsque vous enregistrez un enrichissement de métadonnées nouvellement créé. Dans le cas contraire, la ressource d'enrichissement des métadonnées est sauvegardée, mais aucun travail n'est lancé.

Exécuter dans une planification

Sélectionnez cette option pour que l'enrichissement se déroule selon un calendrier. Vous pouvez planifier des exécutions uniques et récurrentes. Définissez la date et l'heure de début de la programmation. Si vous planifiez une exécution unique, le travail s'exécute exactement une fois au jour et à l'heure indiqués.

Pour programmer des exécutions récurrentes, sélectionnez Répéter le travail et la fréquence à laquelle vous souhaitez que le travail d'enrichissement soit exécuté. Si vous sélectionnez Minute, Heure ou Quotidien, vous pouvez exclure certains jours de la semaine de la programmation. En option, vous pouvez définir une date et une heure de fin pour la planification du travail. Pour les exécutions récurrentes, le travail est exécuté pour la première fois à l'heure calculée en fonction des paramètres définis dans la section Répéter le travail.

Quelle que soit la définition de l'exécution, vous pouvez à tout moment déclencher manuellement une exécution du travail d'enrichissement des métadonnées.

Si des fenêtres d'exécution sont configurées pour un projet, l'exécution des tâches d'enrichissement des métadonnées est limitée aux périodes configurées. Les travaux démarrent à la demande, c'est-à-dire après la création de la ressource d'enrichissement des métadonnées, ou selon le calendrier défini, mais ils sont immédiatement interrompus si la date et l'heure de début se situent en dehors d'une fenêtre d'exécution et repris à l'ouverture de la fenêtre d'exécution suivante. Les enrichissements de métadonnées de longue durée peuvent être interrompus et repris plusieurs fois.

Pour plus d'informations, voir Gestion de la planification des travaux d'enrichissement.

En savoir plus

Planification de l'organisation

Etapes suivantes

Création d'une ressource d'enrichissement des métadonnées

Rubrique parent : Gestion de l'enrichissement des métadonnées