Enrichir les données avec des informations qui aident les utilisateurs à trouver les données plus rapidement, à décider si les données sont appropriées pour la tâche à accomplir, s'ils peuvent faire confiance aux données et comment travailler avec les données. Ces informations sont notamment des termes qui définissent la signification des données, des règles qui documentent la propriété ou déterminent des normes de qualité, ou des révisions.
Les intendants de données créent des profils d'actif pour comprendre la signification des données et évaluer leur qualité. En outre, ils ajoutent un contexte métier aux données en affectant des termes et en identifiant les relations entre les tables. L'enrichissement des métadonnées automatise ce processus, ce qui augmente la productivité de l'intendant des données.
Les données ne sont utiles que si leur contexte, leur contenu et leur qualité sont fiables. Pour ce faire, les données doivent être continuellement évaluées et des mesures correctives appropriées doivent être prises au besoin. Les intendants de données peuvent configurer des tâches récurrentes pour suivre en continu les modifications apportées au contenu et à la structure des données, puis analyser uniquement les données qui ont été modifiées.
Les informations ajoutées aux actifs via l'enrichissement de métadonnées aident également à protéger les données car elles peuvent être utilisées dans des stratégies de protection de données pour masquer les données ou restreindre l'accès à elles.
- Services requis
IBM Knowledge Catalog
DataStage pour l'analyse avancée des clés ou des relations et le profilage avancé- Format des données
Tables à partir de sources de données relationnelles et non relationnelles
Fichiers téléchargés à partir du système de fichiers local ou des connexions basées sur des fichiers aux sources de données, avec les formats suivants: CSV, TSV, Avro, Parquet, Microsoft Excel (xls, xlsm et xlsx ; seule la première feuille d'un classeur est profilée pour les fichiers téléchargés à partir du système de fichiers local.) Ces fichiers de données structurées ne sont pas profilés:
- Fichiers dans un actif de dossier connecté. Les fichiers accessibles à partir d'un actif de dossier connecté ne sont pas traités comme des actifs et ne sont pas profilés.
- Fichiers d'un fichier archive, par exemple, un fichier .zip. Le fichier archive est référencé par l'actif de données et les fichiers compressés ne sont pas profilés.
Vous pouvez enrichir des actifs de données à partir des sources de données répertoriées dans Sources de données prises en charge pour l'organisation et la qualité des données.
- Taille des données
Tout ; les ensembles de données des connexions basées sur des fichiers ne peuvent pas comporter plus de 4 999 colonnes
- Autorisations requises
Pour créer, gérer et exécuter un enrichissement de métadonnées, vous devez disposer du rôle Admin ou Editeur dans le projet et disposer au moins de l'accès en affichage aux catégories que vous souhaitez utiliser dans l'enrichissement. Vous devez également être autorisé à accéder aux connexions aux sources de données des actifs de données à enrichir.
Si l'une de ces connexions est verrouillée, il vous est demandé de saisir vos informations d'identification personnelles. Il s'agit d'une étape unique qui débloque définitivement les connexions pour vous.
Toutes les opérations exécutées dans le cadre d'un enrichissement de métadonnées requièrent des données d'identification pour une autorisation sécurisée. En règle générale, votre clé d'API utilisateur est utilisée pour exécuter ces opérations de longue durée sans interruption. Si les données d'identification ne sont pas disponibles lorsque vous créez un enrichissement de métadonnées ou que vous tentez d'exécuter un type d'enrichissement, vous êtes invité à créer une clé d'API. Cette clé d'API est ensuite sauvegardée en tant que données d'identification de la tâche. Voir Gestion de la clé d'API utilisateur.
Vous pouvez également créer, éditer, exécuter ou supprimer des enrichissements de métadonnées à l'aide d'API à la place de l'interface utilisateur. Les liens vers ces API sont répertoriés dans la section En savoir plus .
Présentation de l'enrichissement de métadonnées
L'enrichissement d'actifs de données consiste en :
Identifier les actifs de données que vous voulez enrichir.
Dans un projet, créez un actif d'enrichissement de métadonnées pour configurer les détails de l'enrichissement, tels que la portée et l'objectif de l'enrichissement, ainsi que la planification du travail d'enrichissement.
Exécuter le travail d'enrichissement.
Pour chaque actif de données inclus dans l'enrichissement, utilisez les résultats de l'actif d'enrichissement de métadonnées:
- Cerner les anomalies et les problèmes de qualité et prendre les mesures appropriées pour résoudre les problèmes.
- Passez en revue le contenu généré, tel que les noms d'affichage ou les descriptions générées par l'IA.
- Vérifier les affectations de termes et évaluer les suggestions à terme et y donner suite.
- Gérer les affectations de classes de données au niveau de la colonne.
- Gérer les classifications.
- Identifiez et définissez les clés primaires et les relations.
- Détectez les données redondantes ou qui se chevauchent.
Vous pouvez également accéder aux résultats d'enrichissement et travailler avec eux dans le profil de chaque actif individuel. Voir Profils d'actif. Des informations détaillées sur la qualité sont disponibles dans l'onglet Qualité de données d'un actif.
Réévaluer les actifs concernés.
Publier les données et les résultats selon les besoins.
Vous pouvez effectuer la plupart des tâches avec des API à la place de l'interface utilisateur. Les liens vers l' API IBM Knowledge Catalog sont listés pour chaque tâche applicable.
Si vous pouvez ajouter des actifs connectés individuels à un enrichissement de métadonnées, l'enrichissement des métadonnées est destiné aux actifs de données de traitement en bloc ajoutés au projet via l'importation de métadonnées.
Pour garantir une utilisation cohérente des options d'enrichissement, vous pouvez configurer des paramètres par défaut pour tous les actifs d'enrichissement de métadonnées d'un projet. Pour ouvrir la page des paramètres, allez dans Gestion > Enrichissement des métadonnées. Vous pouvez également ouvrir une ressource d'enrichissement des métadonnées existante et cliquer sur Paramètres par défaut.
Pour la gestion de la charge de travail, l'exécution des tâches d'enrichissement des métadonnées peut être limitée à des fenêtres d'exécution. Un administrateur de projet peut définir de telles fenêtres dans Gérer > Fenêtres d'exécution des travaux.
En savoir plus
Etapes suivantes
Rubrique parent : Curation des données