0 / 0

Paramètres par défaut de l'enrichissement des métadonnées

Dernière mise à jour : 04 juil. 2025
Paramètres par défaut de l'enrichissement des métadonnées

Pour obtenir des résultats d'enrichissement de métadonnées utiles, configurez les paramètres par défaut pour tous les enrichissements de métadonnées d'un projet. Les paramètres par défaut permettent également d'assurer une utilisation cohérente des options d'enrichissement.

Les modifications apportées aux paramètres de seuil ou aux méthodes d'affectation de terme sélectionnées sont appliquées aux nouveaux enrichissements de métadonnées et aux travaux d'enrichissement exécutés après la modification des paramètres. Les modifications apportées à l'ensemble de catégories sont appliquées uniquement aux nouveaux enrichissements.

Autorisations requises
Pour configurer les paramètres par défaut de l'enrichissement des métadonnées, vous devez disposer du rôle Admin dans le projet. Tout collaborateur de projet peut voir les paramètres.

Vous pouvez accéder aux paramètres par défaut de l'une des manières suivantes:

  • Dans un actif d'enrichissement de métadonnées existant, cliquez sur Paramètres par défaut.
  • Sur la page Gérer du projet, accédez à Outils > Enrichissement de métadonnées.

Modifiez les paramètres selon vos besoins. Vos modifications sont enregistrées automatiquement. Pour certains paramètres, vous pouvez restaurer les valeurs par défaut définies par le système à tout moment.

Configurez les paramètres par défaut pour ces fonctions:

Vous pouvez également créer, mettre à jour ou extraire des paramètres d'enrichissement à l'aide d'API au lieu de l'interface utilisateur. Les liens vers les API sont répertoriés dans la section En savoir plus .

Profilage et analyse des clés primaires

Définir des seuils pour le profilage, la classe de données et l'affectation de la clé primaire, et présélectionner des catégories. A tout moment, vous pouvez restaurer la valeur par défaut pour tout paramètre de seuil que vous avez modifié.

Acceptabilité des valeurs indéfinies (NULL)

Les zones de données d'une colonne ou d'un fichier à plat prennent une valeur null si elles sont autorisées à n'avoir aucune valeur.

Seuil NULL
Détermine si une zone de colonne ou de fichier à plat autorise les valeurs nulles. Si une colonne ou un fichier à plat comporte des zones sans valeurs, le pourcentage des zones vides trouvées est comparé au seuil défini. Si elle est égale ou supérieure au seuil de la valeur NULL, la zone admet des valeurs nulles. Si les valeurs NULL n'existent pas dans la zone de données ou si le pourcentage de fréquence est inférieur au seuil, la zone de données doit avoir une valeur. Le paramètre par défaut est 5 %.

Cardinalité

La cardinalité d'une colonne peut être unique, constante ou non contrainte. Le pourcentage de valeurs distinctes uniques et le pourcentage de la valeur constante la plus fréquente trouvée sont comparés aux seuils définis. Le type de cardinalité est unique ou constant si le pourcentage respectif est égal ou supérieur au pourcentage de seuil. Autrement, il n'est pas contraint.

Seuil d'unicité
Détermine si une zone de données contient des valeurs uniques. Une colonne ou un fichier à plat est considéré comme unique s'il comporte un pourcentage de valeurs distinctes égales ou supérieures au seuil défini. La valeur par défaut est 95 %.
Seuil de constante
Détermine si une colonne ou un fichier à plat contient des valeurs constantes. Il est déterminé qu'une zone est constante si elle contient une seule valeur distincte avec un pourcentage de fréquence égal ou supérieur au seuil de constante que vous définissez. La valeur par défaut est 99 %.

Affectation de classe de données

Les classes de données incluses dans l'enrichissement de métadonnées sont automatiquement affectées à une colonne uniquement lors du profilage. Les affectations de terme n'ont pas d'impact sur les affectations de classe de données. Les seuils déterminent le niveau de fiabilité minimal d'une classe de données à attribuer ou à suggérer. Le seuil d'affectation doit être supérieur au seuil de suggestion.

Des classifications connexes peuvent également être attribuées automatiquement pour les classes de données attribuées automatiquement.

Vous pouvez contrôler ce comportement en activant ou en désactivant l'option d'affectation de la classification pour les classes de données. Voir Attribution de classification.

Seuil d'affectation

Détermine le pourcentage minimal de valeurs pour lesquelles la classe de données doit correspondre aux critères à affecter automatiquement à une colonne. Le paramètre par défaut est 75 %. Ce paramètre peut être remplacé par un seuil défini directement dans la classe de données.

Les classes de données prédéfinies suivantes ont un seuil par défaut défini:

  • Ville (50%)
  • Nom de la personne (50%)
  • Prénom (50%)
  • Deuxième prénom (50%)
  • Nom (50%)
  • Nom de l'organisation (60%)

Voir Ajout de données correspondant à des classes de données.

Seuil de suggestion

Détermine le pourcentage minimal de valeurs pour lesquelles la classe de données doit correspondre aux critères à suggérer pour une colonne. Le paramètre par défaut est 25 %.

Clés primaires

Une clé primaire peut être constituée d'une ou de plusieurs colonnes et identifie de manière unique chaque enregistrement d'une table. Chaque table ne peut avoir qu'une seule clé primaire.

Seuil de suggestion
Définit le niveau de confiance minimal pour une colonne ou une combinaison de colonnes à suggérer comme clé primaire. La valeur par défaut est 80%.

Catégories

Vous pouvez limiter l'ensemble de catégories à partir desquelles les utilisateurs peuvent sélectionner lorsqu'ils créent de nouveaux enrichissements de métadonnées aux catégories qui s'alignent avec l'objectif du projet. Notez que cette sélection ne détermine pas les catégories qui sont réellement utilisées dans un enrichissement de métadonnées. Désélectionnez les catégories qui sont pertinentes pour le projet. Les catégories sélectionnées déterminent les termes métier et les classes de données qui peuvent être utilisés pour le profilage et l'affectation automatique de termes. Cette sélection ne limite pas les options des utilisateurs lors de l'affectation manuelle de classes ou de termes de données. Pour les affectations manuelles, les utilisateurs peuvent choisir des classes de données ou des termes métier à partir de toutes les catégories auxquelles ils ont accès.

Important : Les catégories à choisir sont limitées aux catégories auxquelles l'administrateur a accès. Cela peut entraîner des ensembles de catégories différents pour différents administrateurs.

Les modifications apportées à cet ensemble sont reflétées dans les nouveaux enrichissements de métadonnées et lorsque vous éditez un enrichissement de métadonnées existant.

Développer les métadonnées

Configurez les paramètres par défaut à appliquer pour générer des noms d'affichage ou des descriptions pour les ressources de données et les colonnes qu'elles contiennent.

Afficher le nom

Définir les paramètres par défaut pour la production de noms sémantiques pour les ressources de données et les colonnes qu'elles contiennent en tant que noms alternatifs plus descriptifs que les noms sources. Ces autres noms peuvent être automatiquement attribués ou suggérés.

Fixer des seuils pour déterminer le niveau de confiance minimum pour qu'un nom sémantique soit attribué ou suggéré comme nom d'affichage. Le seuil d'affectation doit être supérieur au seuil de suggestion.

Seuil d'affectation
Détermine le niveau de confiance qui doit être dépassé pour qu'un nom d'affichage soit automatiquement attribué à une ressource de données ou à une colonne. Le paramètre par défaut est 90 %.
Seuil de suggestion
Détermine le niveau de confiance qui doit être dépassé pour qu'un nom d'affichage soit suggéré pour une ressource de données ou une colonne. Le paramètre par défaut est 75 %.

Sélectionnez la méthode de génération des noms d'affichage :

Correspondance partielle

La correspondance floue génère des noms d'affichage basés sur un glossaire intégré et sur les abréviations de termes commerciaux existants dans les catégories sélectionnées pour l'enrichissement. La correspondance floue est utile si vous travaillez avec un vocabulaire métier spécifique à un domaine ou si votre déploiement ne répond pas aux exigences du système pour travailler avec des modèles de base. Si votre système répond aux exigences, vous pouvez à tout moment passer à l'utilisation de l'IA générative.

Il s'agit du paramètre par défaut.

IA générative

Avec l'IA générative, un modèle Granite est utilisé pour la génération de noms. Si vous sélectionnez cette option, vous pouvez envoyer un contexte supplémentaire au modèle de fondation afin d'améliorer la précision des noms générés.

Utiliser les données de l'échantillon généré par le profilage

Pour utiliser certaines des données échantillonnées pour le profilage comme contexte pour la génération des noms d'affichage, activez cette option. Un sous-ensemble des données collectées est envoyé au modèle de base dans votre instance de ce service en nuage en tant que contexte supplémentaire pour les invites d'enrichissement afin d'améliorer la précision du résultat. Ces échantillons de données ne sont pas utilisés pour l'amélioration générale des produits ou des modèles. Vous devez consentir à cette utilisation lorsque vous activez l'option.

Utiliser un ensemble personnalisé d'abréviations

Importer des fichiers d'abréviations en tant que données dans le projet. Dans le projet, cliquez sur Importer des ressources > Fichier local > Ressources de données pour parcourir votre système de fichiers local et télécharger les fichiers d'abréviations.

Les fichiers doivent respecter une convention de noms et un format spécifiques. Pour plus d'informations, voir Fichiers d'abréviations personnalisés.

Utiliser les actifs auxquels des noms d'affichage sont affectés

Utilisez des ressources de données avec des noms d'affichage révisés et attribués du projet en cours ou d'un catalogue spécifique comme contexte.

Descriptions générées par l'IA

L'IA générative peut produire des descriptions pour des actifs de données entiers et pour les colonnes qu'un actif de données contient. Un modèle " granite.8b prend en compte le contexte des actifs et des colonnes pour fournir des descriptions significatives. Ces descriptions peuvent être automatiquement affectées ou suggérées. Les seuils déterminent le niveau de confiance minimal pour qu'une description soit affectée ou suggérée. Le seuil d'affectation doit être supérieur au seuil de suggestion.

Vous pouvez choisir si vous souhaitez que les descriptions soient générées à l'aide d'un modèle de fondation. Par défaut, la génération de descriptions est activée. Vous pouvez désactiver cette fonctionnalité, par exemple, si votre déploiement ne répond pas aux exigences du système pour travailler avec des modèles de fondation.

Seuil d'affectation
Détermine le niveau de confiance qui doit être dépassé pour qu'une description générée soit automatiquement attribuée à une ressource de données ou à une colonne. Le réglage par défaut est de 100 %.
Seuil de suggestion
Détermine le niveau de confiance qui doit être dépassé pour qu'une description générée soit suggérée pour une ressource ou une colonne de données. Le paramètre par défaut est 75 %.

Affectation de terme et de classification

Définissez des seuils pour l'affectation des termes de gestion, sélectionnez les méthodes d'affectation des termes et déterminez si les classifications peuvent être affectées automatiquement. Vous pouvez à tout moment rétablir la valeur par défaut d'un paramètre que vous avez modifié.

affectation de terme

Les termes métier inclus dans l'enrichissement des métadonnées (par le biais de la sélection de catégories) peuvent être automatiquement affectés ou proposés pour une colonne. Les seuils déterminent le niveau de confiance minimal pour un terme à attribuer ou à suggérer. Le seuil d'affectation doit être supérieur au seuil de suggestion. Notez que les affectations de terme n'affectent pas les affectations de classe de données. Si un terme associé à une classe de données est affecté à une colonne par un modèle ML ou par une correspondance de nom, la classe de données associée n'est pas automatiquement affectée également.

Des classifications connexes peuvent également être attribuées automatiquement pour les termes attribués automatiquement.

Vous pouvez contrôler ce comportement en activant ou en désactivant l'option d'attribution de la classification pour les termes. Voir Attribution de classification.

Seuil d'affectation

Détermine le pourcentage de valeurs correspondantes qui doivent être dépassées pour qu'un terme soit affecté automatiquement à un actif de données ou à une colonne. Le paramètre par défaut est 90 %.

Seuil de suggestion

Détermine le pourcentage de valeurs correspondantes qui doivent être dépassées pour qu'un terme soit suggéré pour un actif de données ou une colonne. Le paramètre par défaut est 75 %.

Conseil : si l'affectation de terme basée sur l'IA est sélectionnée comme l'une des méthodes d'affectation de terme, envisagez d'abaisser ce seuil à une valeur comprise entre 65 % et 70 %. Dans le cas contraire, les termes renvoyés par cette méthode risquent de ne pas être pris en compte pour l'attribution des termes, car les scores de confiance sont généralement inférieurs à ceux des autres méthodes.

Déterminez la méthode d'affectation de terme utilisée dans le projet pour générer des affectations et des suggestions. Les affectations et les suggestions sont effectuées en fonction de la cote de confiance la plus élevée renvoyée par l'une des méthodes. Sélectionnez au moins l'une des méthodes suivantes:

  • Apprentissage automatique: un modèle d'apprentissage automatique est utilisé pour affecter des termes. Vous pouvez définir pour chaque projet si ce modèle est entraîné avec des actifs du projet ou avec des actifs d'un catalogue de votre choix.

  • Affectations basées sur des classes de données : les termes sont attribués en fonction de l'affectation de la classe de données pour une colonne. Un lien approprié entre les classes de données et les termes est une condition préalable à l'obtention de résultats de qualité.

  • Correspondance de nom: les termes sont affectés en fonction de la similarité entre un terme et le nom de l'actif ou de la colonne.

  • Attribution de termes basée sur l'IA générique : Les termes commerciaux spécifiques à un domaine sont attribués et suggérés à l'aide du modèle slate.30m.semantic-automation.c2c. Le modèle prend en compte les noms et les descriptions des actifs et des colonnes, et fait correspondre sémantiquement les termes à ces métadonnées. Ainsi, les termes peuvent être affectés même s'ils ne sont pas des correspondances exactes.

    Conseil: Les indices de confiance de cette méthode sont généralement inférieurs à ceux des autres méthodes. Par conséquent, abaissez le seuil de suggestion à une valeur comprise entre 65 % et 70 % pour que les termes renvoyés par la méthode d'attribution des termes basée sur l'IA générique soient pris en compte pour l'attribution des termes.
  • Affectation des termes basée sur des règles : Les termes commerciaux sont attribués sur la base de règles figurant dans un fichier CSV dans le projet.

    Un fichier de règles valide au format CSV et portant le nom ikc-term-assignment-rules.csv doit exister dans le projet. Si ce fichier n'existe pas dans le projet, cette option est ignorée. Si le fichier existe, mais que son format n'est pas valide, l'enrichissement des métadonnées échoue. Pour plus d'informations, voir Fichier CSV pour l'affectation des termes en fonction des règles.

Par défaut, les scores de confiance renvoyés par les méthodes d'affectation de terme sélectionnées sont ajustés en fonction des rejets de terme précédents, ce qui affecte la cote de confiance globale.

Si vous ne souhaitez pas que les rejets de terme affectent la cote de confiance, vous pouvez désactiver cette option.

Vous pouvez activer ou désactiver l'option indépendamment des méthodes d'affectation de terme que vous sélectionnez. La portée d'apprentissage que vous définissez s'applique au modèle d'affectation de terme et au modèle d'ajustement de la cote de confiance.

Utilisez des méthodes individuelles pour tester et évaluer les affectations de terme, par exemple, lorsque vous disposez d'un grand nombre de classes de données personnalisées. De cette façon, vous pouvez également déterminer les paramètres de seuil appropriés pour votre projet.

Pour plus d'informations, voir Affectation de terme automatique.

Affectation de classification

Déterminer si des classifications sont également attribuées lorsqu'une classe de données ou un terme connexe est automatiquement attribué à une ressource de données ou à une colonne. Vous pouvez configurer ceci individuellement pour les classes de données et les termes.

Pour les projets créés avant le 23 août 2024, l'attribution automatique de la classification est désactivée par défaut.

Paramètres de profilage avancés

Ces paramètres s'appliquent au profilage de données avancé si un utilisateur active l'option Sortie externe et qu'ils peuvent être remplacés pour chaque exécution individuelle.

Déterminez si toutes les valeurs distinctes ou un nombre maximal de valeurs distinctes les plus fréquentes sont capturées pour chaque colonne. Le paramètre par défaut consiste à capturer les 1000 valeurs distinctes les plus fréquentes. Les données sont écrasées pour chaque cycle de profilage avancé.

Définir l'emplacement de sortie par défaut pour le stockage des valeurs capturées :

  1. Sélectionnez une connexion.
  2. En fonction de la connexion sélectionnée, sélectionnez un schéma et une table, ou sélectionnez un catalogue, un schéma et une table. Vous pouvez sélectionner des catalogues, des schémas et des tables existants. Vous pouvez également créer une nouvelle table dans un schéma existant.

Pour plus d'informations sur les sources de données prises en charge comme cible de sortie, voir la colonne Tables de sortie dans Sources de données prises en charge. Les noms de schéma et de table doivent respecter la convention suivante:

  • Le premier caractère du nom doit être un caractère alphabétique.
  • Le reste du nom peut être composé de caractères alphabétiques, de caractères numériques ou de traits de soulignement.
  • Le nom ne doit pas contenir d'espaces.

Analyse de qualité de base

Définissez le seuil de qualité des données et sélectionnez les contrôles de qualité des données à appliquer lorsque les utilisateurs exécutent une analyse de qualité dans le cadre de l'enrichissement des métadonnées.

Seuil de qualité de données
Détermine le score de qualité de données minimum requis pour qu'un actif soit de qualité suffisante ou bonne. Les scores de qualité de données inférieurs au seuil spécifié sont signalés par un point rouge dans les résultats d'enrichissement. Les scores de qualité de données qui sont égaux ou supérieurs au seuil spécifié sont marqués en vert.
Contrôles de qualité des données
Sélectionnez les contrôles de qualité de données prédéfinis que vous souhaitez appliquer lorsque vous exécutez une analyse de qualité dans le cadre de l'enrichissement des métadonnées. Sélectionnez au moins une vérification. Chaque exécution d'un enrichissement de métadonnées configuré avec l'option Exécuter une analyse de qualité de données de base contribue aux scores de dimension de qualité de données liés aux vérifications sélectionnées. Pour plus d'informations, voir Contrôles de qualité des données prédéfinis.

Sortie de qualité de données

Définissez l'emplacement de sortie par défaut pour le stockage des exceptions de qualité de données et déterminez le nombre maximal d'enregistrements d'exception par contrôle de qualité de données. L'écriture d'exceptions de qualité de données dans une table de base de données doit être activée dans l'actif d'enrichissement de métadonnées.

Nombre maximal d'enregistrements de sortie d'exception

Déterminez combien de problèmes par colonne sont écrits dans la table de sortie au maximum pour chaque contrôle de qualité de données. La valeur par défaut est 100.

Emplacement de sortie

Définir les tables de sortie par défaut pour le stockage des exceptions relatives à la qualité des données :

  1. Sélectionnez une connexion.
  2. En fonction de la connexion choisie, sélectionnez un schéma et une table, ou sélectionnez un catalogue, un schéma et une table pour stocker les exceptions.
  3. Si vous le souhaitez, vous pouvez sélectionner un tableau pour stocker les lignes entières dans lesquelles les problèmes ont été détectés (enregistrements d'exceptions). Vous pouvez sélectionner une table existante dans le schéma où la table des exceptions est créée ou créer une nouvelle table dans ce schéma.

Vous pouvez sélectionner des schémas et des tables existants ou créer de nouvelles tables dans un schéma existant. Pour plus d'informations sur les sources de données prises en charge comme cible de sortie, voir la colonne Tables de sortie dans Sources de données prises en charge. Les noms de schéma et de table doivent respecter la convention suivante:

  • Le premier caractère du nom doit être un caractère alphabétique.
  • Le reste du nom peut être composé de caractères alphabétiques, de caractères numériques ou de traits de soulignement.
  • Le nom ne doit pas contenir d'espaces.

Pour créer une nouvelle table pour la sortie, entrez un nom au lieu de le sélectionner dans les tables disponibles. Notez que le nom de la table ne doit pas contenir de caractères spéciaux.

Pour stocker uniquement les problèmes de qualité, une nouvelle table est créée avec les définitions de colonne suivantes:

asset_id VARCHAR(40),
issue_type VARCHAR(64),
column1 VARCHAR(128),
value1 VARCHAR(64),
column2 VARCHAR(128),
value2 VARCHAR(64)

Pour le stockage des problèmes de qualité et des enregistrements d'exception, une nouvelle table pour les problèmes de qualité est créée avec les définitions de colonne suivantes:

asset_id VARCHAR(40),
issue_type VARCHAR(64),
column VARCHAR(128),
row_id VARCHAR(64)

Une nouvelle table pour le stockage des enregistrements d'exception est créée avec les définitions de colonne suivantes:

asset_id VARCHAR(40),
row_id  VARCHAR(64),
row_data CLOB

Si vous sélectionnez une table existante pour l'un ou l'autre type de sortie, la table sélectionnée doit avoir la structure appropriée pour la sortie prévue.

Si la connexion est verrouillée, vous êtes invité à entrer vos données d'identification personnelles. Il s'agit d'une étape ponctuelle qui déverrouille définitivement la connexion pour vous.

Relations de clé

Une relation de clé se compose d'une clé primaire et d'une clé étrangère et définit une relation entre deux actifs de données dans une base de données relationnelle.

Seuil de suggestion

Définit le niveau de confiance minimal requis pour les relations entre les clés primaire et externe à suggérer. La valeur par défaut est 80%.

Ce seuil est appliqué lorsque vous exécutez une analyse de relation clé de base ; il n'est pas appliqué à une analyse de relation clé approfondie ou à une analyse de chevauchement. Vous pouvez définir des seuils de suggestion pour ces types d'analyse pour chaque exécution individuelle. Voir Identification des relations.

Pour que les relations soient automatiquement attribuées, sélectionnez l'option Attribuer automatiquement et définissez un seuil d’affectation.

Seuil d'affectation

Définit le niveau de confiance minimum requis pour que les relations entre les clés primaires et étrangères soient automatiquement attribuées. Le paramètre par défaut est 90 %.

Lorsqu'une relation de clé est automatiquement attribuée, la clé primaire correspondante dans un actif parent est également attribuée automatiquement. Toutefois, une ressource de données ne peut pas avoir plus d’une clé primaire attribuée. Par conséquent, une seule relation peut être attribuée si plusieurs relations de clé avec différentes clés primaires sont détectées pour un actif. Le candidat relationnel ayant le score de confiance le plus élevé est attribué. Ce score de confiance est calculé sur la base du score de confiance de l'analyse de clé primaire. Si tous les candidats à la relation ont le même score de confiance, aucun d’entre eux n’est attribué.

Ces paramètres sont appliqués lorsque vous exécutez une analyse de base des relations clés. Ils ne s’appliquent pas à l’analyse approfondie des relations clés ni à l’analyse des chevauchements. Pour ces types d'analyse, vous pouvez activer l'affectation automatique des relations et définir un seuil d'affectation pour chaque exécution individuelle. Voir Identification des relations.

En savoir plus

Rubrique parent : Enrichissement de vos données