0 / 0
Retourner à la version anglaise de la documentation
Paramètres par défaut de l'enrichissement des métadonnées
Dernière mise à jour : 13 déc. 2024
Paramètres par défaut de l'enrichissement des métadonnées

Pour obtenir des résultats d'enrichissement de métadonnées utiles, configurez les paramètres par défaut pour tous les enrichissements de métadonnées d'un projet. Les paramètres par défaut permettent également d'assurer une utilisation cohérente des options d'enrichissement.

Les modifications apportées aux paramètres de seuil ou aux méthodes d'affectation de terme sélectionnées sont appliquées aux nouveaux enrichissements de métadonnées et aux travaux d'enrichissement exécutés après la modification des paramètres. Les modifications apportées à l'ensemble de catégories sont appliquées uniquement aux nouveaux enrichissements.

Autorisations requises
Pour configurer les paramètres par défaut de l'enrichissement des métadonnées, vous devez disposer du rôle Admin dans le projet. Tout collaborateur de projet peut voir les paramètres.

Vous pouvez accéder aux paramètres par défaut de l'une des manières suivantes:

  • Dans un actif d'enrichissement de métadonnées existant, cliquez sur Paramètres par défaut.
  • Sur la page Gérer du projet, accédez à Outils > Enrichissement de métadonnées.

Modifiez les paramètres selon vos besoins. Vos modifications sont enregistrées automatiquement. Pour certains paramètres, vous pouvez restaurer les valeurs par défaut définies par le système à tout moment.

Configurez les paramètres par défaut pour ces fonctions:

Vous pouvez également créer, mettre à jour ou extraire des paramètres d'enrichissement à l'aide d'API au lieu de l'interface utilisateur. Les liens vers les API sont répertoriés dans la section En savoir plus .

Profilage et affectation de terme

Définir des seuils pour le profilage et l'affectation de termes métier, sélectionner les méthodes d'affectation de termes et présélectionner des catégories. A tout moment, vous pouvez restaurer la valeur par défaut pour tout paramètre de seuil que vous avez modifié.

Acceptabilité des valeurs indéfinies (NULL)

Les zones de données d'une colonne ou d'un fichier à plat prennent une valeur null si elles sont autorisées à n'avoir aucune valeur.

Seuil NULL
Détermine si une zone de colonne ou de fichier à plat autorise les valeurs nulles. Si une colonne ou un fichier à plat comporte des zones sans valeurs, le pourcentage des zones vides trouvées est comparé au seuil défini. Si elle est égale ou supérieure au seuil de la valeur NULL, la zone admet des valeurs nulles. Si les valeurs NULL n'existent pas dans la zone de données ou si le pourcentage de fréquence est inférieur au seuil, la zone de données doit avoir une valeur. Le paramètre par défaut est 5 %.

Cardinalité

La cardinalité d'une colonne peut être unique, constante ou non contrainte. Le pourcentage de valeurs distinctes uniques et le pourcentage de la valeur constante la plus fréquente trouvée sont comparés aux seuils définis. Le type de cardinalité est unique ou constant si le pourcentage respectif est égal ou supérieur au pourcentage de seuil. Autrement, il n'est pas contraint.

Seuil d'unicité
Détermine si une zone de données contient des valeurs uniques. Une colonne ou un fichier à plat est considéré comme unique s'il comporte un pourcentage de valeurs distinctes égales ou supérieures au seuil défini. La valeur par défaut est 95 %.
Seuil de constante
Détermine si une colonne ou un fichier à plat contient des valeurs constantes. Il est déterminé qu'une zone est constante si elle contient une seule valeur distincte avec un pourcentage de fréquence égal ou supérieur au seuil de constante que vous définissez. La valeur par défaut est 99 %.

Affectation de classe de données

Les classes de données incluses dans l'enrichissement de métadonnées sont automatiquement affectées à une colonne uniquement lors du profilage. Les affectations de terme n'ont pas d'impact sur les affectations de classe de données. Les seuils déterminent le niveau de fiabilité minimal d'une classe de données à attribuer ou à suggérer. Le seuil d'affectation doit être supérieur au seuil de suggestion.

Des classifications connexes peuvent également être attribuées automatiquement pour les classes de données attribuées automatiquement.

Vous pouvez contrôler ce comportement en activant ou en désactivant l'option d'affectation de la classification pour les classes de données. Voir Attribution de classification.

Seuil d'affectation

Détermine le pourcentage minimal de valeurs pour lesquelles la classe de données doit correspondre aux critères à affecter automatiquement à une colonne. Le paramètre par défaut est 75 %. Ce paramètre peut être remplacé par un seuil défini directement dans la classe de données.

Les classes de données prédéfinies suivantes ont un seuil par défaut défini:

  • Ville (50%)
  • Nom de la personne (50%)
  • Prénom (50%)
  • Deuxième prénom (50%)
  • Nom (50%)
  • Nom de l'organisation (60%)

Voir Ajout de données correspondant à des classes de données.

Seuil de suggestion

Détermine le pourcentage minimal de valeurs pour lesquelles la classe de données doit correspondre aux critères à suggérer pour une colonne. Le paramètre par défaut est 25 %.

Clés primaires

Une clé primaire peut être constituée d'une ou de plusieurs colonnes et identifie de manière unique chaque enregistrement d'une table. Chaque table ne peut avoir qu'une seule clé primaire.

Seuil de suggestion
Définit le niveau de confiance minimal pour une colonne ou une combinaison de colonnes à suggérer comme clé primaire. La valeur par défaut est 80%.

Afficher le nom

Sur la base d'un glossaire intégré et des abréviations de termes commerciaux existants dans les catégories sélectionnées pour l'enrichissement, la correspondance floue est utilisée pour produire des noms sémantiques pour les actifs de données et les colonnes qu'ils contiennent en tant que noms alternatifs qui sont plus descriptifs que les noms sources. Ces autres noms peuvent être automatiquement attribués ou suggérés. Les seuils déterminent le niveau de confiance minimal pour qu'un nom sémantique soit attribué ou suggéré comme nom d'affichage. Le seuil d'affectation doit être supérieur au seuil de suggestion.

Seuil d'affectation
Détermine le niveau de confiance qui doit être dépassé pour qu'un nom d'affichage soit automatiquement attribué à une ressource de données ou à une colonne. Le paramètre par défaut est 90 %.
Seuil de suggestion
Détermine le niveau de confiance qui doit être dépassé pour qu'un nom d'affichage soit suggéré pour une ressource de données ou une colonne. Le paramètre par défaut est 75 %.

Description générée par l'IA

L'IA générative peut produire des descriptions pour des actifs de données entiers et pour les colonnes qu'un actif de données contient. Un modèle " granite.8b prend en compte le contexte des actifs et des colonnes pour fournir des descriptions significatives. Ces descriptions peuvent être automatiquement affectées ou suggérées. Les seuils déterminent le niveau de confiance minimal pour qu'une description soit affectée ou suggérée. Le seuil d'affectation doit être supérieur au seuil de suggestion.

Seuil d'affectation
Détermine le niveau de confiance qui doit être dépassé pour qu'une description générée soit automatiquement attribuée à une ressource de données ou à une colonne. Le réglage par défaut est de 100 %.
Seuil de suggestion
Détermine le niveau de confiance qui doit être dépassé pour qu'une description générée soit suggérée pour une ressource ou une colonne de données. Le paramètre par défaut est 75 %.

affectation de terme

Les termes métier inclus dans l'enrichissement des métadonnées (par le biais de la sélection de catégories) peuvent être automatiquement affectés ou proposés pour une colonne. Les seuils déterminent le niveau de confiance minimal pour un terme à attribuer ou à suggérer. Le seuil d'affectation doit être supérieur au seuil de suggestion. Notez que les affectations de terme n'affectent pas les affectations de classe de données. Si un terme associé à une classe de données est affecté à une colonne par un modèle ML ou par une correspondance de nom, la classe de données associée n'est pas automatiquement affectée également.

Des classifications connexes peuvent également être attribuées automatiquement pour les termes attribués automatiquement.

Vous pouvez contrôler ce comportement en activant ou en désactivant l'option d'attribution de la classification pour les termes. Voir Attribution de classification.

Seuil d'affectation

Détermine le pourcentage de valeurs correspondantes qui doivent être dépassées pour qu'un terme soit affecté automatiquement à un actif de données ou à une colonne. Le paramètre par défaut est 90 %.

Seuil de suggestion

Détermine le pourcentage de valeurs correspondantes qui doivent être dépassées pour qu'un terme soit suggéré pour un actif de données ou une colonne. Le paramètre par défaut est 75 %.

Conseil: Si l'affectation sémantique des termes est sélectionnée comme l'une des méthodes d'affectation des termes, envisagez d'abaisser ce seuil à une valeur comprise entre 65 % et 70 %. Dans le cas contraire, les termes renvoyés par cette méthode risquent de ne pas être pris en compte pour l'attribution des termes, car les scores de confiance sont généralement inférieurs à ceux des autres méthodes.

Déterminez la méthode d'affectation de terme utilisée dans le projet pour générer des affectations et des suggestions. Les affectations et les suggestions sont effectuées en fonction de la cote de confiance la plus élevée renvoyée par l'une des méthodes. Sélectionnez au moins l'une des méthodes suivantes:

  • Apprentissage automatique: un modèle d'apprentissage automatique est utilisé pour affecter des termes. Vous pouvez définir pour chaque projet si ce modèle est entraîné avec des actifs du projet ou avec des actifs d'un catalogue de votre choix.

  • Affectations basées sur des classes de données : les termes sont attribués en fonction de l'affectation de la classe de données pour une colonne. Un lien approprié entre les classes de données et les termes est une condition préalable à l'obtention de résultats de qualité.

  • Correspondance de nom: les termes sont affectés en fonction de la similarité entre un terme et le nom de l'actif ou de la colonne.

  • Affectation de termes sémantiques: les termes métier spécifiques à un domaine sont affectés et suggérés à l'aide du modèle slate.30m.semantic-automation.c2c . Le modèle prend en compte les noms et les descriptions des actifs et des colonnes, et fait correspondre sémantiquement les termes à ces métadonnées. Ainsi, les termes peuvent être affectés même s'ils ne sont pas des correspondances exactes.

    Conseil: Les indices de confiance de cette méthode sont généralement inférieurs à ceux des autres méthodes. Par conséquent, abaissez le seuil de suggestion à une valeur comprise entre 65 % et 70 % pour que les termes renvoyés par la méthode d'attribution sémantique soient pris en compte pour l'attribution des termes.

Par défaut, les scores de confiance renvoyés par les méthodes d'affectation de terme sélectionnées sont ajustés en fonction des rejets de terme précédents, ce qui affecte la cote de confiance globale.

Si vous ne souhaitez pas que les rejets de terme affectent la cote de confiance, vous pouvez désactiver cette option.

Vous pouvez activer ou désactiver l'option indépendamment des méthodes d'affectation de terme que vous sélectionnez. La portée d'apprentissage que vous définissez s'applique au modèle d'affectation de terme et au modèle d'ajustement de la cote de confiance.

Utilisez des méthodes individuelles pour tester et évaluer les affectations de terme, par exemple, lorsque vous disposez d'un grand nombre de classes de données personnalisées. De cette façon, vous pouvez également déterminer les paramètres de seuil appropriés pour votre projet.

Pour plus d'informations, voir Affectation de terme automatique.

Affectation de classification

Déterminer si des classifications sont également attribuées lorsqu'une classe de données ou un terme connexe est automatiquement attribué à une ressource de données ou à une colonne. Vous pouvez configurer ceci individuellement pour les classes de données et les termes.

Pour les projets créés avant le 23 août 2024, l'attribution automatique de la classification est désactivée par défaut.

Catégories

Vous pouvez limiter l'ensemble de catégories à partir desquelles les utilisateurs peuvent sélectionner lorsqu'ils créent de nouveaux enrichissements de métadonnées aux catégories qui s'alignent avec l'objectif du projet. Notez que cette sélection ne détermine pas les catégories qui sont réellement utilisées dans un enrichissement de métadonnées. Désélectionnez les catégories qui sont pertinentes pour le projet. Les catégories sélectionnées déterminent les termes métier et les classes de données qui peuvent être utilisés pour le profilage et l'affectation automatique de termes. Cette sélection ne limite pas les options des utilisateurs lors de l'affectation manuelle de classes ou de termes de données. Pour les affectations manuelles, les utilisateurs peuvent choisir des classes de données ou des termes métier à partir de toutes les catégories auxquelles ils ont accès.

Important : Les catégories à choisir sont limitées aux catégories auxquelles l'administrateur a accès. Cela peut entraîner des ensembles de catégories différents pour différents administrateurs.

Les modifications apportées à cet ensemble sont reflétées dans les nouveaux enrichissements de métadonnées et lorsque vous éditez un enrichissement de métadonnées existant.

Paramètres de profilage avancés

Ces paramètres s'appliquent au profilage de données avancé si un utilisateur active l'option Sortie externe et qu'ils peuvent être remplacés pour chaque exécution individuelle.

Déterminez si toutes les valeurs distinctes ou un nombre maximal de valeurs distinctes les plus fréquentes sont capturées pour chaque colonne. Le paramètre par défaut consiste à capturer les 1000 valeurs distinctes les plus fréquentes.

Définir l'emplacement de sortie par défaut pour le stockage des valeurs capturées :

  1. Sélectionnez une connexion.
  2. En fonction de la connexion sélectionnée, sélectionnez un schéma et une table, ou sélectionnez un catalogue, un schéma et une table. Vous pouvez sélectionner des catalogues, des schémas et des tables existants. Vous pouvez également créer une nouvelle table dans un schéma existant.

Pour plus d'informations sur les sources de données prises en charge comme cible de sortie, voir la colonne Tables de sortie dans Sources de données prises en charge. Les noms de schéma et de table doivent respecter la convention suivante:

  • Le premier caractère du nom doit être un caractère alphabétique.
  • Le reste du nom peut être composé de caractères alphabétiques, de caractères numériques ou de traits de soulignement.
  • Le nom ne doit pas contenir d'espaces.

Analyse de qualité de base

Définissez le seuil de qualité des données et sélectionnez les contrôles de qualité des données à appliquer lorsque les utilisateurs exécutent une analyse de qualité dans le cadre de l'enrichissement des métadonnées.

Seuil de qualité de données
Détermine le score de qualité de données minimum requis pour qu'un actif soit de qualité suffisante ou bonne. Les scores de qualité de données inférieurs au seuil spécifié sont signalés par un point rouge dans les résultats d'enrichissement. Les scores de qualité de données qui sont égaux ou supérieurs au seuil spécifié sont marqués en vert.
Contrôles de qualité des données
Sélectionnez les contrôles de qualité de données prédéfinis que vous souhaitez appliquer lorsque vous exécutez une analyse de qualité dans le cadre de l'enrichissement des métadonnées. Sélectionnez au moins une vérification. Chaque exécution d'un enrichissement de métadonnées configuré avec l'option Exécuter une analyse de qualité de données de base contribue aux scores de dimension de qualité de données liés aux vérifications sélectionnées. Pour plus d'informations, voir Contrôles de qualité des données prédéfinis.

Sortie de qualité de données

Définissez l'emplacement de sortie par défaut pour le stockage des exceptions de qualité de données et déterminez le nombre maximal d'enregistrements d'exception par contrôle de qualité de données. L'écriture d'exceptions de qualité de données dans une table de base de données doit être activée dans l'actif d'enrichissement de métadonnées.

Nombre maximal d'enregistrements de sortie d'exception

Déterminez combien de problèmes par colonne sont écrits dans la table de sortie au maximum pour chaque contrôle de qualité de données. La valeur par défaut est 100.

Emplacement de sortie

Définir les tables de sortie par défaut pour le stockage des exceptions relatives à la qualité des données :

  1. Sélectionnez une connexion.
  2. En fonction de la connexion choisie, sélectionnez un schéma et une table, ou sélectionnez un catalogue, un schéma et une table pour stocker les exceptions.
  3. Si vous le souhaitez, vous pouvez sélectionner un tableau pour stocker les lignes entières dans lesquelles les problèmes ont été détectés (enregistrements d'exceptions). Vous pouvez sélectionner une table existante dans le schéma où la table des exceptions est créée ou créer une nouvelle table dans ce schéma.

Vous pouvez sélectionner des schémas et des tables existants ou créer de nouvelles tables dans un schéma existant. Pour plus d'informations sur les sources de données prises en charge comme cible de sortie, voir la colonne Tables de sortie dans Sources de données prises en charge. Les noms de schéma et de table doivent respecter la convention suivante:

  • Le premier caractère du nom doit être un caractère alphabétique.
  • Le reste du nom peut être composé de caractères alphabétiques, de caractères numériques ou de traits de soulignement.
  • Le nom ne doit pas contenir d'espaces.

Pour créer une nouvelle table pour la sortie, entrez un nom au lieu de le sélectionner dans les tables disponibles. Notez que le nom de la table ne doit pas contenir de caractères spéciaux.

Pour stocker uniquement les problèmes de qualité, une nouvelle table est créée avec les définitions de colonne suivantes:

asset_id VARCHAR(40),
issue_type VARCHAR(64),
column1 VARCHAR(128),
value1 VARCHAR(64),
column2 VARCHAR(128),
value2 VARCHAR(64)

Pour le stockage des problèmes de qualité et des enregistrements d'exception, une nouvelle table pour les problèmes de qualité est créée avec les définitions de colonne suivantes:

asset_id VARCHAR(40),
issue_type VARCHAR(64),
column VARCHAR(128),
row_id VARCHAR(64)

Une nouvelle table pour le stockage des enregistrements d'exception est créée avec les définitions de colonne suivantes:

asset_id VARCHAR(40),
row_id  VARCHAR(64),
row_data CLOB

Si vous sélectionnez une table existante pour l'un ou l'autre type de sortie, la table sélectionnée doit avoir la structure appropriée pour la sortie prévue.

Si la connexion est verrouillée, vous êtes invité à entrer vos données d'identification personnelles. Il s'agit d'une étape ponctuelle qui déverrouille définitivement la connexion pour vous.

Relations de clé

Une relation de clé se compose d'une clé primaire et d'une clé étrangère et définit une relation entre deux actifs de données dans une base de données relationnelle.

Seuil de suggestion

Définit le niveau de confiance minimal requis pour les relations entre les clés primaire et externe à suggérer. La valeur par défaut est 80%.

Ce seuil est appliqué lorsque vous exécutez une analyse de relation clé de base ; il n'est pas appliqué à une analyse de relation clé approfondie ou à une analyse de chevauchement. Vous pouvez définir des seuils de suggestion pour ces types d'analyse pour chaque exécution individuelle. Voir Identification des relations.

Pour que les relations soient automatiquement attribuées, sélectionnez l'option Attribuer automatiquement et définissez un seuil d’affectation.

Seuil d'affectation

Définit le niveau de confiance minimum requis pour que les relations entre les clés primaires et étrangères soient automatiquement attribuées. Le paramètre par défaut est 90 %.

Lorsqu'une relation de clé est automatiquement attribuée, la clé primaire correspondante dans un actif parent est également attribuée automatiquement. Toutefois, une ressource de données ne peut pas avoir plus d’une clé primaire attribuée. Par conséquent, une seule relation peut être attribuée si plusieurs relations de clé avec différentes clés primaires sont détectées pour un actif. Le candidat relationnel ayant le score de confiance le plus élevé est attribué. Ce score de confiance est calculé sur la base du score de confiance de l'analyse de clé primaire. Si tous les candidats à la relation ont le même score de confiance, aucun d’entre eux n’est attribué.

Ces paramètres sont appliqués lorsque vous exécutez une analyse de base des relations clés. Ils ne s’appliquent pas à l’analyse approfondie des relations clés ni à l’analyse des chevauchements. Pour ces types d'analyse, vous pouvez activer l'affectation automatique des relations et définir un seuil d'affectation pour chaque exécution individuelle. Voir Identification des relations.

En savoir plus

Rubrique parent : Enrichissement de vos données

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus