0 / 0

Fichier CSV pour l'affectation des termes sur la base de règles

Dernière mise à jour : 04 juil. 2025
Fichier CSV pour l'affectation des termes sur la base de règles

Créez un fichier CSV nommé ikc-term-assignment-rules.csv qui définit les règles de l'affectation à terme et téléchargez-le dans le projet. Le fichier CSV doit être conforme aux règles de formatage.

Règles générales de formatage

Le fichier CSV doit être conforme au format commun et au type MIME pour les fichiers de valeurs séparées par des virgules (CSV) et doit être codé en UTF-8.

Limitations

La taille maximale recommandée du fichier d'importation CSV est de 50 Mo.

Ligne d'en-tête

La ligne d'en-tête du fichier CSV représente les propriétés qui composent la règle et l'action à entreprendre.

Suivez les lignes directrices suivantes pour la ligne d'en-tête :

  • La ligne d'en-tête doit être la première ligne du fichier et ne doit pas être répétée.
  • Séparez les noms de colonnes par une virgule. Si vous créez le fichier dans un éditeur de tableur, les virgules sont ajoutées automatiquement lorsque vous enregistrez le fichier au format CSV.
  • La ligne d'en-tête doit comprendre les colonnes obligatoires pour la règle.
  • Vous pouvez omettre toute colonne facultative.
  • Vous pouvez ajouter d'autres colonnes arbitraires, qui seront ignorées.
  • Utilisez les noms exacts des colonnes dans la ligne d'en-tête. Les noms de colonnes sont sensibles à la casse.
  • Veillez à ce que les noms de colonnes ne comportent pas d'espaces blancs supplémentaires. Les caractères d'espacement peuvent être ajoutés par un tableur ou un éditeur de texte, mais ne sont pas visibles. Si vous recevez une erreur d'importation indiquant que les noms de colonnes sont incorrects, même si vos colonnes sont correctement orthographiées et mises en majuscules, vérifiez la présence d'espaces blancs.

Spécification de la colonne

Pour délimiter les valeurs de différentes colonnes, utilisez une virgule. Si vous créez le fichier dans un éditeur de tableur, les virgules sont ajoutées automatiquement lorsque vous enregistrez le fichier au format CSV.

Pour omettre une valeur pour une colonne, utilisez une virgule directement après la virgule précédente et sans aucun autre caractère. Par exemple, deux virgules consécutives indiquent que la deuxième colonne est vide.

Pour entourer les champs, utilisez des guillemets doubles (").

Chemins d'accès aux catégories de termes

Vous devez spécifier le chemin complet de la catégorie pour un terme. Pour délimiter le chemin de la catégorie, utilisez deux symboles plus grand que (>>) entre chaque niveau de la hiérarchie des catégories et entre le chemin de la catégorie et le nom de l'artefact. Si vous commencez le chemin par >>, la catégorie racine est [uncategorized].

Colonnes de règles

Le fichier CSV peut contenir des colonnes obligatoires et facultatives.

Pour définir la condition de la règle, incluez ces colonnes :

OBJECT_TYPE

Le type d'objet où les termes doivent être attribués. Valeurs valides :

  • asset
  • column

Cette colonne est obligatoire et ne doit pas être vide.

PROPERTY

La propriété doit correspondre. Valeurs valides :

  • name
  • description
  • mostfreqvalues
    L'une des valeurs les plus fréquentes du profil de données. Les règles dotées de cette propriété nécessitent un profilage des données avant de pouvoir être appliquées correctement.
    OBJECT_TYPE doit être column.
  • dataclassname
    Nom de la classe de données affectée à une colonne.
    OBJECT_TYPE doit être column.
  • assetid
    L'identifiant de l'actif de données.

Cette colonne est obligatoire et ne doit pas être vide.

MATCH_STRING

La chaîne de caractères à comparer à la propriété. Vous pouvez définir n'importe quelle valeur. Cette colonne est obligatoire et ne doit pas être vide.

MATCH_TYPE

Décrit la manière dont la chaîne de caractères doit être comparée au bien. Cette colonne est obligatoire et ne doit pas être vide. Valeurs valides :

  • equals
    Correspondance exacte insensible à la casse.
  • equalscs
    Correspondance exacte sensible à la casse.
  • contains
    Correspondance si la propriété contient la chaîne de caractères correspondante. La correspondance est insensible à la casse.
  • containscs
    Correspondance si la propriété contient la chaîne de caractères correspondante. La correspondance est sensible à la casse.

Pour définir quels termes doivent être attribués avec quelle confiance, incluez ces colonnes :

TERM_NAME

Le nom du terme, y compris le chemin d'accès à la catégorie tel que décrit dans Chemin d'accès à la catégorie du terme. Par exemple, Category 1 >> Category2 >> MyTerm.

L'un ou l'autre TERM_NAME ou TERM_ID doit être présent. Vous pouvez spécifier les deux. Dans ce cas, le site TERM_ID est prioritaire. Si vous prévoyez d'utiliser le fichier de règles dans différents systèmes ayant des termes et des hiérarchies de catégories similaires, utilisez des noms de termes plutôt que des identifiants de termes.

TERM_ID

L'ID du terme. Vous pouvez utiliser l'ID de l'artefact ou l'ID global.

L'un ou l'autre TERM_NAME ou TERM_ID doit être présent. Vous pouvez spécifier les deux. Dans ce cas, le site TERM_ID est prioritaire. Si vous prévoyez d'utiliser le fichier de règles dans différents systèmes ayant des termes et des hiérarchies de catégories similaires, utilisez des noms de termes plutôt que des identifiants de termes.

CONFIDENCE

Une valeur flottante entre 0 et 1 qui indique le degré de confiance à attribuer. La valeur par défaut est 1.0 (=100%). Indépendamment de la locale, le point décimal est .

Colonnes supplémentaires que vous pouvez inclure :

ACTIVE

Si vous définissez la valeur no, la règle n'est pas prise en compte lors de l'affectation. Au cours du développement, vous pouvez souhaiter désactiver certaines règles sans les supprimer du fichier CSV.

GROUP

Un groupe de règles qui vous permet de définir des règles d'affectation plus complexes, par exemple, If a column name contains X and its description contains Y, then assign term T1 and T2.

Au moins une condition et une action doivent être définies par groupe de règles.

Options du fichier de règles

Vous pouvez fournir des options supplémentaires pour influencer la manière dont les règles sont appliquées dans le champ de description du fichier de règles téléchargé. Ajouter des lignes au format <option-name>=<option-value>. Le champ de description peut également contenir tout autre texte.

default_confidence_if_missing

Une valeur flottante entre 0 et 1 qui indique une confiance par défaut autre que 1.0 si la colonne CONFIDENCE est vide.

use_expanded_names

Définit si un nom généré doit également être pris en compte lors de l'évaluation des règles. Cette option n'est valable que si les capacités d'enrichissement basées sur l'IA sont activées dans IBM Knowledge Catalog Standard ou IBM Knowledge Catalog Premium.

Valeurs possibles :

  • NEVER: Ne pas prendre en compte les noms générés.
  • SUGGESTED: Considérer un nom généré suggéré.
  • ACCEPTED: Considérons un nom généré attribué.

La valeur par défaut est ACCEPTED.

use_generated_descriptions

Définit si une description générée doit également être considérée comme une description lors de l'évaluation des règles. Cette option n'est valable que si les capacités d'enrichissement basées sur l'IA sont activées dans IBM Knowledge Catalog Standard ou IBM Knowledge Catalog Premium.

Valeurs possibles :

  • NEVER: Ne pas prendre en compte les descriptions générées
  • SUGGESTED: Considérez une suggestion de description générée.
  • ACCEPTED: Considérons une description générée assignée.

La valeur par défaut est ACCEPTED.

Exemples

Exemples de règles

L'exemple suivant décrit trois règles :

  1. Si le nom d'une colonne contient la chaîne de caractères address, attribuez le terme personal data avec un degré de confiance de 100 %. 100% est la valeur par défaut si la colonne CONFIDENCE est vide.
  2. Si le nom d'une colonne contient la chaîne customer, attribuez le terme data subject avec un degré de confiance de 90 %.
  3. Si la description d'un actif contient la chaîne client, attribuez également le terme data subject, mais avec un niveau de confiance de 100 %.

Les noms des termes sont écrits comme un chemin dans l'arbre des catégories : GDPR est une catégorie racine qui contient les termes personal data et data subject.

La colonne COMMENT contient des informations supplémentaires sur la règle mais n'affecte pas l'affectation des termes.

OBJECT_TYPE PROPRIETE TYPE DE MATCH CHAÎNE DE CARACTÈRES MATCH TERM_NAME CONFIANCE COMMENT
colonne nom contient address GDPR >> données personnelles L'adresse est une donnée personnelle
colonne nom contient client GDPR >> personne concernée 0.9 Les clients sont des personnes concernées
actif description contient client GDPR >> personne concernée Les clients sont des personnes concernées

Exemple de groupe de règles

L'exemple suivant montre un groupe de règles G1 qui joint deux conditions et un groupe de règles G2 qui définit deux termes à affecter à une condition :

  1. G1: Si le nom d'une colonne contient address et que sa description contient identifier , attribuez le terme online identifier avec un taux de confiance de 92 %.
  2. G2: Si une colonne comporte postfach (" P.O. Box" en allemand) comme l'une de ses valeurs les plus fréquentes, puis attribuer le terme European Union avec un degré de confiance de 90 % et le terme data subject avec un degré de confiance de 95 %.
OBJECT_TYPE PROPRIETE TYPE DE MATCH CHAÎNE DE CARACTÈRES MATCH TERM_NAME CONFIANCE GROUPE
colonne nom contient address G1
colonne description contient identificateur GDPR >> identifiant en ligne 0.92 G1
colonne valeurs les plus élevées contient postfach GDPR >> Union européenne 0.9 G2
GDPR >> personne concernée 0.95 G2

Exemple de description d'un fichier de règles

L'exemple suivant est une description de fichier de règles valide :

This the best rule file in the world.

default_confidence_if_missing = 0.95
use_expanded_names = ACCEPTED
use_generated_descriptions = SUGGESTED

Closing remarks.

Sujet parent : Paramètres d'enrichissement par défaut