Fichier CSV pour l'affectation des termes sur la base de règles
Créez un fichier CSV nommé ikc-term-assignment-rules.csv
qui définit les règles de l'affectation à terme et téléchargez-le dans le projet. Le fichier CSV doit être conforme aux règles de formatage.
Règles générales de formatage
Le fichier CSV doit être conforme au format commun et au type MIME pour les fichiers de valeurs séparées par des virgules (CSV) et doit être codé en UTF-8.
Limitations
La taille maximale recommandée du fichier d'importation CSV est de 50 Mo.
Ligne d'en-tête
La ligne d'en-tête du fichier CSV représente les propriétés qui composent la règle et l'action à entreprendre.
Suivez les lignes directrices suivantes pour la ligne d'en-tête :
- La ligne d'en-tête doit être la première ligne du fichier et ne doit pas être répétée.
- Séparez les noms de colonnes par une virgule. Si vous créez le fichier dans un éditeur de tableur, les virgules sont ajoutées automatiquement lorsque vous enregistrez le fichier au format CSV.
- La ligne d'en-tête doit comprendre les colonnes obligatoires pour la règle.
- Vous pouvez omettre toute colonne facultative.
- Vous pouvez ajouter d'autres colonnes arbitraires, qui seront ignorées.
- Utilisez les noms exacts des colonnes dans la ligne d'en-tête. Les noms de colonnes sont sensibles à la casse.
- Veillez à ce que les noms de colonnes ne comportent pas d'espaces blancs supplémentaires. Les caractères d'espacement peuvent être ajoutés par un tableur ou un éditeur de texte, mais ne sont pas visibles. Si vous recevez une erreur d'importation indiquant que les noms de colonnes sont incorrects, même si vos colonnes sont correctement orthographiées et mises en majuscules, vérifiez la présence d'espaces blancs.
Spécification de la colonne
Pour délimiter les valeurs de différentes colonnes, utilisez une virgule. Si vous créez le fichier dans un éditeur de tableur, les virgules sont ajoutées automatiquement lorsque vous enregistrez le fichier au format CSV.
Pour omettre une valeur pour une colonne, utilisez une virgule directement après la virgule précédente et sans aucun autre caractère. Par exemple, deux virgules consécutives indiquent que la deuxième colonne est vide.
Pour entourer les champs, utilisez des guillemets doubles ("
).
Chemins d'accès aux catégories de termes
Vous devez spécifier le chemin complet de la catégorie pour un terme. Pour délimiter le chemin de la catégorie, utilisez deux symboles plus grand que (>>) entre chaque niveau de la hiérarchie des catégories et entre le chemin de la catégorie et le nom de l'artefact. Si vous commencez le chemin par >>
, la catégorie racine est [uncategorized].
Colonnes de règles
Le fichier CSV peut contenir des colonnes obligatoires et facultatives.
Pour définir la condition de la règle, incluez ces colonnes :
OBJECT_TYPE
Le type d'objet où les termes doivent être attribués. Valeurs valides :
asset
column
Cette colonne est obligatoire et ne doit pas être vide.
PROPERTY
La propriété doit correspondre. Valeurs valides :
name
description
mostfreqvalues
L'une des valeurs les plus fréquentes du profil de données. Les règles dotées de cette propriété nécessitent un profilage des données avant de pouvoir être appliquées correctement.OBJECT_TYPE
doit êtrecolumn
.dataclassname
Nom de la classe de données affectée à une colonne.OBJECT_TYPE
doit êtrecolumn
.assetid
L'identifiant de l'actif de données.
Cette colonne est obligatoire et ne doit pas être vide.
MATCH_STRING
La chaîne de caractères à comparer à la propriété. Vous pouvez définir n'importe quelle valeur. Cette colonne est obligatoire et ne doit pas être vide.
MATCH_TYPE
Décrit la manière dont la chaîne de caractères doit être comparée au bien. Cette colonne est obligatoire et ne doit pas être vide. Valeurs valides :
equals
Correspondance exacte insensible à la casse.equalscs
Correspondance exacte sensible à la casse.contains
Correspondance si la propriété contient la chaîne de caractères correspondante. La correspondance est insensible à la casse.containscs
Correspondance si la propriété contient la chaîne de caractères correspondante. La correspondance est sensible à la casse.
Pour définir quels termes doivent être attribués avec quelle confiance, incluez ces colonnes :
TERM_NAME
Le nom du terme, y compris le chemin d'accès à la catégorie tel que décrit dans Chemin d'accès à la catégorie du terme. Par exemple,
Category 1 >> Category2 >> MyTerm
.L'un ou l'autre
TERM_NAME
ouTERM_ID
doit être présent. Vous pouvez spécifier les deux. Dans ce cas, le siteTERM_ID
est prioritaire. Si vous prévoyez d'utiliser le fichier de règles dans différents systèmes ayant des termes et des hiérarchies de catégories similaires, utilisez des noms de termes plutôt que des identifiants de termes.TERM_ID
L'ID du terme. Vous pouvez utiliser l'ID de l'artefact ou l'ID global.
L'un ou l'autre
TERM_NAME
ouTERM_ID
doit être présent. Vous pouvez spécifier les deux. Dans ce cas, le siteTERM_ID
est prioritaire. Si vous prévoyez d'utiliser le fichier de règles dans différents systèmes ayant des termes et des hiérarchies de catégories similaires, utilisez des noms de termes plutôt que des identifiants de termes.CONFIDENCE
Une valeur flottante entre 0 et 1 qui indique le degré de confiance à attribuer. La valeur par défaut est 1.0 (=100%). Indépendamment de la locale, le point décimal est
.
Colonnes supplémentaires que vous pouvez inclure :
ACTIVE
Si vous définissez la valeur
no
, la règle n'est pas prise en compte lors de l'affectation. Au cours du développement, vous pouvez souhaiter désactiver certaines règles sans les supprimer du fichier CSV.GROUP
Un groupe de règles qui vous permet de définir des règles d'affectation plus complexes, par exemple,
If a column name contains X and its description contains Y, then assign term T1 and T2.
Au moins une condition et une action doivent être définies par groupe de règles.
Options du fichier de règles
Vous pouvez fournir des options supplémentaires pour influencer la manière dont les règles sont appliquées dans le champ de description du fichier de règles téléchargé. Ajouter des lignes au format <option-name>=<option-value>
. Le champ de description peut également contenir tout autre texte.
default_confidence_if_missing
Une valeur flottante entre 0 et 1 qui indique une confiance par défaut autre que 1.0 si la colonne
CONFIDENCE
est vide.use_expanded_names
Définit si un nom généré doit également être pris en compte lors de l'évaluation des règles. Cette option n'est valable que si les capacités d'enrichissement basées sur l'IA sont activées dans IBM Knowledge Catalog Standard ou IBM Knowledge Catalog Premium.
Valeurs possibles :
NEVER
: Ne pas prendre en compte les noms générés.SUGGESTED
: Considérer un nom généré suggéré.ACCEPTED
: Considérons un nom généré attribué.
La valeur par défaut est
ACCEPTED
.use_generated_descriptions
Définit si une description générée doit également être considérée comme une description lors de l'évaluation des règles. Cette option n'est valable que si les capacités d'enrichissement basées sur l'IA sont activées dans IBM Knowledge Catalog Standard ou IBM Knowledge Catalog Premium.
Valeurs possibles :
NEVER
: Ne pas prendre en compte les descriptions généréesSUGGESTED
: Considérez une suggestion de description générée.ACCEPTED
: Considérons une description générée assignée.
La valeur par défaut est
ACCEPTED
.
Exemples
Exemples de règles
L'exemple suivant décrit trois règles :
- Si le nom d'une colonne contient la chaîne de caractères
address
, attribuez le termepersonal data
avec un degré de confiance de 100 %. 100% est la valeur par défaut si la colonneCONFIDENCE
est vide. - Si le nom d'une colonne contient la chaîne
customer
, attribuez le termedata subject
avec un degré de confiance de 90 %. - Si la description d'un actif contient la chaîne
client
, attribuez également le termedata subject
, mais avec un niveau de confiance de 100 %.
Les noms des termes sont écrits comme un chemin dans l'arbre des catégories : GDPR
est une catégorie racine qui contient les termes personal data
et data subject
.
La colonne COMMENT
contient des informations supplémentaires sur la règle mais n'affecte pas l'affectation des termes.
OBJECT_TYPE | PROPRIETE | TYPE DE MATCH | CHAÎNE DE CARACTÈRES MATCH | TERM_NAME | CONFIANCE | COMMENT |
---|---|---|---|---|---|---|
colonne | nom | contient | address | GDPR >> données personnelles | L'adresse est une donnée personnelle | |
colonne | nom | contient | client | GDPR >> personne concernée | 0.9 | Les clients sont des personnes concernées |
actif | description | contient | client | GDPR >> personne concernée | Les clients sont des personnes concernées |
Exemple de groupe de règles
L'exemple suivant montre un groupe de règles G1
qui joint deux conditions et un groupe de règles G2
qui définit deux termes à affecter à une condition :
G1
: Si le nom d'une colonne contientaddress
et que sa description contientidentifier
, attribuez le termeonline identifier
avec un taux de confiance de 92 %.G2
: Si une colonne comportepostfach
(" P.O. Box" en allemand) comme l'une de ses valeurs les plus fréquentes, puis attribuer le termeEuropean Union
avec un degré de confiance de 90 % et le termedata subject
avec un degré de confiance de 95 %.
OBJECT_TYPE | PROPRIETE | TYPE DE MATCH | CHAÎNE DE CARACTÈRES MATCH | TERM_NAME | CONFIANCE | GROUPE |
---|---|---|---|---|---|---|
colonne | nom | contient | address | G1 | ||
colonne | description | contient | identificateur | GDPR >> identifiant en ligne | 0.92 | G1 |
colonne | valeurs les plus élevées | contient | postfach | GDPR >> Union européenne | 0.9 | G2 |
GDPR >> personne concernée | 0.95 | G2 |
Exemple de description d'un fichier de règles
L'exemple suivant est une description de fichier de règles valide :
This the best rule file in the world.
default_confidence_if_missing = 0.95
use_expanded_names = ACCEPTED
use_generated_descriptions = SUGGESTED
Closing remarks.
Sujet parent : Paramètres d'enrichissement par défaut