File CSV per l'assegnazione dei termini in base alle regole
Creare un file CSV con il nome ikc-term-assignment-rules.csv
che definisca le regole per l'assegnazione dei termini e caricarlo nel progetto. Il file CSV deve essere conforme alle regole di formattazione.
Regole generali di formattazione
Il file CSV deve essere conforme al formato comune e al tipo MIME per i file con valori separati da virgole (CSV) e deve essere codificato in UTF-8.
Limitazioni
La dimensione massima consigliata del file di importazione CSV è di 50 MB.
Riga di intestazione
La riga di intestazione del file CSV rappresenta le proprietà che compongono la regola e l'azione da intraprendere.
Seguire le seguenti indicazioni per la riga di intestazione:
- La riga di intestazione deve essere la prima riga del file e non deve essere ripetuta.
- Separare i nomi delle colonne con una virgola. Se si crea il file in un editor di fogli di calcolo, le virgole vengono aggiunte automaticamente quando si salva il file in formato CSV.
- La riga di intestazione deve includere le colonne obbligatorie per la regola.
- È possibile omettere qualsiasi colonna opzionale.
- È possibile aggiungere altre colonne a piacere, che verranno ignorate.
- Utilizzare i nomi esatti delle colonne nella riga di intestazione. I nomi delle colonne sono sensibili alle maiuscole e alle minuscole.
- Assicurarsi che i nomi delle colonne non includano spazi bianchi extra. I caratteri di spazio bianco potrebbero essere aggiunti da un foglio di calcolo o da un editor di testo, ma non essere visibili. Se si riceve un errore di importazione che indica che i nomi delle colonne non sono corretti, anche se le colonne sono scritte e scritte in maiuscolo correttamente, verificare la presenza di spazi bianchi.
Specifiche della colonna
Per delimitare i valori di colonne diverse, utilizzare una virgola. Se si crea il file in un editor di fogli di calcolo, le virgole vengono aggiunte automaticamente quando si salva il file in formato CSV.
Per omettere un valore per una colonna, utilizzare una virgola direttamente dopo la virgola precedente e senza altri caratteri. Ad esempio, due virgole consecutive indicano che la seconda colonna è vuota.
Per racchiudere i campi, utilizzare le virgolette doppie ("
).
Percorsi delle categorie di termini
È necessario specificare il percorso completo della categoria per un termine. Per delimitare il percorso della categoria, utilizzare due simboli di maggiore di (>>) tra ogni livello della gerarchia delle categorie e tra il percorso della categoria e il nome dell'artefatto. Se si inizia il percorso con >>
, la categoria principale è [uncategorized].
Colonne di regole
Il file CSV può contenere colonne obbligatorie e facoltative.
Per definire la condizione della regola, includere queste colonne:
OBJECT_TYPE
Il tipo di oggetto a cui assegnare i termini. Valori validi:
asset
column
Questa colonna è obbligatoria e non deve essere vuota.
PROPERTY
La proprietà da abbinare. Valori validi:
name
description
mostfreqvalues
Uno qualsiasi dei valori più frequenti del profilo dati. Le regole con questa proprietà richiedono la profilazione dei dati prima che la regola possa essere applicata correttamente.OBJECT_TYPE
deve esserecolumn
.dataclassname
Il nome della classe di dati assegnata a una colonna.OBJECT_TYPE
deve esserecolumn
.assetid
L'ID della risorsa dati.
Questa colonna è obbligatoria e non deve essere vuota.
MATCH_STRING
La stringa da confrontare con la proprietà. È possibile impostare qualsiasi valore. Questa colonna è obbligatoria e non deve essere vuota.
MATCH_TYPE
Descrive il modo in cui la stringa di corrispondenza deve essere confrontata con la proprietà. Questa colonna è obbligatoria e non deve essere vuota. Valori validi:
equals
Corrispondenza esatta senza distinzione tra maiuscole e minuscole.equalscs
Corrispondenza esatta sensibile alle maiuscole.contains
Corrisponde se la proprietà contiene la stringa di corrispondenza. La corrispondenza non tiene conto delle maiuscole e delle minuscole.containscs
Corrisponde se la proprietà contiene la stringa di corrispondenza. La corrispondenza è sensibile alle maiuscole e alle minuscole.
Per definire quali termini assegnare con quale confidenza, includere queste colonne:
TERM_NAME
Il nome del termine, compreso il percorso della categoria come descritto in Percorso della categoria del termine. Ad esempio,
Category 1 >> Category2 >> MyTerm
.Devono essere presenti
TERM_NAME
oTERM_ID
. È possibile specificare entrambi. In questo caso,TERM_ID
ha la precedenza. Se si prevede di utilizzare il file delle regole in sistemi diversi con termini e gerarchie di categorie simili, utilizzare i nomi dei termini invece degli ID dei termini.TERM_ID
L'ID del termine. È possibile utilizzare l'ID artefatto o l'ID globale.
Devono essere presenti
TERM_NAME
oTERM_ID
. È possibile specificare entrambi. In questo caso,TERM_ID
ha la precedenza. Se si prevede di utilizzare il file delle regole in sistemi diversi con termini e gerarchie di categorie simili, utilizzare i nomi dei termini invece degli ID dei termini.CONFIDENCE
Un valore fluttuante tra 0 e 1 che indica la fiducia da assegnare. Il valore predefinito è 1.0 (=100%). Indipendentemente dal locale, il punto decimale è
.
È possibile includere altre colonne:
ACTIVE
Se si imposta il valore
no
, la regola non viene considerata durante l'assegnazione. Durante lo sviluppo, si potrebbe desiderare di disabilitare alcune regole senza rimuoverle dal file CSV.GROUP
Un gruppo di regole che consente di impostare regole di assegnazione più complesse, come ad esempio,
If a column name contains X and its description contains Y, then assign term T1 and T2.
Per ogni gruppo di regole devono essere definite almeno una condizione e un'azione.
Opzioni del file di regole
È possibile fornire opzioni aggiuntive per influenzare l'applicazione delle regole nel campo della descrizione del file di regole caricato. Aggiungere righe nel formato <option-name>=<option-value>
. Il campo della descrizione può contenere anche qualsiasi altro testo.
default_confidence_if_missing
Un valore fluttuante tra 0 e 1 che indica una confidenza predefinita diversa da 1.0 se la colonna
CONFIDENCE
è vuota.use_expanded_names
Definisce quando un nome generato deve essere considerato nella valutazione delle regole. Questa opzione è valida solo se le funzionalità di arricchimento basate sulla gen AI sono abilitate in IBM Knowledge Catalog Standard o IBM Knowledge Catalog Premium.
I valori possibili sono:
NEVER
: Non considerare i nomi generati.SUGGESTED
: Considerare un nome generato suggerito.ACCEPTED
: Si consideri un nome generato assegnato.
Il valore predefinito è
ACCEPTED
.use_generated_descriptions
Definisce quando una descrizione generata deve essere considerata come una descrizione quando vengono valutate le regole. Questa opzione è valida solo se le funzionalità di arricchimento basate sulla gen AI sono abilitate in IBM Knowledge Catalog Standard o IBM Knowledge Catalog Premium.
I valori possibili sono:
NEVER
: Non considerare le descrizioni generateSUGGESTED
: Considerare una descrizione generata suggerita.ACCEPTED
: Si consideri una descrizione generata assegnata.
Il valore predefinito è
ACCEPTED
.
Esempi
Esempi di regole
L'esempio seguente descrive tre regole:
- Se una colonna ha un nome che contiene la stringa
address
, assegnare il terminepersonal data
con una fiducia del 100%. 100% è il valore predefinito se la colonnaCONFIDENCE
è vuota. - Se una colonna ha un nome che contiene la stringa
customer
, assegnare il terminedata subject
con una confidenza del 90%. - Se una risorsa ha una descrizione che contiene la stringa
client
, assegnare anche il terminedata subject
, ma con una fiducia del 100%.
I nomi dei termini sono scritti come un percorso nell'albero delle categorie: GDPR
è una categoria radice che contiene i termini personal data
e data subject
.
La colonna COMMENT
contiene informazioni aggiuntive sulla regola, ma non influisce sull'assegnazione dei termini.
tipo_oggetto | PROPRIETÀ | TIPO DI MATCH | STRINGA MATCH | NOME TERMINE | CONFIDENZA | COMMENTO |
---|---|---|---|---|---|---|
colonna | nome | contiene | indirizzo | GDPR >> dati personali | L'indirizzo è un dato personale | |
colonna | nome | contiene | cliente | GDPR >> dati personali | 0.9 | I clienti sono soggetti interessati |
asset | descrizione | contiene | cliente | GDPR >> dati personali | I clienti sono soggetti interessati |
Esempio di gruppo di regole
L'esempio seguente mostra un gruppo di regole G1
che unisce due condizioni e un gruppo di regole G2
che definisce due termini da assegnare per una condizione:
G1
: Se il nome di una colonna contieneaddress
e la sua descrizione contieneidentifier
, assegnare il termineonline identifier
con una confidenza del 92%.G2
: Se una colonna hapostfach
(" P.O. Box" in tedesco) come uno dei suoi valori più frequenti, quindi assegnare il termineEuropean Union
con una confidenza del 90% e il terminedata subject
con una confidenza del 95%.
tipo_oggetto | PROPRIETÀ | TIPO DI MATCH | STRINGA MATCH | NOME TERMINE | CONFIDENZA | GRUPPO |
---|---|---|---|---|---|---|
colonna | nome | contiene | indirizzo | G1 | ||
colonna | descrizione | contiene | identificativo | GDPR >> identificatore online | 0.92 | G1 |
colonna | valori più frequenti | contiene | postfach | GDPR >> Unione Europea | 0.9 | G2 |
GDPR >> dati personali | 0.95 | G2 |
Descrizione del file di regole di esempio
Il seguente esempio è una descrizione valida di un file di regole:
This the best rule file in the world.
default_confidence_if_missing = 0.95
use_expanded_names = ACCEPTED
use_generated_descriptions = SUGGESTED
Closing remarks.
Argomento principale: Impostazioni di arricchimento predefinite