0 / 0

File CSV per l'assegnazione dei termini in base alle regole

Ultimo aggiornamento: 04 lug 2025
File CSV per l'assegnazione dei termini in base alle regole

Creare un file CSV con il nome ikc-term-assignment-rules.csv che definisca le regole per l'assegnazione dei termini e caricarlo nel progetto. Il file CSV deve essere conforme alle regole di formattazione.

Regole generali di formattazione

Il file CSV deve essere conforme al formato comune e al tipo MIME per i file con valori separati da virgole (CSV) e deve essere codificato in UTF-8.

Limitazioni

La dimensione massima consigliata del file di importazione CSV è di 50 MB.

Riga di intestazione

La riga di intestazione del file CSV rappresenta le proprietà che compongono la regola e l'azione da intraprendere.

Seguire le seguenti indicazioni per la riga di intestazione:

  • La riga di intestazione deve essere la prima riga del file e non deve essere ripetuta.
  • Separare i nomi delle colonne con una virgola. Se si crea il file in un editor di fogli di calcolo, le virgole vengono aggiunte automaticamente quando si salva il file in formato CSV.
  • La riga di intestazione deve includere le colonne obbligatorie per la regola.
  • È possibile omettere qualsiasi colonna opzionale.
  • È possibile aggiungere altre colonne a piacere, che verranno ignorate.
  • Utilizzare i nomi esatti delle colonne nella riga di intestazione. I nomi delle colonne sono sensibili alle maiuscole e alle minuscole.
  • Assicurarsi che i nomi delle colonne non includano spazi bianchi extra. I caratteri di spazio bianco potrebbero essere aggiunti da un foglio di calcolo o da un editor di testo, ma non essere visibili. Se si riceve un errore di importazione che indica che i nomi delle colonne non sono corretti, anche se le colonne sono scritte e scritte in maiuscolo correttamente, verificare la presenza di spazi bianchi.

Specifiche della colonna

Per delimitare i valori di colonne diverse, utilizzare una virgola. Se si crea il file in un editor di fogli di calcolo, le virgole vengono aggiunte automaticamente quando si salva il file in formato CSV.

Per omettere un valore per una colonna, utilizzare una virgola direttamente dopo la virgola precedente e senza altri caratteri. Ad esempio, due virgole consecutive indicano che la seconda colonna è vuota.

Per racchiudere i campi, utilizzare le virgolette doppie (").

Percorsi delle categorie di termini

È necessario specificare il percorso completo della categoria per un termine. Per delimitare il percorso della categoria, utilizzare due simboli di maggiore di (>>) tra ogni livello della gerarchia delle categorie e tra il percorso della categoria e il nome dell'artefatto. Se si inizia il percorso con >>, la categoria principale è [uncategorized].

Colonne di regole

Il file CSV può contenere colonne obbligatorie e facoltative.

Per definire la condizione della regola, includere queste colonne:

OBJECT_TYPE

Il tipo di oggetto a cui assegnare i termini. Valori validi:

  • asset
  • column

Questa colonna è obbligatoria e non deve essere vuota.

PROPERTY

La proprietà da abbinare. Valori validi:

  • name
  • description
  • mostfreqvalues
    Uno qualsiasi dei valori più frequenti del profilo dati. Le regole con questa proprietà richiedono la profilazione dei dati prima che la regola possa essere applicata correttamente.
    OBJECT_TYPE deve essere column.
  • dataclassname
    Il nome della classe di dati assegnata a una colonna.
    OBJECT_TYPE deve essere column.
  • assetid
    L'ID della risorsa dati.

Questa colonna è obbligatoria e non deve essere vuota.

MATCH_STRING

La stringa da confrontare con la proprietà. È possibile impostare qualsiasi valore. Questa colonna è obbligatoria e non deve essere vuota.

MATCH_TYPE

Descrive il modo in cui la stringa di corrispondenza deve essere confrontata con la proprietà. Questa colonna è obbligatoria e non deve essere vuota. Valori validi:

  • equals
    Corrispondenza esatta senza distinzione tra maiuscole e minuscole.
  • equalscs
    Corrispondenza esatta sensibile alle maiuscole.
  • contains
    Corrisponde se la proprietà contiene la stringa di corrispondenza. La corrispondenza non tiene conto delle maiuscole e delle minuscole.
  • containscs
    Corrisponde se la proprietà contiene la stringa di corrispondenza. La corrispondenza è sensibile alle maiuscole e alle minuscole.

Per definire quali termini assegnare con quale confidenza, includere queste colonne:

TERM_NAME

Il nome del termine, compreso il percorso della categoria come descritto in Percorso della categoria del termine. Ad esempio, Category 1 >> Category2 >> MyTerm.

Devono essere presenti TERM_NAME o TERM_ID . È possibile specificare entrambi. In questo caso, TERM_ID ha la precedenza. Se si prevede di utilizzare il file delle regole in sistemi diversi con termini e gerarchie di categorie simili, utilizzare i nomi dei termini invece degli ID dei termini.

TERM_ID

L'ID del termine. È possibile utilizzare l'ID artefatto o l'ID globale.

Devono essere presenti TERM_NAME o TERM_ID . È possibile specificare entrambi. In questo caso, TERM_ID ha la precedenza. Se si prevede di utilizzare il file delle regole in sistemi diversi con termini e gerarchie di categorie simili, utilizzare i nomi dei termini invece degli ID dei termini.

CONFIDENCE

Un valore fluttuante tra 0 e 1 che indica la fiducia da assegnare. Il valore predefinito è 1.0 (=100%). Indipendentemente dal locale, il punto decimale è .

È possibile includere altre colonne:

ACTIVE

Se si imposta il valore no, la regola non viene considerata durante l'assegnazione. Durante lo sviluppo, si potrebbe desiderare di disabilitare alcune regole senza rimuoverle dal file CSV.

GROUP

Un gruppo di regole che consente di impostare regole di assegnazione più complesse, come ad esempio, If a column name contains X and its description contains Y, then assign term T1 and T2.

Per ogni gruppo di regole devono essere definite almeno una condizione e un'azione.

Opzioni del file di regole

È possibile fornire opzioni aggiuntive per influenzare l'applicazione delle regole nel campo della descrizione del file di regole caricato. Aggiungere righe nel formato <option-name>=<option-value>. Il campo della descrizione può contenere anche qualsiasi altro testo.

default_confidence_if_missing

Un valore fluttuante tra 0 e 1 che indica una confidenza predefinita diversa da 1.0 se la colonna CONFIDENCE è vuota.

use_expanded_names

Definisce quando un nome generato deve essere considerato nella valutazione delle regole. Questa opzione è valida solo se le funzionalità di arricchimento basate sulla gen AI sono abilitate in IBM Knowledge Catalog Standard o IBM Knowledge Catalog Premium.

I valori possibili sono:

  • NEVER: Non considerare i nomi generati.
  • SUGGESTED: Considerare un nome generato suggerito.
  • ACCEPTED: Si consideri un nome generato assegnato.

Il valore predefinito è ACCEPTED.

use_generated_descriptions

Definisce quando una descrizione generata deve essere considerata come una descrizione quando vengono valutate le regole. Questa opzione è valida solo se le funzionalità di arricchimento basate sulla gen AI sono abilitate in IBM Knowledge Catalog Standard o IBM Knowledge Catalog Premium.

I valori possibili sono:

  • NEVER: Non considerare le descrizioni generate
  • SUGGESTED: Considerare una descrizione generata suggerita.
  • ACCEPTED: Si consideri una descrizione generata assegnata.

Il valore predefinito è ACCEPTED.

Esempi

Esempi di regole

L'esempio seguente descrive tre regole:

  1. Se una colonna ha un nome che contiene la stringa address, assegnare il termine personal data con una fiducia del 100%. 100% è il valore predefinito se la colonna CONFIDENCE è vuota.
  2. Se una colonna ha un nome che contiene la stringa customer, assegnare il termine data subject con una confidenza del 90%.
  3. Se una risorsa ha una descrizione che contiene la stringa client, assegnare anche il termine data subject, ma con una fiducia del 100%.

I nomi dei termini sono scritti come un percorso nell'albero delle categorie: GDPR è una categoria radice che contiene i termini personal data e data subject.

La colonna COMMENT contiene informazioni aggiuntive sulla regola, ma non influisce sull'assegnazione dei termini.

tipo_oggetto PROPRIETÀ TIPO DI MATCH STRINGA MATCH NOME TERMINE CONFIDENZA COMMENTO
colonna nome contiene indirizzo GDPR >> dati personali L'indirizzo è un dato personale
colonna nome contiene cliente GDPR >> dati personali 0.9 I clienti sono soggetti interessati
asset descrizione contiene cliente GDPR >> dati personali I clienti sono soggetti interessati

Esempio di gruppo di regole

L'esempio seguente mostra un gruppo di regole G1 che unisce due condizioni e un gruppo di regole G2 che definisce due termini da assegnare per una condizione:

  1. G1: Se il nome di una colonna contiene address e la sua descrizione contiene identifier , assegnare il termine online identifier con una confidenza del 92%.
  2. G2: Se una colonna ha postfach (" P.O. Box" in tedesco) come uno dei suoi valori più frequenti, quindi assegnare il termine European Union con una confidenza del 90% e il termine data subject con una confidenza del 95%.
tipo_oggetto PROPRIETÀ TIPO DI MATCH STRINGA MATCH NOME TERMINE CONFIDENZA GRUPPO
colonna nome contiene indirizzo G1
colonna descrizione contiene identificativo GDPR >> identificatore online 0.92 G1
colonna valori più frequenti contiene postfach GDPR >> Unione Europea 0.9 G2
GDPR >> dati personali 0.95 G2

Descrizione del file di regole di esempio

Il seguente esempio è una descrizione valida di un file di regole:

This the best rule file in the world.

default_confidence_if_missing = 0.95
use_expanded_names = ACCEPTED
use_generated_descriptions = SUGGESTED

Closing remarks.

Argomento principale: Impostazioni di arricchimento predefinite