0 / 0

CSV-Datei für die Zuweisung von Begriffen auf der Grundlage von Regeln

Letzte Aktualisierung: 04. Juli 2025
CSV-Datei für die Zuweisung von Begriffen auf der Grundlage von Regeln

Erstellen Sie eine CSV-Datei mit dem Namen ikc-term-assignment-rules.csv , in der die Regeln für die Termzuordnung definiert sind, und laden Sie sie in das Projekt hoch. Die CSV-Datei muss den Formatierungsregeln entsprechen.

Allgemeine Formatierungsregeln

Die CSV-Datei muss dem Common Format and MIME Type for comma-separated values (CSV) Files entsprechen und in UTF-8 kodiert sein.

Einschränkungen

Die empfohlene maximale Größe der CSV-Importdatei beträgt 50 MB.

Kopfzeile

Die Kopfzeile der CSV-Datei enthält die Eigenschaften, aus denen die Regel besteht, sowie die zu ergreifende Maßnahme.

Befolgen Sie diese Richtlinien für die Kopfzeile:

  • Die Kopfzeile muss die erste Zeile in der Datei sein und darf sich nicht wiederholen.
  • Trennen Sie die Spaltennamen durch ein Komma. Wenn Sie die Datei in einem Tabellenkalkulationsprogramm erstellen, werden die Kommas automatisch hinzugefügt, wenn Sie die Datei im CSV-Format speichern.
  • Die Kopfzeile muss die Pflichtspalten für die Regel enthalten.
  • Sie können alle optionalen Spalten weglassen.
  • Sie können beliebige andere Spalten hinzufügen, die dann ignoriert werden.
  • Verwenden Sie die genauen Spaltennamen in der Kopfzeile. Bei Spaltennamen wird zwischen Groß- und Kleinschreibung unterschieden.
  • Achten Sie darauf, dass die Spaltennamen keine zusätzlichen Leerzeichen enthalten. Leerzeichen können von einer Tabellenkalkulation oder einem Texteditor hinzugefügt werden, sind aber nicht sichtbar. Wenn Sie eine Importfehlermeldung erhalten, dass die Spaltennamen falsch sind, obwohl Ihre Spalten richtig geschrieben und großgeschrieben sind, prüfen Sie, ob Leerzeichen vorhanden sind.

Spezifikation der Säule

Verwenden Sie ein Komma, um Werte für verschiedene Spalten zu trennen. Wenn Sie die Datei in einem Tabellenkalkulationsprogramm erstellen, werden die Kommas automatisch hinzugefügt, wenn Sie die Datei im CSV-Format speichern.

Um einen Wert für eine Spalte auszulassen, verwenden Sie ein Komma direkt nach dem vorherigen Komma und ohne weitere Zeichen. Zwei aufeinanderfolgende Kommas bedeuten zum Beispiel, dass die zweite Spalte leer ist.

Verwenden Sie doppelte Anführungszeichen ("), um Felder einzuschließen.

Begriffskategorie Pfade

Sie müssen den vollständigen Kategoriepfad für einen Begriff angeben. Um den Kategoriepfad abzugrenzen, verwenden Sie zwei Größer-als-Zeichen (>>) zwischen jeder Ebene der Kategorienhierarchie und zwischen dem Kategoriepfad und dem Artefaktnamen. Wenn Sie den Pfad mit >> beginnen, ist die Stammkategorie [uncategorized].

Regel Spalten

Die CSV-Datei kann obligatorische und optionale Spalten enthalten.

Um die Regelbedingung zu definieren, fügen Sie diese Spalten ein:

OBJECT_TYPE

Die Art des Objekts, dem Begriffe zugewiesen werden sollen. Die gültigen Werte sind im Folgenden aufgelistet:

  • asset
  • column

Diese Spalte ist obligatorisch und darf nicht leer sein.

PROPERTY

Die passende Eigenschaft. Die gültigen Werte sind im Folgenden aufgelistet:

  • name
  • description
  • mostfreqvalues
    Einer der häufigsten Werte des Datenprofils. Regeln mit dieser Eigenschaft erfordern eine Datenprofilierung, bevor die Regel ordnungsgemäß angewendet werden kann.
    OBJECT_TYPE muss column sein.
  • dataclassname
    Der Name der Datenklasse, die einer Spalte zugeordnet ist.
    OBJECT_TYPE muss column sein.
  • assetid
    Die ID des Datenassets.

Diese Spalte ist obligatorisch und darf nicht leer sein.

MATCH_STRING

Die Zeichenkette, die mit der Eigenschaft abgeglichen werden soll. Sie können jeden beliebigen Wert einstellen. Diese Spalte ist obligatorisch und darf nicht leer sein.

MATCH_TYPE

Beschreibt, wie der Match-String mit der Eigenschaft abgeglichen werden soll. Diese Spalte ist obligatorisch und darf nicht leer sein. Die gültigen Werte sind im Folgenden aufgelistet:

  • equals
    Groß- und Kleinschreibung wird nicht berücksichtigt.
  • equalscs
    Exakte Übereinstimmung unter Berücksichtigung der Groß-/Kleinschreibung.
  • contains
    Übereinstimmung, wenn die Eigenschaft die Übereinstimmungszeichenfolge enthält. Die Groß- und Kleinschreibung wird nicht berücksichtigt.
  • containscs
    Übereinstimmung, wenn die Eigenschaft die Übereinstimmungszeichenfolge enthält. Beim Abgleich muss die Groß-/Kleinschreibung beachtet werden.

Um festzulegen, welche Begriffe mit welcher Wahrscheinlichkeit zugeordnet werden sollen, fügen Sie diese Spalten ein:

TERM_NAME

Der Name des Begriffs einschließlich des Kategoriepfads, wie in Begriffskategoriepfad beschrieben. Zum Beispiel Category 1 >> Category2 >> MyTerm.

Entweder TERM_NAME oder TERM_ID müssen vorhanden sein. Sie können beides angeben. In diesem Fall hat die Website TERM_ID Vorrang. Wenn Sie planen, die Regeldatei in verschiedenen Systemen mit ähnlichen Begriffen und Kategorienhierarchien zu verwenden, sollten Sie Termnamen anstelle von Term-IDs verwenden.

TERM_ID

Die ID des Begriffs. Sie können die Artefakt-ID oder die globale ID verwenden.

Entweder TERM_NAME oder TERM_ID müssen vorhanden sein. Sie können beides angeben. In diesem Fall hat die Website TERM_ID Vorrang. Wenn Sie planen, die Regeldatei in verschiedenen Systemen mit ähnlichen Begriffen und Kategorienhierarchien zu verwenden, sollten Sie Termnamen anstelle von Term-IDs verwenden.

CONFIDENCE

Ein Fließkommawert zwischen 0 und 1, der angibt, wie viel Vertrauen zu vergeben ist. Der Standardwert ist 1.0 (=100%). Unabhängig vom Gebietsschema wird das Dezimalkomma .

Zusätzliche Spalten, die Sie aufnehmen können:

ACTIVE

Wenn Sie den Wert no einstellen, wird die Regel bei der Zuweisung nicht berücksichtigt. Während der Entwicklung kann es vorkommen, dass Sie bestimmte Regeln deaktivieren möchten, ohne sie aus der CSV-Datei zu entfernen.

GROUP

Eine Gruppe von Regeln, die es Ihnen ermöglicht, komplexere Zuweisungsregeln aufzustellen, z. B, If a column name contains X and its description contains Y, then assign term T1 and T2.

Pro Regelgruppe muss mindestens eine Bedingung und eine Aktion definiert werden.

Optionen für Regeldateien

Im Beschreibungsfeld der hochgeladenen Regeldatei können Sie zusätzliche Optionen angeben, um zu beeinflussen, wie die Regeln angewendet werden. Fügen Sie Zeilen im Format <option-name>=<option-value> hinzu. Das Beschreibungsfeld kann auch einen beliebigen anderen Text enthalten.

default_confidence_if_missing

Ein Float-Wert zwischen 0 und 1, der eine andere Standardkonfidenz als 1.0 angibt, wenn die Spalte CONFIDENCE leer ist.

use_expanded_names

Legt fest, wann ein generierter Name auch bei der Auswertung von Regeln berücksichtigt werden soll. Diese Option ist nur gültig, wenn die KI-basierten Anreicherungsfunktionen in IBM Knowledge Catalog Standard oder IBM Knowledge Catalog Premium aktiviert sind.

Mögliche Werte:

  • NEVER: Berücksichtigen Sie keine generierten Namen.
  • SUGGESTED: Überlegen Sie sich einen vorgeschlagenen Namen.
  • ACCEPTED: Betrachten Sie einen zugewiesenen generierten Namen.

Der Standardwert istACCEPTED.

use_generated_descriptions

Legt fest, wann eine generierte Beschreibung bei der Auswertung von Regeln auch als Beschreibung betrachtet werden soll. Diese Option ist nur gültig, wenn die KI-basierten Anreicherungsfunktionen in IBM Knowledge Catalog Standard oder IBM Knowledge Catalog Premium aktiviert sind.

Mögliche Werte:

  • NEVER: Generierte Beschreibungen nicht berücksichtigen
  • SUGGESTED: Betrachten Sie eine vorgeschlagene generierte Beschreibung.
  • ACCEPTED: Betrachten Sie eine zugewiesene generierte Beschreibung.

Der Standardwert istACCEPTED.

Beispiele

Beispiele für Regeln

Das folgende Beispiel beschreibt drei Regeln:

  1. Wenn eine Spalte einen Namen hat, der die Zeichenfolge address enthält, weisen Sie den Begriff personal data mit 100%iger Sicherheit zu. 100% ist der Standardwert, wenn die Spalte CONFIDENCE leer ist.
  2. Wenn eine Spalte einen Namen hat, der die Zeichenfolge customer enthält, weisen Sie den Begriff data subject mit 90%iger Sicherheit zu.
  3. Wenn ein Asset eine Beschreibung hat, die die Zeichenfolge client enthält, ordnen Sie auch den Begriff data subject zu, aber mit 100%iger Sicherheit.

Die Begriffsnamen werden als Pfad im Kategorienbaum geschrieben: GDPR ist eine Stammkategorie, die die Begriffe personal data und data subject enthält.

Die Spalte COMMENT enthält zusätzliche Informationen über die Regel, hat aber keinen Einfluss auf die Begriffszuordnung.

OBJECT_TYPE EIGENSCHAFT MATCH_TYPE MATCH_STRING TERM_NAME KONFIDENZ COMMENT
Spalte Name enthält Adresse GDPR >> personenbezogene Daten Adresse ist personenbezogene Daten
Spalte Name enthält Kunde GDPR >> Datensubjekt 0.9 Kunden sind betroffene Personen
Asset Beschreibung enthält Client GDPR >> Datensubjekt Kunden sind betroffene Personen

Beispiel für eine Regelgruppe

Das folgende Beispiel zeigt eine Regelgruppe G1 , die zwei Bedingungen verbindet, und eine Regelgruppe G2 , die zwei zuzuordnende Begriffe für eine Bedingung definiert:

  1. G1: Wenn der Name einer Spalte address und ihre Beschreibung identifier enthält, dann ordnen Sie den Begriff online identifier mit 92%iger Sicherheit zu.
  2. G2: Wenn eine Spalte postfach hat (" P.O. Box" auf Deutsch) als einen seiner häufigsten Werte, dann weisen Sie den Begriff European Union mit 90%iger Sicherheit und den Begriff data subject mit 95%iger Sicherheit zu.
OBJECT_TYPE EIGENSCHAFT MATCH_TYPE MATCH_STRING TERM_NAME KONFIDENZ GRUPPE
Spalte Name enthält Adresse G1
Spalte Beschreibung enthält Kennung GDPR >> Online-Kennung 0.92 G1
Spalte mostfreqvalues enthält postfach GDPR >> Europäische Union 0.9 G2
GDPR >> Datensubjekt 0.95 G2

Beschreibung der Musterregeldatei

Das folgende Beispiel ist eine gültige Beschreibung einer Regeldatei:

This the best rule file in the world.

default_confidence_if_missing = 0.95
use_expanded_names = ACCEPTED
use_generated_descriptions = SUGGESTED

Closing remarks.

Übergeordnetes Thema: Standardeinstellungen für die Anreicherung