CSV-Datei für die Zuweisung von Begriffen auf der Grundlage von Regeln
Erstellen Sie eine CSV-Datei mit dem Namen ikc-term-assignment-rules.csv
, in der die Regeln für die Termzuordnung definiert sind, und laden Sie sie in das Projekt hoch. Die CSV-Datei muss den Formatierungsregeln entsprechen.
Allgemeine Formatierungsregeln
Die CSV-Datei muss dem Common Format and MIME Type for comma-separated values (CSV) Files entsprechen und in UTF-8 kodiert sein.
Einschränkungen
Die empfohlene maximale Größe der CSV-Importdatei beträgt 50 MB.
Kopfzeile
Die Kopfzeile der CSV-Datei enthält die Eigenschaften, aus denen die Regel besteht, sowie die zu ergreifende Maßnahme.
Befolgen Sie diese Richtlinien für die Kopfzeile:
- Die Kopfzeile muss die erste Zeile in der Datei sein und darf sich nicht wiederholen.
- Trennen Sie die Spaltennamen durch ein Komma. Wenn Sie die Datei in einem Tabellenkalkulationsprogramm erstellen, werden die Kommas automatisch hinzugefügt, wenn Sie die Datei im CSV-Format speichern.
- Die Kopfzeile muss die Pflichtspalten für die Regel enthalten.
- Sie können alle optionalen Spalten weglassen.
- Sie können beliebige andere Spalten hinzufügen, die dann ignoriert werden.
- Verwenden Sie die genauen Spaltennamen in der Kopfzeile. Bei Spaltennamen wird zwischen Groß- und Kleinschreibung unterschieden.
- Achten Sie darauf, dass die Spaltennamen keine zusätzlichen Leerzeichen enthalten. Leerzeichen können von einer Tabellenkalkulation oder einem Texteditor hinzugefügt werden, sind aber nicht sichtbar. Wenn Sie eine Importfehlermeldung erhalten, dass die Spaltennamen falsch sind, obwohl Ihre Spalten richtig geschrieben und großgeschrieben sind, prüfen Sie, ob Leerzeichen vorhanden sind.
Spezifikation der Säule
Verwenden Sie ein Komma, um Werte für verschiedene Spalten zu trennen. Wenn Sie die Datei in einem Tabellenkalkulationsprogramm erstellen, werden die Kommas automatisch hinzugefügt, wenn Sie die Datei im CSV-Format speichern.
Um einen Wert für eine Spalte auszulassen, verwenden Sie ein Komma direkt nach dem vorherigen Komma und ohne weitere Zeichen. Zwei aufeinanderfolgende Kommas bedeuten zum Beispiel, dass die zweite Spalte leer ist.
Verwenden Sie doppelte Anführungszeichen ("
), um Felder einzuschließen.
Begriffskategorie Pfade
Sie müssen den vollständigen Kategoriepfad für einen Begriff angeben. Um den Kategoriepfad abzugrenzen, verwenden Sie zwei Größer-als-Zeichen (>>) zwischen jeder Ebene der Kategorienhierarchie und zwischen dem Kategoriepfad und dem Artefaktnamen. Wenn Sie den Pfad mit >>
beginnen, ist die Stammkategorie [uncategorized].
Regel Spalten
Die CSV-Datei kann obligatorische und optionale Spalten enthalten.
Um die Regelbedingung zu definieren, fügen Sie diese Spalten ein:
OBJECT_TYPE
Die Art des Objekts, dem Begriffe zugewiesen werden sollen. Die gültigen Werte sind im Folgenden aufgelistet:
asset
column
Diese Spalte ist obligatorisch und darf nicht leer sein.
PROPERTY
Die passende Eigenschaft. Die gültigen Werte sind im Folgenden aufgelistet:
name
description
mostfreqvalues
Einer der häufigsten Werte des Datenprofils. Regeln mit dieser Eigenschaft erfordern eine Datenprofilierung, bevor die Regel ordnungsgemäß angewendet werden kann.OBJECT_TYPE
musscolumn
sein.dataclassname
Der Name der Datenklasse, die einer Spalte zugeordnet ist.OBJECT_TYPE
musscolumn
sein.assetid
Die ID des Datenassets.
Diese Spalte ist obligatorisch und darf nicht leer sein.
MATCH_STRING
Die Zeichenkette, die mit der Eigenschaft abgeglichen werden soll. Sie können jeden beliebigen Wert einstellen. Diese Spalte ist obligatorisch und darf nicht leer sein.
MATCH_TYPE
Beschreibt, wie der Match-String mit der Eigenschaft abgeglichen werden soll. Diese Spalte ist obligatorisch und darf nicht leer sein. Die gültigen Werte sind im Folgenden aufgelistet:
equals
Groß- und Kleinschreibung wird nicht berücksichtigt.equalscs
Exakte Übereinstimmung unter Berücksichtigung der Groß-/Kleinschreibung.contains
Übereinstimmung, wenn die Eigenschaft die Übereinstimmungszeichenfolge enthält. Die Groß- und Kleinschreibung wird nicht berücksichtigt.containscs
Übereinstimmung, wenn die Eigenschaft die Übereinstimmungszeichenfolge enthält. Beim Abgleich muss die Groß-/Kleinschreibung beachtet werden.
Um festzulegen, welche Begriffe mit welcher Wahrscheinlichkeit zugeordnet werden sollen, fügen Sie diese Spalten ein:
TERM_NAME
Der Name des Begriffs einschließlich des Kategoriepfads, wie in Begriffskategoriepfad beschrieben. Zum Beispiel
Category 1 >> Category2 >> MyTerm
.Entweder
TERM_NAME
oderTERM_ID
müssen vorhanden sein. Sie können beides angeben. In diesem Fall hat die WebsiteTERM_ID
Vorrang. Wenn Sie planen, die Regeldatei in verschiedenen Systemen mit ähnlichen Begriffen und Kategorienhierarchien zu verwenden, sollten Sie Termnamen anstelle von Term-IDs verwenden.TERM_ID
Die ID des Begriffs. Sie können die Artefakt-ID oder die globale ID verwenden.
Entweder
TERM_NAME
oderTERM_ID
müssen vorhanden sein. Sie können beides angeben. In diesem Fall hat die WebsiteTERM_ID
Vorrang. Wenn Sie planen, die Regeldatei in verschiedenen Systemen mit ähnlichen Begriffen und Kategorienhierarchien zu verwenden, sollten Sie Termnamen anstelle von Term-IDs verwenden.CONFIDENCE
Ein Fließkommawert zwischen 0 und 1, der angibt, wie viel Vertrauen zu vergeben ist. Der Standardwert ist 1.0 (=100%). Unabhängig vom Gebietsschema wird das Dezimalkomma
.
Zusätzliche Spalten, die Sie aufnehmen können:
ACTIVE
Wenn Sie den Wert
no
einstellen, wird die Regel bei der Zuweisung nicht berücksichtigt. Während der Entwicklung kann es vorkommen, dass Sie bestimmte Regeln deaktivieren möchten, ohne sie aus der CSV-Datei zu entfernen.GROUP
Eine Gruppe von Regeln, die es Ihnen ermöglicht, komplexere Zuweisungsregeln aufzustellen, z. B,
If a column name contains X and its description contains Y, then assign term T1 and T2.
Pro Regelgruppe muss mindestens eine Bedingung und eine Aktion definiert werden.
Optionen für Regeldateien
Im Beschreibungsfeld der hochgeladenen Regeldatei können Sie zusätzliche Optionen angeben, um zu beeinflussen, wie die Regeln angewendet werden. Fügen Sie Zeilen im Format <option-name>=<option-value>
hinzu. Das Beschreibungsfeld kann auch einen beliebigen anderen Text enthalten.
default_confidence_if_missing
Ein Float-Wert zwischen 0 und 1, der eine andere Standardkonfidenz als 1.0 angibt, wenn die Spalte
CONFIDENCE
leer ist.use_expanded_names
Legt fest, wann ein generierter Name auch bei der Auswertung von Regeln berücksichtigt werden soll. Diese Option ist nur gültig, wenn die KI-basierten Anreicherungsfunktionen in IBM Knowledge Catalog Standard oder IBM Knowledge Catalog Premium aktiviert sind.
Mögliche Werte:
NEVER
: Berücksichtigen Sie keine generierten Namen.SUGGESTED
: Überlegen Sie sich einen vorgeschlagenen Namen.ACCEPTED
: Betrachten Sie einen zugewiesenen generierten Namen.
Der Standardwert ist
ACCEPTED
.use_generated_descriptions
Legt fest, wann eine generierte Beschreibung bei der Auswertung von Regeln auch als Beschreibung betrachtet werden soll. Diese Option ist nur gültig, wenn die KI-basierten Anreicherungsfunktionen in IBM Knowledge Catalog Standard oder IBM Knowledge Catalog Premium aktiviert sind.
Mögliche Werte:
NEVER
: Generierte Beschreibungen nicht berücksichtigenSUGGESTED
: Betrachten Sie eine vorgeschlagene generierte Beschreibung.ACCEPTED
: Betrachten Sie eine zugewiesene generierte Beschreibung.
Der Standardwert ist
ACCEPTED
.
Beispiele
Beispiele für Regeln
Das folgende Beispiel beschreibt drei Regeln:
- Wenn eine Spalte einen Namen hat, der die Zeichenfolge
address
enthält, weisen Sie den Begriffpersonal data
mit 100%iger Sicherheit zu. 100% ist der Standardwert, wenn die SpalteCONFIDENCE
leer ist. - Wenn eine Spalte einen Namen hat, der die Zeichenfolge
customer
enthält, weisen Sie den Begriffdata subject
mit 90%iger Sicherheit zu. - Wenn ein Asset eine Beschreibung hat, die die Zeichenfolge
client
enthält, ordnen Sie auch den Begriffdata subject
zu, aber mit 100%iger Sicherheit.
Die Begriffsnamen werden als Pfad im Kategorienbaum geschrieben: GDPR
ist eine Stammkategorie, die die Begriffe personal data
und data subject
enthält.
Die Spalte COMMENT
enthält zusätzliche Informationen über die Regel, hat aber keinen Einfluss auf die Begriffszuordnung.
OBJECT_TYPE | EIGENSCHAFT | MATCH_TYPE | MATCH_STRING | TERM_NAME | KONFIDENZ | COMMENT |
---|---|---|---|---|---|---|
Spalte | Name | enthält | Adresse | GDPR >> personenbezogene Daten | Adresse ist personenbezogene Daten | |
Spalte | Name | enthält | Kunde | GDPR >> Datensubjekt | 0.9 | Kunden sind betroffene Personen |
Asset | Beschreibung | enthält | Client | GDPR >> Datensubjekt | Kunden sind betroffene Personen |
Beispiel für eine Regelgruppe
Das folgende Beispiel zeigt eine Regelgruppe G1
, die zwei Bedingungen verbindet, und eine Regelgruppe G2
, die zwei zuzuordnende Begriffe für eine Bedingung definiert:
G1
: Wenn der Name einer Spalteaddress
und ihre Beschreibungidentifier
enthält, dann ordnen Sie den Begriffonline identifier
mit 92%iger Sicherheit zu.G2
: Wenn eine Spaltepostfach
hat (" P.O. Box" auf Deutsch) als einen seiner häufigsten Werte, dann weisen Sie den BegriffEuropean Union
mit 90%iger Sicherheit und den Begriffdata subject
mit 95%iger Sicherheit zu.
OBJECT_TYPE | EIGENSCHAFT | MATCH_TYPE | MATCH_STRING | TERM_NAME | KONFIDENZ | GRUPPE |
---|---|---|---|---|---|---|
Spalte | Name | enthält | Adresse | G1 | ||
Spalte | Beschreibung | enthält | Kennung | GDPR >> Online-Kennung | 0.92 | G1 |
Spalte | mostfreqvalues | enthält | postfach | GDPR >> Europäische Union | 0.9 | G2 |
GDPR >> Datensubjekt | 0.95 | G2 |
Beschreibung der Musterregeldatei
Das folgende Beispiel ist eine gültige Beschreibung einer Regeldatei:
This the best rule file in the world.
default_confidence_if_missing = 0.95
use_expanded_names = ACCEPTED
use_generated_descriptions = SUGGESTED
Closing remarks.
Übergeordnetes Thema: Standardeinstellungen für die Anreicherung