Sie können einer Datenklasse einen Datenabgleich hinzufügen, um festzulegen, wie Datenklassen automatisch zugeordnet werden. Wählen Sie eine Abgleichmethode aus, um anzugeben, wie Datenassets während der Datenanalyse automatisch zu Datenklassen zugeordnet werden sollen.
Standardmäßig werden übereinstimmende Daten auf "Kein automatischer Abgleich" gesetzt, d. h., Sie können die Datenklasse nur manuell einer Spalte zuweisen. Damit eine Datenklasse automatisch zugeordnet werden kann, müssen Sie einen Datenabgleich definieren.
So fügen Sie einer Datenklasse eine Datenabgleichsmethode hinzu:
Öffnen Sie die Datenklasse und stellen Sie sicher, dass Datenabgleich in der Übersicht zur Datenklasse aktiviert ist.
Hinweis:Eine Datenklasse ist nicht für den Datenabgleich aktiviert, wenn für eine übergeordnete Datenklasse übereinstimmende Daten inaktiviert sind. Entwurfsdatenklassen können nicht für den Datenabgleich verwendet werden. Inaktive Datenklassen können verwendet werden, um anzugeben, wie Daten klassifiziert werden. Sie wirken sich erst auf Aktionen aus, wenn sie aktiviert werden.
Klicken Sie auf Bearbeiten neben dem Feld Abgleichmethode, um auszuwählen, wie die Kriterien zur Übereinstimmung angegeben werden. Die meisten Methoden enthalten Daten- und Spaltenabgleichkriterien. Abhängig von den implementierten Services sind die folgenden Abgleichmethoden verfügbar:
Kein automatischer Abgleich
Mit einer Liste gültiger Werte abgleichen - Mithilfe eines Wörterverzeichnis aus gültigen Werten wird festgestellt, ob jeder Wert einer Datenbankspalte zur Datenklasse gehört.
Abgleich mit Referenzdaten -Codes aus einem Referenzdataset werden verwendet, um festzustellen, ob jeder Wert einer Datenbankspalte zur Datenklasse gehört.
Übereinstimmung mit Kriterien in einem regulären Ausdruck - Mithilfe eines regulären Ausdrucks wird festgestellt, ob jeder Wert einer Datenbankspalte zur Datenklasse gehört.
Weitere Übereinstimmungskriterien -Der Abgleich basiert nur auf dem regulären Ausdruck, der auf den Spaltennamen und/oder den angegebenen Datentyp der Spalte angewendet werden soll. Es gibt keine weiteren Kriterien zur Auswertung der Spaltenwerte. Andere Übereinstimmungskriterien werden angewendet, bevor die Hauptabgleichsmethode angewendet wird. Nur wenn der Name oder der Datentyp der Spalte oder beides mit dem übereinstimmt, was als andere Übereinstimmungskriterien angegeben wurde, werden die Spaltenwerte anhand der wichtigsten Übereinstimmungskriterien ausgewertet.
Geben Sie die Informationen zum Definieren übereinstimmender Daten und anderer Übereinstimmungskriterien ein, die für Ihre ausgewählte Abgleichmethode erforderlich sind, und wählen Sie einen Schwellenwert aus.
Optional: Legen Sie eine übereinstimmende Priorität fest. Wählen Sie einen Wert zwischen -2147483648 und 2147483647 aus, um die Priorität der Datenklasse zu ermitteln.
Veröffentlichen Sie die Datenklasse.
Hinweise zum Aktivieren und Inaktivieren übereinstimmender Daten:
- Für eine Datenklasse ist kein Datenabgleich aktiviert, wenn der Datenabgleich für die übergeordnete Datenklasse inaktiviert ist.
- Wenn Sie den Datenabgleich für eine Datenklasse inaktivieren, wird auch der Datenabgleich für abhängige Datenklassen inaktiviert.
Übergeordnete Datenklasse
Die übergeordnete Datenklasse wird verwendet, um die Datenklasse in Beziehungen mit über- und untergeordneten Elementen zu organisieren. Sie fungiert auch als Art "Vorfilter", wenn eine automatische Datenabgleichmethode verwendet wird: Wenn eine übergeordnete Datenklasse eine übereinstimmende Datenmethode hat, werden die Datenabgleichmethoden für die untergeordneten Datenklassen nur dann ausgewertet, wenn die Datenabgleichmethode für die übergeordnete Datenklasse eine positive Übereinstimmung zurückgegeben hat. D. h., wenn Sie eine übergeordnete Datenklasse definieren, wirkt sich dies auf die Kriterien aus, die vom Datenklassifikationsprozess verwendet werden, um zu entscheiden, ob die Datenklasse einem analysierten Datenfeld zugeordnet werden soll oder nicht.
Schwellenwert
Dieses Feld stellt die minimale Konfidenz dar, die ein Datenklassenkandidat in einer Spalte haben sollte, damit diese Datenklasse tatsächlich der Spalte zugeordnet wird. Beispiel: Sie definieren den Schwellenwert für eine Klasse als 90%. Während der Analyse entspricht eine Spalte der Datenklasse mit einer Konfidenz von 95% und eine weitere Spalte mit einer Konfidenz von 89%. Da der Schwellenwert 90% beträgt, wird die Datenklasse nur der ersten Spalte zugeordnet.
Senken Sie den Schwellenwert, wenn die Datenklassenzuordnung ausgeführt werden soll, auch wenn nicht alle Daten mit der Datenklasse übereinstimmen. Sie können dies tun, wenn die Datenqualität nicht optimal ist, und auch in Fällen, in denen Sie wissen, dass die Definition der Abgleichmethode nicht 100 % des gesamten Bereichs aller möglichen Werte abdeckt. Ein gutes Beispiel ist ein Klassifikationsmerkmal zur Erkennung von Ortsnamen. Es ist nicht praktikabel, eine genaue Werteliste zu definieren, die alle Ortsnamen weltweit (einschließlich der kleinsten Orte) enthält. Eine sinnvollere Vorgehensweise wäre, eine Liste der 100 größten Orte einzugeben und den Schwellenwert zu verringern, um der Tatsache Rechnung zu tragen, dass Sie nicht erwarten, dass alle Werte in einer Spalte eine dieser 100 größten Städte sind, sondern dass eine Klassifizierung positiv sein sollte, selbst wenn genügend Werte (< 100%) in dieser Liste der 100 größten Städte gefunden werden.
Das Festlegen eines Schwellenwerts ist optional. Für die Metadatenaufbereitung wird der auf Projektebene definierte Schwellenwert verwendet, wenn Sie keinen Schwellenwert für die Datenklasse direkt festlegen. Ein Schwellenwert, der für die Datenklasse festgelegt wird, hat immer Vorrang vor der Projekteinstellung. Siehe Einstellungen für Datenklassenzuordnung.
Für die folgenden vordefinierten Datenklassen ist in der Datenklassendefinition ein Standardschwellenwert festgelegt:
Datenklasse | Schwellenwert |
---|---|
Ort | 50°% |
Person Name | 50°% |
Vorname | 50°% |
Middle Name | 50°% |
Last Name | 50°% |
Organization Name | 60 % |
Priorität
Die Priorität der Datenklasse bestimmt die Reihenfolge, in der Kandidatendatenklassen zur abgeleiteten Datenklasse werden sollen. Nur Datenklassen mit einer Konfidenz oberhalb des Konfidenzschwellenwerts werden zugeordnet. Wenn Daten mehreren Datenklassen entsprechen, wird die Datenklasse mit der höchsten Priorität und einer Konfidenz über dem Konfidenzschwellenwert zugeordnet.
Einige vordefinierte Datenklassen haben eine Prioritätsgruppe. Andernfalls ist die Standardpriorität 10 für vordefinierte Datenklassen mit dem übereinstimmenden Bereich Wert. Für Datenklassen mit dem übereinstimmenden Bereich Spalteist die Standardpriorität 0. Damit eine angepasste Datenklasse Vorrang vor einer vordefinierten Datenklasse hat, muss sie mit einer höheren Priorität definiert werden.
Datenklasse | Priorität |
---|---|
Address Line 1 | 12 |
Address Line 2 | 12 |
Address Line 3 | 12 |
Boolesch | 16 |
Canada Province Code | 14. |
Canada Province Name | 12 |
Ort | 7 |
Code erstellen | -10 |
Country Code | 13. |
Country Name | 12 |
Vorname | 10 |
Geschlecht | 16 |
Identifier | -10 |
Indicator | -10 |
Last Name | 7 |
Middle Name | 10 |
Unternehmen | 7 |
Person Name | 7 |
Quantity | -10 |
Text | -10 |
US County | 8 |
US State Code | 14. |
US State Name | 12 |
Abgleich mit einer Liste gültiger Werte
Wenn Sie Daten mit einer Liste gültiger Werte abgleichen, erstellen Sie eine Liste gültiger Werte, die Ihre Daten auf der Ebene der Werte einer Datenbankspalte klassifizieren. Sie müssen die Werte einzeln angeben. Daher wird diese Methode für eine kleine Gruppe von Werten empfohlen. Bei längeren Listen können Sie die Methode Abgleich mit Referenzdaten verwenden.
Geben Sie im Abschnitt Mit Liste gültiger Werte abgleichen eine Liste gültiger Werte an.
Kriterien für Textabgleich:
- Groß-/Kleinschreibung beachten
- Bei Auswahl dieser Option werden nur die Werte, die dieselbe Groß-/Kleinschreibung wie die angegebenen gültigen Werte haben, als mit der Datenklasse übereinstimmend klassifiziert. Ist diese Option nicht ausgewählt, wird die Groß-/Kleinschreibung ignoriert.
- Exakter Abstand
- Wenn Sie diese Option auswählen, werden nur exakte Übereinstimmungen positiv klassifiziert. Ist die Option nicht ausgewählt, werden mehrere Leerzeichen zu einem einzelnen Leerzeichen zusammengefasst, bevor die gültigen Werte mit den getesteten Werten verglichen werden. Wenn beispielsweise der gültige Wert
New York
und der getestete WertNew York
lautet, wird der getestete Wert auch dann als übereinstimmend klassifiziert, wenn der gültige Wert mehrere Leerzeichen enthält (New York
). Lautet der getestete Wert dagegenNewYork
(ohne Leerzeichen), wird er als nicht übereinstimmend klassifiziert. - Ganze Wörter
- Wenn Sie diese Option auswählen, werden nur exakte Übereinstimmungen positiv klassifiziert. Ist die Option nicht ausgewählt, werden Werte, die als Unterzeichenfolge gefunden werden, auch als übereinstimmend mit der Datenklasse klassifiziert. Wenn
Paris
der gültige Wert ist und der getestete WertParisienne moonlight
lautet, wird der getestete Wert als übereinstimmend klassifiziert.
Geben Sie dann den Prozentsatz der übereinstimmenden Datenwerte an, die zum Zuordnen dieser Datenklasse erforderlich sind.
Abgleich mit Referenzdaten
Wenn Sie Daten mit einem Referenzdataset abgleichen, wählen Sie ein Referenzdataset aus, um Ihre Daten auf der Ebene der Werte einer Datenbankspalte zu klassifizieren. Ein Referenzdataset besteht mindestens aus den folgenden Spalten:
- Code erstellen
- Wert
Beachten Sie, dass diese Abgleichmethode die Codespalte im Referenzdataset verwendet, um die Datenklasse zu bestimmen.
CSV-Beispieldatei mit einem Beispiel für Landescodes:
code,value
"AND","Andorra"
"ARE","United Arab Emirates"
"AFG","Afghanistan"
"ATG","Antigua And Barbuda"
"AIA","Anguilla"
"ALB","Albania"
"ARM","Armenia"
...
Die Codes in diesem Beispiel, wie z. B. AND
, ARE
, AFG
, können verwendet werden, um die Datenklasse zu ermitteln.
Abgleich mit Kriterien in einem regulären Ausdruck
Ein regulärer Ausdruck wird verwendet, um zu bestimmen, ob die einzelnen Werte einer Datenbankspalte zu der Datenklasse gehören.
Wenn Sie mit Kriterien in einem regulären Ausdruck abgleichen, erstellen Sie einen regulären Ausdruck, der Ihre Daten auf der Ebene der Werte einer Datenbankspalte klassifiziert. Der reguläre Ausdruck muss im JavaScript-Format vorliegen.
Der reguläre Ausdruck gilt für Datenassets mit klarer Struktur, beispielsweise Datenbanken, Tabellen oder Spalten.
Sie können die folgenden Beispiele für reguläre Ausdrücke kopieren und in Kriterien für Spaltennamen einfügen. Geben Sie dann einen Spaltennamen an, um den regulären Ausdruck zu testen. Sie können auch den Datentyp und die Länge des Datenwerts auswählen.
Beispiel - Telefonnummer (Nordamerika)
Dieser reguläre Ausdruck stimmt überein mit:
- 3334445555
- 333.444.5555
- 333-444-5555
- 333 444 5555
- (333) 444 5555
- und alle Kombinationen hiervon
\(?[0-9]{3}\)?[-. ]?[0-9]{3}[-. ]?[0-9]{4}
Beispiel - Geburtsdatum (DOB, Date of Birth)
Dieser reguläre Ausdruck stimmt mit dem Geburtsdatum (DOB, Date of Birth) überein:
<tns:DataClass id="DOB" name="%DOB.name" description="%DOB.description" provider="IBM" example="12-30-2015">
<tns:JavaClassifier
className="com.ibm.infosphere.classification.impl.DOBClassifier" />:
<tns:ColumnNameFilter>
<tns:ColumnNameRegularExpression><![CDATA[dob$|birth(day)?|geburtsdatum|na(issance|cimiento|scita)|urodzenia|(生ま(れた日)?|誕生日)|出生(年月)?]]></tns:ColumnNameRegularExpression>
</tns:ColumnNameFilter>
</tns:DataClass>
Weitere Abgleichkriterien
Der Abgleich basiert auf Kriterien für den Namen und/oder den Datentyp der Spalte. Es gibt keine weiteren Kriterien zur Auswertung der Spaltenwerte. Dieses Kriterium gilt zusätzlich zur ursprünglich ausgewählten Abgleichmethode.
Sie können einen regulären Ausdruck angeben, um übereinstimmende Spaltennamen zu definieren und einen Beispielspaltennamen für den Test anzugeben. Der Spaltendatentyp kann einen beliebigen Typ, einen booleschen Wert, ein Datum oder eine Zahl haben. Sie können auch die minimale und maximale Länge des Datenwerts definieren.
Beispiel für eine Verankerung
Das folgende Beispiel ist eine Verankerung. Die Verankerung funktioniert so wie die Suchfunktion in den meisten Softwareprogrammen auch: nach Text, nach sich selbst oder in einem anderen Text verschachtelt suchen. Wenn Sie die Zeichenfolge Ihres regulären Ausdrucks verankern wollen, verwenden Sie die folgende Syntax:
^
zeichenfolge$
Die Zeichen "^" und "$" verankern die Zeichen in der Zeichenfolge. Das Zeichen "^" stellt den Anfang der Zeichenfolge und "$" das Ende dar, wenn die Zeichen am Anfang bzw. am Ende gefunden werden. Das Zeichen "^" hat diese besondere Bedeutung nur, wenn es das erste Zeichen in einem Muster ist; das Zeichen "$" hat diese Bedeutung nur, wenn es das letzte Zeichen in einem Muster ist.
Wenn Sie z. B. prüfen wollen, ob ein Eigenschaftswert eine bestimmte Zeichenfolge hat, müssen Sie ihn verankern. Beispiel: Eine Bezeichnung in einem Bestellformular lautet "Order", wenn der Kunde nur eine Bestellung hat, und "Orders", wenn der Kunde mehrere Bestellungen hat. Sie möchten nun bestätigen, dass dieser Kunde nur eine Bestellung hat. Ändern Sie dazu in der Texteigenschaft der Bezeichnung den Wert in einen regulären Ausdruck:
^Order$
In diesem Fall ist "Order" der einzige übereinstimmende Wert. "Orders" stimmt nicht überein.
Weitere Informationen
- Details der vordefinierten Datenklassen
- Profile von Assets
- Metadatenaufbereitung erstellen
- IBM Knowledge Catalog Beispiele GitHub
Übergeordnetes Thema: Datenklassen