Um nützliche Ergebnisse für die Metadatenaufbereitung zu erzielen, konfigurieren Sie Standardeinstellungen für alle Metadatenaufbereitungen in einem Projekt. Die Standardeinstellungen tragen auch zur konsistenten Verwendung von Aufbereitungsoptionen bei.
Änderungen an den Schwellenwerteinstellungen oder den ausgewählten Begriffszuordnungsmethoden werden auf neue Metadatenaufbereitungen und auf Aufbereitungsjobs angewendet, die nach der Änderung der Einstellungen ausgeführt werden. Änderungen an der Gruppe der Kategorien werden nur für neue Aufbereitungen angewendet.
- Erforderliche Berechtigungen
- Zum Konfigurieren der Standardeinstellungen für die Metadatenaufbereitung müssen Sie im Projekt über die Rolle Administrator verfügen. Jeder Projektmitarbeiter kann die Einstellungen anzeigen.
Sie können auf eine der folgenden Arten auf die Standardeinstellungen zugreifen:
- Klicken Sie in einem vorhandenen Metadatenanreicherungsasset auf Standardeinstellungen.
- Rufen Sie auf der Seite Verwalten des Projekts Tools > Metadatenaufbereitungauf.
Bearbeiten Sie die Einstellungen nach Bedarf. Ihre Änderungen werden automatisch gespeichert. Bei einigen Einstellungen können Sie die systemdefinierten Standardwerte jederzeit wiederherstellen.
Konfigurieren Sie Standardeinstellungen für diese Features:
- Profilermittlung und Bedingungszuordnung
- Erweiterte Profilermittlungseinstellungen
- Grundlegende Qualitätsanalyse
- Datenqualitätsausgabe
- Analyse der Schlüsselbeziehungen
Sie können Aufbereitungseinstellungen auch mit APIs anstelle der Benutzerschnittstelle erstellen, aktualisieren oder abrufen. Die Links zu den APIs sind im Abschnitt Weitere Informationen aufgelistet.
Profilermittlung und Bedingungszuordnung
Legen Sie Schwellenwerte für die Profilerstellung und die Zuordnung von Geschäftsbegriffen fest, wählen Sie die Methoden für die Begriffszuordnung aus und wählen Sie Kategorien vorab aus. Sie können jederzeit den Standardwert für jede von Ihnen geänderte Schwellenwerteinstellung wiederherstellen.
Optionalität der Dateneingabe
Datenfelder in einer Spalte oder einer unstrukturierten Datei können Nullwerte enthalten, wenn es zulässig ist, dass sie keinen Wert enthalten.
- Null-Schwellenwert
- Bestimmt, ob ein Feld für eine Spalte oder eine unstrukturierte Datei Nullwerte zulässt. Wenn eine Spalte oder Flachdatei Felder ohne Werte enthält, wird der Prozentsatz der gefundenen leeren Felder mit dem festgelegten Schwellenwert verglichen. Wenn er größer-gleich dem Schwellenwert für die Optionalität der Dateneingabe ist, lässt das Feld Nullwerte zu. Wenn im Datenfeld keine Nullwerte vorhanden sind oder der Häufigkeitsprozentsatz kleiner als der Schwellenwert ist, muss das Datenfeld einen Wert aufweisen. Die Standardeinstellung ist 5 %.
Kardinalität
Die Kardinalität einer Spalte kann eindeutig, konstant oder nicht eingeschränkt sein. Der Prozentsatz der eindeutigen unterschiedlichen Werte und der Prozentsatz des häufigsten konstanten Werts, der gefunden wird, wird mit den festgelegten Schwellenwerten verglichen. Der Kardinalitätstyp ist eindeutig oder konstant, wenn der jeweilige Prozentsatz gleich oder größer als der Prozentsatz des Schwellenwerts ist. Andernfalls ist sie nicht eingeschränkt.
- Schwellenwert für Eindeutigkeit
- Legt fest, ob ein Datenfeld eindeutige Werte enthält. Eine Spalte oder eine unstrukturierte Datei wird als eindeutig eingestuft, wenn der Prozentsatz der darin enthaltenen einzelnen Werte größer oder gleich dem von Ihnen angegebenen Schwellenwert ist. Der Standardwert beträgt 50.
- Schwellenwert für Konstante
- Bestimmt, ob eine Spalte oder eine unstrukturierte Datei konstante Werte enthält Ein Feld wird als konstant eingestuft, wenn der Prozentsatz eines darin vorkommenden, konstanten Wertes größer oder gleich dem von Ihnen angegebenen Schwellenwert für Konstante ist. Der Standardwert ist 99 %.
Datenklassenzuordnung
Datenklassen, die in der Metadatenaufbereitung enthalten sind, werden einer Spalte nur während der Profilerstellung automatisch zugeordnet. Begriffszuordnungen haben keine Auswirkung auf Datenklassenzuordnungen. Die Schwellenwerte legen das Mindestkonfidenzniveau für eine Datenklasse fest, die zugeordnet oder vorgeschlagen wird. Der Zuordnungsschwellenwert sollte höher als der Vorschlagsschwellenwert sein.
Verwandte Klassifizierungen können auch automatisch für automatisch zugewiesene Datenklassen zugewiesen werden.
Sie können dieses Verhalten steuern, indem Sie die Option der Klassifizierungszuweisung für Datenklassen aktivieren oder deaktivieren. Siehe Zuordnung der Klassifizierung.
- Zuordnungsschwellenwert
Bestimmt den Mindestprozentsatz der Werte, für die die Datenklasse mit den Kriterien übereinstimmen muss, damit sie automatisch einer Spalte zugeordnet wird Die Standardeinstellung ist 75 %. Diese Einstellung kann durch einen direkt in der Datenklasse definierten Schwellenwert überschrieben werden.
Für die folgenden vordefinierten Datenklassen ist ein Standardschwellenwert festgelegt:
- Stadt (50%)
- Personenname (50%)
- Vorname (50%)
- Zweiter Vorname (50%)
- Nachname (50%)
- Organisationsname (60%)
- Vorschlagsschwellenwert
Bestimmt den minimalen Prozentsatz der Werte, für die die Datenklasse den Kriterien entsprechen muss, die für eine Spalte vorgeschlagen werden sollen. Die Standardeinstellung ist 25 %.
Primärschlüssel
Ein Primärschlüssel kann aus einer oder mehreren Spalten bestehen und jeden Datensatz in einer Tabelle eindeutig identifizieren. Jede Tabelle kann nur einen Primärschlüssel haben.
- Vorschlagsschwellenwert
- Definiert die minimale Konfidenz für eine Spalte oder eine Kombination von Spalten, die als Primärschlüssel vorgeschlagen werden sollen The default setting is 80%.
Anzeigename
Auf der Grundlage eines integrierten Glossars und bestehender Abkürzungen von Geschäftsbegriffen in den für die Anreicherung ausgewählten Kategorien werden mithilfe von Fuzzy Matching semantische Namen für Datenbestände und die darin enthaltenen Spalten als alternative Namen erstellt, die beschreibender sind als die Ausgangsnamen. Diese alternativen Namen können automatisch zugeordnet oder vorgeschlagen werden. Die Schwellenwerte bestimmen den Mindestkonfidenzgrad, ab dem ein semantischer Name zugewiesen oder als Anzeigename vorgeschlagen wird. Der Zuordnungsschwellenwert sollte höher als der Vorschlagsschwellenwert sein.
- Zuordnungsschwellenwert
- Bestimmt die Konfidenz, die überschritten werden muss, damit ein Anzeigename automatisch einem Datenelement oder einer Spalte zugewiesen wird. Die Standardeinstellung ist 90 %.
- Vorschlagsschwellenwert
- Bestimmt die Konfidenz, die überschritten werden muss, damit ein Anzeigename für ein Datenelement oder eine Spalte vorgeschlagen wird. Die Standardeinstellung ist 75 %.
KI-generierte Beschreibung
Generative AI kann Beschreibungen für ganze Datenassets und für die Spalten erstellen, die ein Datenasset enthält. Ein ' granite.8b
-Modell berücksichtigt den Kontext von Assets und Spalten, um aussagekräftige Beschreibungen zu liefern. Diese Beschreibungen können automatisch zugeordnet oder vorgeschlagen werden. Die Schwellenwerte legen das Mindestkonfidenzniveau für eine Beschreibung fest, die zugeordnet oder vorgeschlagen wird. Der Zuordnungsschwellenwert sollte höher als der Vorschlagsschwellenwert sein.
- Zuordnungsschwellenwert
- Bestimmt die Konfidenz, die überschritten werden muss, damit eine generierte Beschreibung automatisch einem Datenelement oder einer Spalte zugeordnet wird. Die Standardeinstellung ist 100%.
- Vorschlagsschwellenwert
- Bestimmt die Konfidenz, die überschritten werden muss, damit eine generierte Beschreibung für ein Datenelement oder eine Spalte vorgeschlagen wird. Die Standardeinstellung ist 75 %.
Begriffszuordnung
Geschäftsbegriffe, die in der Metadatenaufbereitung (durch Kategorieauswahl) enthalten sind, können einer Spalte automatisch zugeordnet oder vorgeschlagen werden. Die Schwellenwerte bestimmen das Mindestkonfidenzniveau für einen Term, der zugeordnet oder vorgeschlagen werden soll. Der Zuordnungsschwellenwert sollte höher als der Vorschlagsschwellenwert sein. Beachten Sie, dass Begriffszuordnungen sich nicht auf Datenklassenzuordnungen auswirken. Wenn ein Term, der einer Datenklasse zugeordnet ist, einer Spalte durch ein ML-Modell oder durch Namensabgleich zugeordnet wird, wird die zugehörige Datenklasse nicht automatisch ebenfalls zugeordnet.
Verwandte Klassifikationen können auch automatisch für automatisch zugewiesene Begriffe vergeben werden.
Sie können dieses Verhalten steuern, indem Sie die Option der Klassifizierungszuweisung für Begriffe aktivieren oder deaktivieren. Siehe Zuordnung der Klassifizierung.
- Zuordnungsschwellenwert
Bestimmt den Prozentsatz der übereinstimmenden Werte, die überschritten werden müssen, damit eine Bedingung automatisch einem Datenasset oder einer Spalte zugeordnet wird. Die Standardeinstellung ist 90 %.
- Vorschlagsschwellenwert
Bestimmt den Prozentsatz der übereinstimmenden Werte, die überschritten werden müssen, damit eine Bedingung für ein Datenasset oder eine Spalte vorgeschlagen wird. Die Standardeinstellung ist 75 %.
Tipp: Wenn die semantische Termzuweisung als eine der Termzuweisungsmethoden ausgewählt wird, sollten Sie in Erwägung ziehen, diesen Schwellenwert auf einen Wert im Bereich von 65 %-70 % zu senken. Andernfalls werden die mit dieser Methode ermittelten Terme möglicherweise nicht für die Termzuordnung berücksichtigt, da die Konfidenzwerte in der Regel niedriger sind als die Werte der anderen Methoden.
Bestimmen Sie, welche Begriffszuordnungsmethode im Projekt verwendet wird, um Zuordnungen und Vorschläge zu generieren. Zuordnungen und Vorschläge basieren auf dem höchsten Konfidenzscore, den eine der Methoden zurückgibt. Wählen Sie mindestens eine der folgenden Methoden aus:
Maschinelles Lernen: Zum Zuweisen von Begriffen wird ein Modell für maschinelles Lernen verwendet. Sie können für jedes Projekt definieren, ob dieses Modell mit Assets aus dem Projekt oder mit Assets aus einem Katalog Ihrer Wahl trainiert wird.
Auf Datenklassen basierende Zuordnungen: Begriffe werden auf der Basis der Datenklassenzuordnung für eine Spalte zugeordnet. Eine geeignete Verknüpfung zwischen Datenklassen und Begriffen ist hier eine Voraussetzung für Qualitätsergebnisse.
Namensabgleich: Begriffe werden basierend auf der Ähnlichkeit zwischen einem Begriff und dem Namen des Assets oder der Spalte zugewiesen.
Zuordnung semantischer Begriffe: Domänenspezifische Geschäftsbegriffe werden mithilfe des
slate.30m.semantic-automation.c2c
-Modells zugeordnet und vorgeschlagen. Das Modell berücksichtigt Namen und Beschreibungen von Assets und Spalten und gleicht Begriffe mit diesen Metadaten semantisch ab. Daher können Begriffe zugewiesen werden, auch wenn sie keine exakten Übereinstimmungen sind.Tipp: Die Konfidenzwerte für diese Methode sind in der Regel niedriger als bei den anderen Methoden. Senken Sie daher den Vorschlagsschwellenwert auf einen Wert zwischen 65 % und 70 %, damit Begriffe, die von der semantischen Termzuordnungsmethode zurückgegeben werden, bei der Termzuordnung berücksichtigt werden.
Standardmäßig werden die Konfidenzscores, die von den ausgewählten Termzuordnungsmethoden zurückgegeben werden, basierend auf vorherigen Termablehnungen angepasst, was sich auf den Gesamtkonfidenzscore auswirkt.
Wenn Sie nicht möchten, dass sich Begriffsablehnungen auf die Konfidenzbewertung auswirken, können Sie diese Option inaktivieren.
Sie können die Option unabhängig von den ausgewählten Bedingungszuordnungsmethoden aktivieren oder inaktivieren. Der von Ihnen festgelegte Trainingsbereich gilt für das Modell für die Begriffszuordnung und für das Modell für die Anpassung des Verlässlichkeitsscores.
Use individual methods for testing and evaluating term assignments, for example, when you have a large set of custom data classes. Auf diese Weise können Sie auch die korrekten Schwellenwerteinstellungen für Ihr Projekt ermitteln.
Weitere Informationen finden Sie unter Automatische Begriffszuordnung.
Klassifizierungszuordnung
Bestimmen Sie, ob Klassifizierungen auch dann zugewiesen werden, wenn eine verwandte Datenklasse oder ein Begriff automatisch einem Datenbestand oder einer Spalte zugewiesen wird. Sie können dies individuell für Datenklassen und Begriffe konfigurieren.
Für Projekte, die vor dem 23. August 2024 erstellt wurden, ist die automatische Klassifizierung standardmäßig deaktiviert.
Kategorien
Sie können die Gruppe von Kategorien, aus denen Benutzer auswählen können, wenn sie neue Metadatenaufbereitungen erstellen, auf die Kategorien beschränken, die dem Zweck des Projekts entsprechen. Beachten Sie, dass diese Auswahl nicht bestimmt, welche Kategorien tatsächlich in einer Metadatenanreicherung verwendet werden. Wählen Sie Kategorien aus, die für das Projekt relevant sind. Die ausgewählten Kategorien bestimmen die Geschäftsbegriffe und Datenklassen, die für die Profilerstellung und automatische Begriffszuordnung verwendet werden können. Diese Auswahl beschränkt nicht die Optionen von Benutzern beim manuellen Zuweisen von Datenklassen oder Begriffen. Bei manuellen Zuordnungen können Benutzer Datenklassen oder Geschäftsbegriffe aus jeder Kategorie auswählen, auf die sie Zugriff haben.
Alle Änderungen an diesem Satz spiegeln sich in neuen Metadatenaufbereitungen und beim Bearbeiten einer vorhandenen Metadatenaufbereitung wider.
Erweiterte Profilermittlungseinstellungen
Diese Einstellungen gelten für die erweiterte Datenprofilerstellung, wenn ein Benutzer die Option Externe Ausgabe aktiviert und bei jeder einzelnen Ausführung überschrieben werden kann.
Stellen Sie fest, ob alle unterschiedlichen Werte oder eine maximale Anzahl der häufigsten unterschiedlichen Werte für jede Spalte erfasst werden. Standardmäßig werden die 1.000 häufigsten unterschiedlichen Werte erfasst.
Legen Sie den Standardausgabespeicherort für die Speicherung der erfassten Werte fest:
- Wählen Sie eine Verbindung aus.
- Je nach gewählter Verbindung wählen Sie ein Schema und eine Tabelle oder einen Katalog, ein Schema und eine Tabelle aus. Sie können aus vorhandenen Katalogen, Schemata und Tabellen auswählen. Sie können auch eine neue Tabelle in einem bestehenden Schema erstellen.
Informationen dazu, welche Datenquellen als Ausgabeziel unterstützt werden, finden Sie in Spalte Ausgabetabellen unter Unterstützte Datenquellen. Schema-und Tabellennamen müssen dieser Konvention entsprechen:
- Das erste Zeichen des Namens muss ein alphabetisches Zeichen sein.
- Der Rest des Namens kann aus alphabetischen Zeichen, numerischen Zeichen oder Unterstreichungszeichen bestehen.
- Der Name darf keine Leerzeichen enthalten.
Grundlegende Qualitätsanalyse
Legen Sie den Datenqualitätsschwellenwert fest und wählen Sie die Datenqualitätsprüfungen aus, die angewendet werden sollen, wenn Benutzer die Qualitätsanalyse als Teil der Metadatenaufbereitung ausführen.
- Schwellenwert für die Datenqualität
- Bestimmt den erforderlichen Mindestdatenqualitätsscore für ein Asset, um eine ausreichende oder gute Qualität zu erreichen. Datenqualitätsscores, die unter dem angegebenen Schwellenwert liegen, werden in den Aufbereitungsergebnissen mit einem roten Punkt markiert. Datenqualitätsscores, die den angegebenen Schwellenwert erreichen oder überschreiten, werden grün markiert.
- Datenqualitätsprüfungen
- Wählen Sie die vordefinierten Datenqualitätsprüfungen aus, die Sie anwenden möchten, wenn Sie die Qualitätsanalyse als Teil der Metadatenaufbereitung ausführen. Wählen Sie mindestens eine Prüfung aus. Jede Ausführung einer Metadatenaufbereitung, die mit der Option Basisdatenqualitätsanalyse ausführen konfiguriert ist, trägt zu den Datenqualitätsdimensionsscores bei, die an die ausgewählten Prüfungen gebunden sind. Weitere Informationen finden Sie unter Vordefinierte Datenqualitätsprüfungen.
Datenqualitätsausgabe
Legen Sie die Standardausgabeposition für das Speichern von Datenqualitätsausnahmen fest und bestimmen Sie die maximale Anzahl von Ausnahmedatensätzen pro Datenqualitätsprüfung. Das Schreiben von Datenqualitätsausnahmen in eine Datenbanktabelle muss im Asset für die Metadatenaufbereitung aktiviert sein.
- Maximale Anzahl der Ausgabedatensätze mit Ausnahmen
Bestimmen Sie, wie viele Probleme pro Spalte maximal für jede Datenqualitätsprüfung in die Ausgabetabelle geschrieben werden. Die Standardeinstellung ist 100.
- Ausgabeposition
Legen Sie die Standard-Ausgabetabellen für die Speicherung von Datenqualitätsausnahmen fest:
- Wählen Sie eine Verbindung aus.
- Je nach gewählter Verbindung wählen Sie ein Schema und eine Tabelle oder einen Katalog, ein Schema und eine Tabelle für die Speicherung der Ausnahmen aus.
- Wählen Sie optional eine Tabelle für die Speicherung der gesamten Zeilen, in denen die Probleme gefunden wurden (Ausnahmeeinträge). Sie können eine vorhandene Tabelle aus dem Schema auswählen, in dem die Ausnahmetabelle erstellt wird, oder eine neue Tabelle in diesem Schema erstellen.
Sie können vorhandene Schemata und Tabellen auswählen oder neue Tabellen in einem vorhandenen Schema erstellen. Informationen dazu, welche Datenquellen als Ausgabeziel unterstützt werden, finden Sie in Spalte Ausgabetabellen unter Unterstützte Datenquellen. Schema-und Tabellennamen müssen dieser Konvention entsprechen:
- Das erste Zeichen des Namens muss ein alphabetisches Zeichen sein.
- Der Rest des Namens kann aus alphabetischen Zeichen, numerischen Zeichen oder Unterstreichungszeichen bestehen.
- Der Name darf keine Leerzeichen enthalten.
Um eine neue Tabelle für die Ausgabe zu erstellen, geben Sie einen Namen ein, anstatt aus den verfügbaren Tabellen auszuwählen. Beachten Sie, dass der Tabellenname keine Sonderzeichen enthalten darf.
Zum Speichern nur der Qualitätsprobleme wird eine neue Tabelle mit den folgenden Spaltendefinitionen erstellt:
asset_id VARCHAR(40), issue_type VARCHAR(64), column1 VARCHAR(128), value1 VARCHAR(64), column2 VARCHAR(128), value2 VARCHAR(64)
Zum Speichern der Qualitätsprobleme und der Ausnahmedatensätze wird eine neue Tabelle für die Qualitätsprobleme mit den folgenden Spaltendefinitionen erstellt:
asset_id VARCHAR(40), issue_type VARCHAR(64), column VARCHAR(128), row_id VARCHAR(64)
Eine neue Tabelle zum Speichern der Ausnahmedatensätze wird mit den folgenden Spaltendefinitionen erstellt:
asset_id VARCHAR(40), row_id VARCHAR(64), row_data CLOB
Wenn Sie eine vorhandene Tabelle für einen Ausgabetyp auswählen, muss die ausgewählte Tabelle die entsprechende Struktur für die gewünschte Ausgabe aufweisen.
Wenn die Verbindung gesperrt ist, werden Sie aufgefordert, Ihre persönlichen Berechtigungsnachweise einzugeben. Dies ist ein einmaliger Schritt, der die Verbindung für Sie permanent entsperrt.
Schlüsselbeziehungen
Eine Schlüsselbeziehung besteht aus einem Primär- und einem Fremdschlüssel und definiert eine Beziehung zwischen zwei Datenbeständen in einer relationalen Datenbank.
- Vorschlagsschwellenwert
Definiert die erforderliche Mindestkonfidenz für Beziehungen zwischen Primär-und Fremdschlüsseln, die vorgeschlagen werden sollen The default setting is 80%.
Dieser Schwellenwert wird angewendet, wenn Sie eine grundlegende Schlüsselbeziehungsanalyse durchführen. Er wird nicht auf eine detaillierte Schlüsselbeziehungsanalyse oder Überlappungsanalyse angewendet. Sie können Schwellenwerte für Vorschläge für diese Analysetypen für jede einzelne Ausführung festlegen. Siehe Beziehungen identifizieren.
Um Beziehungen automatisch zuzuweisen, wählen Sie das Automatisch zuweisen und legen Sie einen Zuweisungsschwellenwert fest.
- Zuordnungsschwellenwert
Definiert die erforderliche Mindestkonfidenz für Beziehungen zwischen Primär- und Fremdschlüsseln, die automatisch zugewiesen werden sollen. Die Standardeinstellung ist 90 %.
Wenn eine Schlüsselbeziehung automatisch zugewiesen wird, wird auch der entsprechende Primärschlüssel in einem übergeordneten Asset automatisch zugewiesen. Einem Datenobjekt kann jedoch nicht mehr als ein Primärschlüssel zugewiesen werden. Werden für einen Vermögenswert mehrere Schlüsselbeziehungen mit unterschiedlichen Primärschlüsseln erkannt, kann daher nur eine Beziehung zugeordnet werden. Der Beziehungskandidat mit dem höchsten Konfidenzwert wird zugewiesen. Dieser Konfidenzwert wird basierend auf dem Konfidenzwert der Primärschlüsselanalyse berechnet. Wenn alle Beziehungskandidaten den gleichen Vertrauenswert haben, wird keiner von ihnen zugewiesen.
Diese Einstellungen werden angewendet, wenn Sie eine grundlegende Schlüsselbeziehungsanalyse ausführen. Sie werden nicht für eine eingehende Analyse der Schlüsselbeziehungen oder Überlappungsanalysen verwendet. Für diese Analysetypen können Sie die automatische Zuordnung von Beziehungen aktivieren und für jeden einzelnen Durchlauf einen Zuordnungsschwellenwert festlegen. Siehe Beziehungen identifizieren.
Weitere Informationen
- Datenabgleich zu Datenklassen hinzufügen
- Automatische Begriffszuordnung
- Primärschlüssel identifizieren
- Beziehungen erkennen
- Hinzufügen eines benutzerdefinierten Dienstes für die automatische Termzuweisung
- IBM Knowledge Catalog API: Einstellungen für die Anreicherung von Metadaten erstellen oder aktualisieren
- IBM Knowledge Catalog API: Abrufen von Einstellungen zur Metadatenanreicherung
Übergeordnetes Thema: Datenassets aufbereiten