Automatische Begriffszuordnung
Die automatische Begriffszuordnung ist der Prozess der automatischen Zuordnung von Geschäftsbegriffen zu Datenassets und Assetspalten als Teil der Metadatenaufbereitung.
Zusätzlich zu allen automatisch zugeordneten Geschäftsbegriffen können Sie Begriffe auch manuell zuordnen, indem Sie die Datenasseteigenschaften in einem Projekt oder Katalog bearbeiten oder wenn Sie mit Aufbereitungsergebnissen arbeiten.
Wenn die automatische Begriffszuordnung als Teil der Metadatenaufbereitung konfiguriert wird, werden solche Zuordnungen von mehreren Methoden generiert. Diese Methoden generieren auch Vorschläge für zuzuordnende Begriffe.
Die Begriffe werden basierend auf dem Konfidenzniveau zugeordnet. Zunächst werden diese Zuordnungen als Kandidaten dargestellt, die von Fachleuten und Datenverantwortlichen manuell überprüft und zugeordnet werden können. Die Konfidenz für einen zugewiesenen oder vorgeschlagenen Begriff wird als Prozentwert angezeigt. Dieser Wert stellt die Gesamtkonfidenzdar. Siehe Berechnung der Gesamtkonfidenz. Das Konfidenzniveau für den Fall, dass ein Begriff vorgeschlagen oder automatisch zugewiesen wird, wird durch die Aufbereitungseinstellungen des Projekts bestimmt. Das Standardkonfidenzniveau, das überschritten werden soll, beträgt 75 % für Begriffsvorschläge und 90 % für die automatische Zuweisung von Kandidatenbegriffen. Siehe Standardaufbereitungseinstellungen. Ein Projektadministrator kann diese Einstellungen anpassen.
Es können nur publizierte Geschäftsbegriffe zugeordnet werden. Zugeordnete Begriffe haben keine Auswirkung auf die Datenklassenzuordnung.
Qualität der Begriffszuordnungen
Beachten Sie die folgenden Tipps, um hochwertige Begriffszuordnungen zu erzielen:
Stellen Sie sicher, dass die Kategorien, die Sie in der Metadatenaufbereitung verwenden wollen, ausschließlich relevante Governance-Artefakte enthalten. Möglicherweise möchten Sie dies bereits berücksichtigen, wenn Sie Ihr Geschäftsvokabular einrichten.
Experimentieren Sie mit den Schwellenwerten für Begriffszuordnungen. Das Ändern der Schwellenwerte kann erhebliche Auswirkungen auf die Anzahl der zugeordneten Begriffe haben. Suchen Sie den Schwellenwert, bei dem die Anzahl der falsch-positiven Ergebnisse niedrig ist und nicht zu viele wahr-positive Ergebnisse fehlen.
Analysieren Sie einige der falsch-positiven Ergebnisse, um ein Muster oder einen gültigen Grund zu finden, warum diese Begriffe vorgeschlagen oder zugewiesen wurden. Wenn die meisten falsch-positiven Werte einem bestimmten Algorithmus zugeordnet werden können, können Sie diesen Algorithmus in den Aufbereitungseinstellungen inaktivieren und die Begriffszuordnung erneut ausführen. Überprüfen Sie, ob dadurch die Anzahl der falsch-positiven Ergebnisse reduziert wird.
Achten Sie darauf, das ML-Modell in einem Katalog zu trainieren, in dem Sie nur sorgfältig überprüfte Begriffszuordnungen veröffentlichen. Verwenden Sie vorzugsweise einen einzigen Katalog für das Modelltraining.
Erstellen Sie für Begriffszuordnungen auf der Basis von Spaltendaten oder Metadaten Beziehungen zwischen Begriffen und Datenklassen. Stellen Sie sicher, dass die Datenklassen, die Sie verwenden, keine Fehlalarme erzeugen.
Methoden für die Begriffszuordnung
Sie können alle oder einen Teil der verfügbaren Begriffszuordnungsmethoden verwenden.
Namensabgleich
Die Methode für den Namensabgleich basiert auf der Ähnlichkeit zwischen dem Namen oder den Abkürzungen des Begriffs und dem Namen des Datenassets oder der Spalte. Beispiel: Eine Spalte CREDNUM könnte aufgrund der Ähnlichkeit der beiden Namen einem Begriff Credit Card Number zugeordnet werden. Beim Namensabgleich werden nur Datenasset-und Spaltennamen mit Begriffsnamen und Abkürzungen abgeglichen. Beschreibungen werden nicht berücksichtigt. Die ML-basierte Begriffszuordnung verarbeitet Namen und Beschreibungen.
Basierend auf Datenklassenzuordnung
Die klassenbasierte Zuordnungsmethode generiert Zuordnungen auf der Basis der Datenklassifikation. Wenn eine Datenklasse als Ergebnis einer Spaltenanalyse oder manuell für eine Assetspalte ausgewählt wurde und diese Datenklasse mit einem oder mehreren Geschäftsbegriffen verknüpft ist, werden diese Begriffe vorgeschlagen oder zugeordnet, wenn sie die entsprechenden Schwellenwerte überschreiten. Das Konfidenzniveau des Begriffs entspricht der Konfidenz der Datenklasse, mit der der Begriff verknüpft ist. Beispiel: Eine Spalte COL1, die als E-Mail-Adresse mit 90 % Konfidenz klassifiziert ist, wird wahrscheinlich dem Begriff "E-Mail-Adresse" zugeordnet, wenn die Datenklasse und der Begriff verknüpft sind. Da es keine Ähnlichkeit zwischen dem Namen der Spalte und dem Begriff gibt, ist die Namensabgleichsmethode nicht in der Lage, diese Assoziation herzustellen.
Um die klassenbasierte Zuordnungsmethode zu aktivieren, ist es wichtig, die Datenklasse vor der Ausführung der Begriffszuordnung zu überprüfen, da die entsprechende Verknüpfung eine wichtige Voraussetzung für qualitativ hochwertige Ergebnisse ist.
Maschinelles Lernen
Die ML-Methode (Machine Learning) zum Generieren von Begriffszuordnungen verwendet die integrierten überwachten Modelle für maschinelles Lernen. Diese Modelle umfassen ein Modell für Termzuweisungen und ein Modell für Termentfernungen.
Die ML-Modelle werden basierend auf veröffentlichten Begriffen und auf Begriffszuordnungen trainiert, die in den Trainingsdaten in einem Projekt oder Katalog vorhanden sind. Siehe Trainingsdaten für Modelle für maschinelles Lernen. Wenn keine Begriffszuordnungen verfügbar sind, konzentriert sich das Training für das Begriffszuordnungsmodell auf die linguistische Ähnlichkeit von Wörtern in Namen und Beschreibungen von Begriffen und Datenassets oder Spalten. Begriffe können basierend auf dieser Ähnlichkeit zugewiesen werden. Mit zunehmender Anzahl überprüfter Zuordnungen können Begriffe unabhängig von linguistischer Ähnlichkeit zugeordnet werden, da Begriffszuordnungen für Spalten mit ähnlichen Merkmalen verfügbar werden.
Gen KI-basierte Semesterarbeit
Diese Methode verwendet ein fein abgestimmtes IBM Slate-Fundamentmodell für die Zuweisung und den Vorschlag von domänenspezifischen Geschäftsbegriffen. Das Modell berücksichtigt Namen und Beschreibungen von Assets und Spalten und gleicht Begriffe mit diesen Metadaten semantisch ab. Daher können Begriffe zugewiesen werden, auch wenn sie keine exakten Übereinstimmungen sind.
Abgelehnte Begriffe
Wenn Sie Begriffszuordnungen in den Ergebnissen der Metadatenaufbereitung prüfen, finden Sie möglicherweise Begriffe, die Ihrer Meinung nach für ein Datenasset nicht korrekt sind. Sie können solche Begriffe entfernen und so negatives Feedback geben. Solche Begriffe gelten als abgelehnt. Wenn der Trainingsbereich das Projekt ist, können die Konfidenzbewertungen von Begriffszuordnungen auf der Basis dieser zurückgewiesenen Begriffe angepasst werden, wenn Sie die automatische Begriffszuordnung erneut ausführen. Die einzelnen Konfidenzwerte, die von jeder ausgewählten Begriffszuordnungsmethode zurückgegeben werden, werden durch diesen negativen Konfidenzwert angepasst, um den Gesamtkonfidenzscore eines Begriffs zu berechnen. Siehe Berechnung des Gesamtkonfidenzwerts.
Trainingsdaten für Modelle für maschinelles Lernen
Für jedes Projekt können Sie in den Standardaufbereitungseinstellungen definieren, ob das integrierte ML-Modell, das für die automatische Begriffszuordnung verwendet wird, mit Assets aus dem Projekt oder mit Assets aus einem Katalog Ihrer Wahl trainiert wird. Die Anpassung der Verlässlichkeitsscores basierend auf Ablehnungen ist nur verfügbar, wenn der Trainingsbereich das Projekt ist.
Standardmäßig werden die Modelle im Projekt trainiert. In diesem Fall werden die Modelle mit allen veröffentlichten Geschäftsbegriffen und allen verfügbaren Begriffszuordnungen oder Ablehnungen für Spalten trainiert, die im Projekt als geprüft markiert wurden.
Wenn Sie einen Katalog als Schulungsbereich auswählen, wird das Modell für Begriffszuordnungen mit allen veröffentlichten Geschäftsbegriffen und allen Begriffszuordnungen, die im ausgewählten Katalog verfügbar sind, trainiert. Das Modell für Begriffsablehnungen kann nicht mit Assets aus einem Katalog trainiert werden.
Wann werden die Modelle trainiert?
Das Modelltraining für die integrierten ML-Modelle wird ausgelöst, wenn ein Metadatenanreicherungsjob gestartet wird und eine der folgenden Bedingungen zutrifft:
Es ist noch kein Modell verfügbar.
Seit dem letzten Training des Modells wurde ein neuer Geschäftsbegriff erstellt oder ein vorhandener Begriff aktualisiert. Der Begriff muss keinen Assets oder Spalten zugeordnet werden.
Trainingsumfang Projekt: Mindestens 21 Spalten wurden als überprüft markiert, seit das Modell zuletzt trainiert wurde.
Trainingsbereichskatalog: Zuordnungen für mindestens 21 Spalten im ausgewählten Katalog wurden geändert, weil seit dem letzten Training des Modells Begriffe zugeordnet oder entfernt wurden.
Die letzte Schulung wurde nicht erfolgreich oder innerhalb eines angemessenen Zeitraums abgeschlossen.
Wenn bei der ersten Verwendung des Modells für Anpassungen des Konfidenzscores keine Informationen zu Begriffsablehnungen verfügbar sind, erfolgt das anfängliche Training für dieses Modell später, d. h., es wird zunächst trainiert, wenn Informationen zu abgelehnten Begriffen in einem nachfolgenden Modelltrainingszyklus verfügbar sind.
Berechnung der Gesamtkonfidenz
Eine Methode, die einen Begriff einem Datenasset zuordnet, berechnet eine Konfidenz, bei der es sich um einen numerischen Wert zwischen einem konfigurierbaren Minimum und 1 handelt. Der Mindestwert wird durch den Vorschlagsschwellenwert für die Begriffszuordnung definiert, die in den Standardaufbereitungseinstellungenkonfiguriert werden können.
Die Konfidenz für einen zugewiesenen oder vorgeschlagenen Begriff wird als Prozentwert angezeigt. Dieser Wert stellt die Gesamtkonfidenzdar. Die Gesamtkonfidenz ist das Maximum der Konfidenzwerte, die von den ausgewählten Termzuordnungsmethoden zurückgegeben werden, und kann durch jeden negativen Konfidenzwert, der vom ML-Modell für Termentfernungen zurückgegeben wird, angepasst werden.
Sie können auswählen, ob die Konfidenzwerte, die von den ausgewählten Begriffszuordnungsmethoden zurückgegeben werden, basierend auf zuvor zurückgewiesenen Geschäftsbegriffen angepasst werden.
Beispiel:
Unter der Annahme, dass alle Methoden aktiviert sind, werden die Konfidenzwerte für eine Spalte ADDRESS und den Begriff Home Address:
Name matching: 0.5
Class-based assignment: 0.4
ML-based assignment: 0.3
Semantic assignment: 0.5
ML model for rejections: -0.4
Der tatsächliche Konfidenzwert für jede Methode wird berechnet, indem der für zurückgewiesene Terme zurückgegebene Konfidenzwert subtrahiert wird:
Name matching: 0.5 - 0.4 = 0.1
Class-based assignment: 0.4 - 0.4 = 0
ML-based assignment: 0.3 - 0.4 = -0.1
Semantic assignment: 0.5 - 0.4 = 0.1
Die Gesamtkonfidenz beträgt 0.1 , da dies der höchste für eine Methode berechnete Wert ist.
Wenn derselbe Konfidenzwert für eine Bedingung für mehrere Methoden berechnet wird, wird nur eine automatisch zugewiesen. Die Reihenfolge, in der ein solcher Begriff ausgewählt wird, lautet wie folgt:
- Von der auf Datenklassen basierenden Zuordnungsmethode gefundener Begriff
- Begriff gefunden durch die Methode der semantischen Begriffszuordnung
- Von der ML-Methode gefundener Begriff
- Von der Namensabgleichsmethode gefundener Begriff
Wie neue Analyseergebnisse vorhandene Begriffszuordnungen aktualisieren
Wenn Sie eine Aufbereitung erneut ausführen, aktualisiert ein neues Analyseergebnis Begriffszuordnungen wie folgt:
Typ der Begriffszuordnung | Datenasset oder Spalte wird geprüft | Datenasset oder Spalte wird nicht geprüft |
---|---|---|
Manuell zugeordnete Begriffe | Die Bedingungen bleiben unverändert. | Die Bedingungen bleiben unverändert. |
Abgelehnte Begriffe | Die Bedingungen bleiben unverändert. | Die Bedingungen bleiben unverändert. |
Vorgeschlagene Begriffe | Begriffe werden gelöscht und durch die neuen vorgeschlagenen Begriffe ersetzt. | Begriffe werden gelöscht und durch die neuen vorgeschlagenen Begriffe ersetzt. |
Automatisch zugeordnete Begriffe | Vorhandene Begriffe bleiben unverändert. Neu erkannte Begriffe werden als vorgeschlagene Begriffe hinzugefügt. | Vorhandene Begriffszuordnungen werden aktualisiert. |
Weitere Informationen
Übergeordnetes Thema: Ergebnisse der Metadatenaufbereitung