Automatische Begriffszuordnung

Die automatische Begriffszuordnung ist der Prozess, durch den Assets automatisch Geschäftsbegriffen zugeordnet werden. Begriffe können Assets automatisch als Teil der Metadatenaufbereitung zugeordnet werden.

Sie können Geschäftsbegriffe manuell zuordnen, indem Sie die Asseteigenschaften in einem Projekt oder Katalog bearbeiten oder wenn Sie mit Aufbereitungsergebnissen arbeiten.

Wenn die automatische Begriffszuordnung als Teil der Metadatenaufbereitung konfiguriert wird, werden solche Zuordnungen von mehreren Services generiert. Diese Services generieren auch Vorschläge für zuzuweisende Begriffe.

Die Begriffe werden basierend auf dem Konfidenzniveau zugeordnet. Zunächst werden diese Zuordnungen als Kandidaten dargestellt, die von Fachleuten und Datenverantwortlichen manuell überprüft und zugeordnet werden können. Das Konfidenzniveau für den Fall, dass ein Begriff vorgeschlagen oder automatisch zugewiesen wird, wird durch die Aufbereitungseinstellungen des Projekts bestimmt. Das Standardkonfidenzniveau, das überschritten werden soll, beträgt 75 % für Begriffsvorschläge und 90 % für die automatische Zuweisung von Kandidatenbegriffen.

Es können nur publizierte Geschäftsbegriffe zugeordnet werden.

Für die Generierung von Begriffszuordnungen verwendete Services

Die folgenden Services werden zum Generieren von Begriffszuordnungen verwendet:

  • Der auf Klassen basierende Zuordnungsservice generiert Zuordnungen aufgrund der Datenklassifizierung. Wenn eine Datenklasse für ein Asset entweder als Ergebnis der Spaltenanalyse oder manuell ausgewählt wurde und diese Datenklasse mit einer oder mehreren Geschäftsbegriffen verknüpft ist, werden diese Begriffe vorgeschlagen oder zugeordnet, wenn sie die entsprechenden Schwellenwerte überschreiten. Das Konfidenzniveau des Begriffs entspricht dem Konfidenzwert der Datenklasse, mit der er verknüpft ist. Beispiel: Eine Spalte COL1, die als E-Mail-Adresse mit 90 % Konfidenz klassifiziert ist, wird wahrscheinlich dem Begriff "E-Mail-Adresse" zugeordnet, wenn die Datenklasse und der Begriff verknüpft sind.

    Um den klassenbasierten Zuordnungsservice zu aktivieren, ist es wichtig, die Verknüpfung von Datenklasse zum Begriff zu überprüfen, bevor die Begriffszuordnung ausgeführt wird, da die entsprechende Verknüpfung eine wichtige Voraussetzung für qualitativ hochwertige Ergebnisse ist.

    Beachten Sie, dass Geschäftsbegriffe, die mit den vordefinierten Datenklassen Code, Identifier, Date, Text, Indicator, Quantity und Boolean verknüpft sind, bei der Begriffszuordnung nicht berücksichtigt werden.

  • Der Service für maschinelles Lernen (ML) verwendet ein überwachtes Modell für maschinelles Lernen pro Projekt, um Begriffe zuzuweisen. Das Modell wird zunächst bei der ersten Verwendung des ML-Service in diesem Projekt trainiert. Es wird mit veröffentlichten Geschäftsbegriffen in den Kategorien trainiert, die für das Projekt aktiviert sind, sowie mit allen verfügbaren Begriffszuordnungen für überprüfte Spalten im Projekt. Wenn keine Begriffszuordnungen verfügbar sind, konzentriert sich das Training auf die linguistische Ähnlichkeit von Wörtern in Namen und Beschreibungen von Begriffen und Assets. Begriffe können basierend auf dieser Ähnlichkeit zugewiesen werden. Für alle 20 Spalten, die seit dem letzten Training als überprüft markiert wurden, wird das Modell basierend auf neuen manuellen und bestätigten automatischen Zuordnungen erneut trainiert. Das erneute Training findet auch statt, wenn neue Begriffe veröffentlicht werden.

Ein Projektadministrator kann einige Einstellungen für die Begriffszuordnungsservices anpassen. Siehe Standardeinstellungen für Aufbereitung.

Berechnung der Gesamtkonfidenz

Ein Service, der einen Begriff einem Datenasset zuordnet, berechnet eine Konfidenz, die ein numerischer Wert zwischen einem konfigurierbaren Minimum und 1 ist. Der Mindestwert wird als Prozentsatzschwellenwert konfiguriert, für den der Begriff mit der Einstellung von Vorschlagsschwellenwert für die Begriffszuordnung übereinstimmen muss.

Die Konfidenz für einen zugewiesenen oder vorgeschlagenen Begriff wird als Prozentwert angezeigt. Dieser Wert stellt die Gesamtkonfidenz dar, die das Maximum dieser Werte ist:

  • Der Konfidenzwert, der von der klassenbasierten Zuordnung zurückgegeben wird.
  • Der Konfidenzwert, der von der ML-basierten Zuordnung zurückgegeben wird.

Beispiel:

Angenommen, die Services geben die folgenden Konfidenzwerte für eine Spalte "ADDRESS" und den Begriff "Home Address" zurück:

Class-based assignment: 0.4
ML-based assignment: 0.3

Die Gesamtkonfidenz beträgt 0,4, da dies der höchste Wert ist, der von einem Service zurückgegeben wird.

Begriffszuordnungen publizieren

Wenn Sie die Aufbereitungsergebnisse publizieren, sind Begriffszuordnungen (manuell oder automatisch) im Katalog und in allen Projekten verfügbar, die ein bestimmtes Datenasset enthalten. Begriffsvorschläge werden nicht publiziert.

Wenn Sie eine publizierte Begriffszuordnung entfernen, sind alle Projekte betroffen, die das Datenasset enthalten. Während Sie innerhalb der Aufbereitungsergebnisse arbeiten, sind die Änderungen projektintern. Wenn Sie die Änderungen jedoch veröffentlichen, wird der Begriff aus dem Asset in allen Projekten entfernt, in denen er enthalten ist. Bevor Sie eine veröffentlichte Zuordnung entfernen, stellen Sie sicher, dass sie nicht von anderen Benutzern mit Absicht hinzugefügt wurde.

Wenn Sie eine Aufbereitung erneut ausführen, aktualisiert ein neues Analyseergebnis Begriffszuordnungen wie folgt:

  • Vorhandene vorgeschlagene Begriffe werden gelöscht und durch die neuen vorgeschlagenen Begriffe ersetzt.
  • Vorhandene zurückgewiesene Begriffe, manuelle Zuweisungen und automatische Zuweisungen bleiben unberührt.
  • Neue automatische Zuordnungen werden hinzugefügt.

Weitere Informationen

Übergeordnetes Thema: Ergebnisse der Metadatenaufbereitung