0 / 0
Zurück zur englischen Version der Dokumentation
Metadatenaufbereitungen entwerfen
Letzte Aktualisierung: 13. Dez. 2024
Metadatenaufbereitungen entwerfen

Wenn Sie Asset-Metadaten anreichern, müssen Sie entscheiden, welche Daten-Assets angereichert werden sollen, welche Art von Metadaten hinzugefügt werden sollen und ob Anreicherungsaufträge geplant werden sollen.

In der Regel ist die Aufbereitung von Metadaten Teil eines größeren Datenkuratierungsplans. Nach dem Importieren von Metadaten für Datenassets können Sie beispielsweise Geschäftsmetadaten zu den importierten Datenassets hinzufügen, Beziehungen zwischen den Assets identifizieren und die Datenqualität dieser Assets analysieren. Schließlich können Sie die abgeschlossenen Datenassets in einem Katalog veröffentlichen, um sie für Ihre Organisation freizugeben. Bevor Sie Ihre Metadatenanreicherung entwerfen, stellen Sie sicher, dass Sie die Auswirkungen Ihrer Auswahl auf Ihren Gesamtkuratierungsplan verstehen. Siehe Planung für Kuratierung.

Projektkonfiguration

Wählen Sie das Projekt, in dem Sie arbeiten möchten, aus oder erstellen Sie es. Denken Sie daran, dass Projekte, die als sensibel gekennzeichnet sind, weder die Veröffentlichung in Katalogen noch das Herunterladen von Daten erlauben. Sie sind daher nicht geeignet, wenn Sie die angereicherten Assets weitergeben oder die Ergebnisse zur Überprüfung in einer Tabelle herunterladen möchten.

Definieren Sie als Projektadministrator Standardeinstellungen für die Anreicherung, die für alle Metadatenanreicherungen im ausgewählten Projekt gelten. Sie können einige dieser Einstellungen überschreiben, wenn Sie Ihre Metadatenaufbereitung erstellen oder bearbeiten.

Umfang der Aufbereitung

Normalerweise besteht der erste Schritt bei der Aufbereitung von Metadaten darin, die Daten auszuwählen, die Sie aufbereiten möchten. Sie können relationale und strukturierte Datenassets aufbereiten.

Die Metadatenaufbereitung wird für Assets ausgeführt, die in dem Projekt verfügbar sind. Daher entspricht die Liste der aufbereiteten Assets in den Aufbereitungsergebnissen möglicherweise nicht dem konfigurierten Bereich der eingeschlossenen Metadatenimportassets in den folgenden Fällen:

  • Metadata import war noch nicht abgeschlossen, als die Aufbereitung gestartet wurde.
  • Metadata import ist für eine Gruppe von Assets fehlgeschlagen oder vollständig fehlgeschlagen.

Anfangsdatenbereich

In der Liste Datenassets werden alle Assets der unterstützten Formate angezeigt. Sie können relationale und strukturierte Datenassets aufbereiten. Sie können einzelne Assets auswählen, aber Sie können auch Metadatenimportassets auswählen, um die gesamte Gruppe von Datenassets aus diesen Metadatenimporten aufzubereiten. Sie können jedoch keine Datenassets oder Metadatenimporte auswählen, die bereits in einer Metadatenaufbereitung enthalten sind. Bei einzelnen Datenassets können Sie den Mauszeiger über den Assetnamen bewegen, um anzuzeigen, in welcher Metadatenaufbereitung das Asset enthalten ist.

Ein Metadatenimportasset wird in den folgenden Fällen automatisch aus dem Auswahlbereich ausgeschlossen:

  • Es hat einen Katalog als Importziel.

  • Sie wurde auf einer Verbindung ausgeführt, die keinen Zugriff auf die tatsächlichen Daten unterstützt.

    Weitere Informationen finden Sie unter Metadaten importieren.

    Beachten Sie Folgendes: Jeder Datenasset-oder Metadatenimport kann nur in einer einzigen Metadatenaufbereitung pro Projekt enthalten sein. Wenn Sie ein Datenasset mehrmals mit verschiedenen Aufbereitungsoptionen aufbereiten möchten, müssen Sie dies in separaten Projekten tun.

Wenn eine der Verbindungen für die ausgewählten Datenassets für die Verwendung persönlicher anstelle gemeinsam genutzter Berechtigungsnachweise konfiguriert ist, müssen Sie diese Verbindung entsperren, bevor Sie fortfahren können.

Sie können auch ein leeres Metadatenanreicherungsasset erstellen und den Bereich später festlegen.

Umfang der erneuten Ausführungen der Aufbereitung

Bei erneuten Ausführungen der Aufbereitung (geplant oder manuell ausgeführt) kann der Datenbereich alle Assets aus dem ursprünglich ausgewählten Datenbereich oder eine Untergruppe von Assets sein. Die Standardoption ist Neue und geänderte Assets und Assets, die in der vorherigen Ausführung nicht aufbereitet wurden. Mit dieser Option werden Assets wie folgt für die Aufbereitung ausgewählt:

  • Assets, die nach der letzten Ausführung der Aufbereitung hinzugefügt wurden
  • Assets, bei denen Spalten nach der letzten Ausführung der Aufbereitung hinzugefügt oder entfernt wurden
  • Assets, bei denen sich Asset-oder Spaltenbeschreibungen nach der letzten Ausführung der Aufbereitung geändert haben
  • Assets, für die die vorherige Aufbereitung fehlgeschlagen ist oder abgebrochen wurde

Die Aufbereitung wird immer für das gesamte Datenasset ausgeführt, unabhängig davon, ob ein Asset neu ist oder geändert wurde.

Das Protokoll des Joblaufs zeigt Wiederholungsläufe von Metadatenanreicherungen, die mit dem begrenzten Datenumfang als Delta-Metadatenanreicherungs-Jobläufe konfiguriert sind.

Anreicherungsziele

Sie können aus den folgenden Aufbereitungszielen auswählen:

Profildaten

Erstellung grundlegender Statistiken über den Inhalt des Assets, Zuweisung und Vorschlag von Datenklassen.

Diese Art der Profilerstellung ist schnell, aber macht einige Näherungswerte für bestimmte Metriken wie Häufigkeitsverteilung und Eindeutigkeit. Um genauere Ergebnisse ohne Approximation zu erhalten, führen Sie die erweiterte Profilerstellung für ausgewählte Datenassets aus. Siehe Erweiterte Datenprofilerstellung. Weitere Informationen zu den Statistiken finden Sie unter Detaillierte Ergebnisse der Profilerstellung.

Datenklassen beschreiben den Inhalt der Daten in der Spalte: z. B. Wohnort, Kontonummer oder Kreditkartennummer. Datenklassen können verwendet werden, um Daten mit Datenschutzregeln zu maskieren oder um den Zugriff auf Datenassets mit Richtlinien einzuschränken. Außerdem können sie zu Begriffszuordnungen beitragen, wenn eine entsprechende Datenklasse zu Begriffsverknüpfung vorhanden ist.

Die Konfidenz einer Datenklasse ist der Prozentsatz der Werte ungleich null, die der Datenklasse entsprechen. Die Konfidenzbewertung für eine Datenklasse, die zugewiesen oder vorgeschlagen wird, muss mindestens dem festgelegten Schwellenwert entsprechen. Siehe Einstellungen für Datenklassenzuordnung. Wird ein Schwellenwert direkt für eine Datenklasse festgelegt, hat dieser Schwellenwert Vorrang, wenn Datenklassen zugeordnet werden. Es wird nicht für Vorschläge berücksichtigt. Zusätzlich zum Verlässlichkeitsscore wird die Priorität einer Datenklasse berücksichtigt.

Einige Datenklassen sind allgemeine Bezeichnungen, die auf Spaltenebene erkannt und zugeordnet werden. Diese Datenklassen werden zugeordnet, wenn keine spezifischere Datenklasse auf der Ebene der Werte identifiziert werden konnte. Generische Identifikatoren haben immer eine Konfidenz von 100% und umfassen die folgenden Datenklassen: Code, Identifikator, Indikator, Menge und Text.

Einspaltige Primärschlüssel werden auf der Basis von Profilermittlungsstatistiken vorgeschlagen. Wenn in Ihren Daten bereits Integritätsbedingungen über Primärschlüssel und Fremdschlüssel definiert sind und diese Informationen im Metadatenimport enthalten sind, werden diese Schlüssel automatisch zugeordnet.

Aus den Aufbereitungsergebnissen können Sie eine mehrspaltige Primärschlüsselanalyse ausführen, bei der die tatsächlichen Daten überprüft werden. Weitere Informationen finden Sie unter Primärschlüssel identifizieren.

Metadaten erweitern

Generieren Sie semantische Namen und Beschreibungen für Datenbestände und Spalten. Die in der Quelle vorhandenen Namen werden auf der Grundlage der gesammelten Metadaten und eines vordefinierten Glossars durch Fuzzy-Matching und durch Vergleich der Namen mit den Abkürzungen der Geschäftsbegriffe in den für die Anreicherung ausgewählten Kategorien erweitert. Wenn der Asset- oder Spaltenname in der Quelle mit einer Geschäftsbegriffsabkürzung abgeglichen werden kann, wird der entsprechende Geschäftsbegriff als Anzeigename verwendet. Generative KI wird verwendet, um Beschreibungen auf der Grundlage der erweiterten Namen, der umgebenden Spalten und des Kontexts der Datenbestände zu erstellen. Mit dieser Option können Sie alternative Namen angeben, die einfacher zu verarbeiten sind als die häufig sehr technischen Originalnamen. KI-generierte Beschreibungen können helfen, den Inhalt zu verstehen, insbesondere wenn Spalten-oder Datenassetbeschreibungen in der Datenquelle fehlen. Die Schwellenwerte für Zuweisung und Vorschläge werden in den Standardaufbereitungseinstellungen definiert.

Begriffe und Klassifizierungen zuordnen

Ordnen Sie Spalten und ganzen Assets automatisch Geschäftsbegriffe zu oder schlagen Sie Geschäftsbegriffe für eine manuelle Zuordnung vor. Diese Zuordnungen oder Vorschläge werden von einer Gruppe von Services generiert. Siehe Automatische Begriffszuordnung.

Abhängig davon, welche Begriffszuordnungsservices für Ihr Projekt aktiv sind, kann für die Begriffszuordnung eine Profilermittlung erforderlich sein.

Darüber hinaus können Sie den Datenbeständen und Spalten Klassifizierungen zuweisen, die auf automatisch zugewiesenen Begriffen und Datenklassen basieren. Die Klassifizierungszuweisung muss in den Standardanreicherungseinstellungen aktiviert sein. Die Klassifizierung nach Datenklassen erfordert ebenfalls eine Profilierung.

Grundlegende Qualitätsanalyse ausführen

Führen Sie vordefinierte Datenqualitätsprüfungen für die Spalten eines Datenbestands durch. Die Gruppe der angewendeten Prüfungen wird in den Aufbereitungseinstellungen definiert. Siehe Basiseinstellungen für die Qualitätsanalyse. Jede Prüfung kann zu den Gesamtdatenqualitätskernen des Assets beitragen. Diese Art der Datenqualitätsanalyse kann nur in Kombination mit der Profilerstellung durchgeführt werden. Daher wird die Option Profildaten automatisch ausgewählt, wenn Sie die Analyse der Datenqualität auswählen.

Sie können auswählen, ob Sie die Ausgabe dieser Prüfungen in eine Datenbank schreiben möchten. Wenn Standardeinstellungen vorhanden sind, werden die Abschnitte entsprechend gefüllt. Sie können die Einstellungen überschreiben. Wenn keine Standardeinstellungen vorhanden sind, konfigurieren Sie die Ausgabe und die Ausgabeposition. Informationen dazu, welche Datenquellen als Ausgabeziel unterstützt werden, finden Sie in Spalte Ausgabetabellen unter Unterstützte Datenquellen. Schema-und Tabellennamen müssen dieser Konvention entsprechen:

  • Das erste Zeichen des Namens muss ein alphabetisches Zeichen sein.
  • Der Rest des Namens kann aus alphabetischen Zeichen, numerischen Zeichen oder Unterstreichungszeichen bestehen.
  • Der Name darf keine Leerzeichen enthalten.

Wenn Sie auswählen, dass die Ausnahmebedingungen oder die Zeilen, in denen die Probleme gefunden wurden (Ausnahmedatensätze) in vorhandene Tabellen geschrieben werden, müssen Sie sicherstellen, dass diese Tabellen das erforderliche Format aufweisen. Siehe Datenqualitätsausgabe.

Wenn die Verbindung, die Sie auswählen, gesperrt ist, werden Sie aufgefordert, Ihre persönlichen Berechtigungsnachweise einzugeben. Dies ist ein einmaliger Schritt, der die Verbindung für Sie permanent entsperrt.

Beziehungen festlegen

Verwendet Profilstatistiken und Namensähnlichkeiten zwischen Spalten, um Primär-und Fremdschlüssel bereitzustellen und Beziehungen zwischen Assets und Spalten vorzuschlagen oder zuzuordnen. Die Standardaufbereitungseinstellungen für Schlüsselbeziehungen werden angewendet. Diese Art der Beziehungsanalyse erfordert eine Profilerstellung.

Bewertung der Datenqualität mit SLA-Regeln

Prüft, ob die Datenqualität den definierten Service Level Agreements für Datenqualität entspricht. Datenqualitäts-SLA-Regeln definieren Datenqualitätsschwellenwerte für Datenbestände oder Spalten innerhalb von Datenbeständen. Bei dieser Anreicherungsoption werden die Datenbestände innerhalb der Metadatenanreicherung anhand der Auswahlkriterien in den Datenqualitäts-SLA-Regeln überprüft. Wenn Datenbestände oder einzelne Spalten den Auswahlkriterien einer Datenqualitäts-SLA-Regel entsprechen, wird ihre Datenqualität anhand der in dieser SLA-Regel definierten Qualitätsschwellenwerte überprüft.

Als Ergebnis eines Anreicherungslaufs mit dieser Option wird ein SLA-Compliance-Bericht für jedes Daten-Asset in der Anreicherung erstellt, unabhängig davon, ob die Bedingungen einer Datenqualitäts-SLA-Regel verletzt wurden. SLA-Compliance-Berichte sind Teil der Qualitätsinformationen eines Datenbestands, die über die Anreicherungsergebnisse oder auf der Datenqualitätsseite des Bestands in einem Projekt verfügbar sind.

Je nach Konfiguration einer Datenqualitäts-SLA-Regel kann ein Datenqualitäts-Workflow eingeleitet werden, wenn ein Datenbestand gegen diese Regel verstößt.

Wenn Sie dieses Ziel mit anderen Zielen kombinieren, gelten die folgenden Überlegungen:

  • Wenn auch das Ziel Daten profilieren ausgewählt ist, wird die SLA-Bewertung der Datenqualität nur durchgeführt, wenn die Profilerstellung erfolgreich abgeschlossen wurde.
  • Wenn das Ziel Begriffe und Klassifikationen zuweisen ebenfalls ausgewählt ist, wird die SLA-Bewertung der Datenqualität nur durchgeführt, wenn die Begriffszuweisung erfolgreich abgeschlossen wurde. Da die Semesterarbeit eine Profilerstellung von Daten erfordert, muss auch die Profilerstellung erfolgreich abgeschlossen sein.

Sie können die Metadatenanreicherung mit einer SLA-Bewertung der Datenqualität als einzigem Ziel durchführen. Vergewissern Sie sich jedoch vorher, dass den Datenbeständen oder Spalten im Anreicherungsbereich Begriffe zugewiesen sind und eine Datenqualitätsbewertung vorliegt. Außerdem sollte der Datenumfang der Wiederholungsläufe in diesem Fall auf Alle Datenbestände gesetzt werden.

Kategorieauswahl

Wählen Sie Kategorien aus, um die Datenklassen und Geschäftsbegriffe festzulegen, die während der Aufbereitung angewendet werden können. Ein Projektadministrator hat möglicherweise die Gruppe von Kategorien begrenzt, aus denen Sie beim Erstellen einer Aufbereitung auswählen können. Diese Einschränkung gilt nicht beim Bearbeiten der Aufbereitung. In jedem Fall können Sie nur aus Kategorien wählen, in denen Sie Mitarbeiter mit mindestens der Rolle Anzeigeberechtigter sind.

Wählen Sie nur Kategorien mit Governance-Artefakten aus, die für Ihren Anwendungsfall relevant sind.

Diese Auswahl gilt nur für automatische Zuordnungen und Vorschläge. Wenn Sie Begriffe oder Datenklassen manuell zuweisen, können Sie aus allen Kategorien auswählen, auf die Sie Zugriff haben.

Änderungen an der Gruppe von Kategorien zur Auswahl oder die tatsächliche Kategorieauswahl werden bei der nächsten Aufbereitungsausführung wirksam. Vorhandene Zuordnungen bleiben jedoch unverändert.

Wenn Ihr Zugriff auf eine der ausgewählten Kategorien widerrufen wird, nachdem Sie die Metadatenaufbereitung ausgeführt haben, und Sie keine Änderungen an der Aufbereitung vornehmen, werden bei jeder erneuten Ausführung alle ausgewählten Kategorien für Datenklassen-und Begriffszuordnungen berücksichtigt.

Stichprobenentnahme

Sie können aus den folgenden Stichprobenarten auswählen:

Basis

Die Basisstichprobe arbeitet mit dem kleinstmöglichen Stichprobenumfang, um den Prozess zu beschleunigen: 1.000 Zeilen pro Tabelle werden analysiert und die Klassifizierung erfolgt auf der Basis der häufigsten 100 Werte pro Spalte.

Mittelschwer

Die moderate Stichprobenentnahme arbeitet mit einem mittleren Stichprobenumfang, um angemessen genaue Ergebnisse zu liefern, ohne zu zeitaufwendig zu sein: 10.000 Zeilen pro Tabelle werden analysiert und die Klassifizierung erfolgt auf der Basis der häufigsten 100 Werte pro Spalte.

Umfassend

Eine umfassende Stichprobenentnahme arbeitet mit einem großen Stichprobenumfang, um genauere Ergebnisse zu liefern: 100.000 Zeilen pro Tabelle werden analysiert und die Klassifikation berücksichtigt alle Werte pro Spalte. Diese Methode ist jedoch zeit- und ressourcenintensiv.

Angepasst

Definieren Sie die Stichprobenmethode, den Stichprobenumfang und die Basis für die Klassifizierung selbst:

  • Wählen Sie zwischen sequenzieller und zufälliger Stichprobenziehung. Bei sequenzieller Stichprobenentnahme werden die ersten Zeilen eines Datasets in sequenzieller Reihenfolge ausgewählt. Bei Zufallsstichproben werden die einzuschließenden Zeilen zufällig ausgewählt. Bei beiden Methoden wird die maximale Anzahl der auszuwählenden Zeilen durch den definierten Stichprobenumfang bestimmt.

    Die Zufallsstichprobe ist nur für Datenassets aus Datenquellen verfügbar, die diesen Stichprobentyp unterstützen. Weitere Informationen finden Sie unter Konzepte für Zufallsstichproben.

  • Definieren Sie die maximale Größe der Stichprobe. Sie können eine feste Anzahl von Zeilen festlegen oder angeben, wie viele Prozent der Zeilen im Dataset analysiert werden sollen. Wenn Sie den Stichprobenumfang als Prozentwert definieren, können Sie optional die minimale und maximale Anzahl Zeilen festlegen, die die Stichprobe enthalten kann. Sie können diese Werte festlegen, wenn Sie die Größe der zu analysierenden Datasets nicht kennen. Die Anzahl oder der Prozentsatz der Zeilen, die für die Stichprobe ausgewählt wurden, kann den angegebenen Wert nur näherungsweise berechnen.

  • Wählen Sie aus, ob eine Datenklasse basierend auf allen Werten in einer Spalte oder auf den häufigsten Werten in einer Spalte zugeordnet werden soll. Hier können Sie die Anzahl der Werte angeben, die berücksichtigt werden sollen.

Die einfache, mittlere oder umfassende Stichprobenentnahme erfolgt sequenziell und beginnt am Anfang der Tabelle. Um Stichproben zu unterdrücken, verwenden Sie benutzerdefinierte Stichproben, die mit Zufallsstichproben und einem Stichprobenumfang von 100% konfiguriert sind.

Planungsoptionen

Wenn Ihr Datenbereich Metadaten-Import-Assets umfasst, finden Sie auf der Seite Zeitplan Informationen über alle konfigurierten Zeitpläne der jeweiligen Metadaten-Importaufträge. Mit diesen Informationen können Sie den Zeitplan Ihrer Aufbereitungen mit allen Importzeitplänen koordinieren.

Ausführungsdefinition

Definieren Sie, wann die Metadatenanreicherung durchgeführt wird. Sie können keine, eine oder beide dieser Optionen auswählen:

Nach Joberstellung ausführen

Wählen Sie diese Option, um die Metadatenanreicherung auszuführen, wenn Sie eine neu erstellte Metadatenanreicherung speichern. Andernfalls wird das Metadaten-Anreicherungs-Asset gespeichert, aber kein Auftragslauf gestartet.

Nach Zeitplan ausführen

Wählen Sie diese Option, um die Anreicherung nach einem Zeitplan durchzuführen. Sie können einzelne und wiederkehrende Ausführungen planen. Definieren Sie das Startdatum und die Startzeit für den Zeitplan. Wenn Sie eine einzelne Ausführung planen, wird der Job genau einmal am angegebenen Tag und zu der angegebenen Uhrzeit ausgeführt.

Um wiederkehrende Läufe zu planen, wählen Sie Wiederholung des Auftrags und die Häufigkeit, mit der der Anreicherungsauftrag ausgeführt werden soll. Wenn Sie minütlich, stündlich oder täglich wählen, können Sie bestimmte Wochentage von der Planung ausschließen. Optional können Sie ein Enddatum und eine Endzeit für den Arbeitsplan festlegen. Bei wiederkehrenden Läufen wird der Auftrag zum ersten Mal zum Zeitstempel ausgeführt, der auf der Grundlage der Einstellungen im Abschnitt Wiederholung des Auftrags berechnet wird.

Unabhängig von der Laufdefinition können Sie jederzeit einen Lauf des Metadatenanreicherungsauftrags manuell auslösen.

Wenn für ein Projekt Zeitfenster für die Auftragsausführung konfiguriert sind, ist die Ausführung von Metadatenanreicherungsaufträgen auf die konfigurierten Zeiträume beschränkt. Die Auftragsläufe starten wie gewünscht, d. h. bei Bedarf, nach der Erstellung des Metadatenanreicherungs-Assets oder nach dem festgelegten Zeitplan, werden aber sofort unterbrochen, wenn Startdatum und -zeit außerhalb eines Ausführungsfensters liegen, und wieder aufgenommen, wenn das nächste Auftragsausführungsfenster geöffnet wird. Lang laufende Metadatenanreicherungen können mehrmals unterbrochen und wieder aufgenommen werden.

Weitere Informationen finden Sie unter Verwalten der Planung von Anreicherungsaufträgen.

Weitere Informationen

Nächste Schritte

Übergeordnetes Thema: Metadatenaufbereitung verwalten

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen