0 / 0
Zurück zur englischen Version der Dokumentation
Daten aufbereiten
Letzte Aktualisierung: 13. Dez. 2024
Daten aufbereiten

Reichern Sie Datenbestände mit Informationen an, die den Nutzern helfen, Daten schneller zu finden, zu entscheiden, ob die Daten für die jeweilige Aufgabe geeignet sind, ob sie den Daten vertrauen können und wie sie mit den Daten arbeiten können. Zu diesen Informationen gehören beispielsweise Begriffe, die die Bedeutung der Daten definieren, und Regeln, die Eigentum dokumentieren oder Qualitätsstandards festlegen, und Rezensionen.

Data-Stewards erstellen Assetprofile, um die Bedeutung von Daten zu verstehen und deren Qualität zu bewerten. Außerdem fügen sie Geschäftskontext zu Daten hinzu, indem sie Begriffe zuordnen und Beziehungen zwischen Tabellen angeben. Die Aufbereitung von Metadaten automatisiert diesen Prozess und erhöht so die Produktivität des Data-Stewards.

Daten sind nur dann hilfreich, wenn Kontext, Inhalt und Qualität der Daten vertrauenswürdig sind. Dazu müssen Daten kontinuierlich ausgewertet und bei Bedarf entsprechende Korrekturen vorgenommen werden. Data-Stewards können wiederholt auftretende Jobs konfigurieren, um Änderungen am Inhalt und an der Struktur von Daten kontinuierlich zu verfolgen und dann nur die geänderten Daten zu analysieren.

Die Informationen, die über die Metadatenaufbereitung zu Assets hinzugefügt werden, helfen zudem, Daten zu schützen, da sie in Datenschutzrichtlinien zum Maskieren von Daten oder zum Beschränken des Zugriffs verwendet werden können.

Erforderliche Services

IBM Knowledge Catalog
DataStage für erweiterte Schlüssel-oder Beziehungsanalyse und erweiterte Profilerstellung

Datenformat

Tabellen aus relationalen und nicht relationalen Datenquellen

Dateien, die aus dem lokalen Dateisystem oder aus dateibasierten Verbindungen zu den Datenquellen hochgeladen wurden, mit den folgenden Formaten: CSV, TSV, Avro, Parquet, Microsoft Excel (xls, xlsm und xlsx; nur für das erste Arbeitsblatt in einer Arbeitsmappe wird ein Profil für Dateien erstellt, die aus dem lokalen Dateisystem hochgeladen wurden). Für diese strukturierten Datendateien wird kein Profil erstellt:

  • Dateien in einem verbundenen Ordnerasset. Dateien, auf die von einem verbundenen Ordnerasset aus zugegriffen werden kann, werden nicht als Assets behandelt und es wird kein Profil erstellt.
  • Dateien in einer Archivdatei, z. B. eine ZIP-Datei. Auf die Archivdatei wird von dem Datenasset verwiesen und die komprimierten Dateien werden nicht mit einem Profil versehen.

Sie können Datenassets aus den Datenquellen aufbereiten, die in Unterstützte Datenquellen für Kuration und Datenqualitätaufgelistet sind.

Data Size

Any; Datasets aus dateibasierten Verbindungen dürfen nicht mehr als 4.999 Spalten enthalten.

Erforderliche Berechtigungen

Zum Erstellen, Verwalten und Ausführen einer Metadatenaufbereitung müssen Sie über die Rolle Administrator oder die Rolle Editor im Projekt verfügen und mindestens über Anzeigezugriff auf die Kategorien verfügen, die Sie in der Aufbereitung verwenden möchten. Außerdem müssen Sie berechtigt sein, auf die Verbindungen zu den Datenquellen der aufzubereitenden Datenassets zuzugreifen.

Wenn eine dieser Verbindungen gesperrt ist, werden Sie aufgefordert, Ihre persönlichen Anmeldedaten einzugeben. Dies ist ein einmaliger Schritt, der die Verbindungen für Sie dauerhaft freischaltet.

Alle Operationen, die im Rahmen einer Metadatenanreicherung ausgeführt werden, erfordern Berechtigungsnachweise für eine sichere Autorisierung. Normalerweise wird Ihr Benutzer-API-Schlüssel verwendet, um solche Operationen mit langer Laufzeit ohne Unterbrechung auszuführen. Wenn keine Berechtigungsnachweise verfügbar sind, wenn Sie eine Metadatenanreicherung erstellen oder versuchen, eine Aufbereitung auszuführen, werden Sie aufgefordert, einen API-Schlüssel zu erstellen. Dieser API-Schlüssel wird dann als Ihre Taskberechtigungsnachweise gespeichert. Siehe Benutzer-API-Schlüssel verwalten.

Sie können auch Metadatenaufbereitungen mit APIs anstelle der Benutzerschnittstelle erstellen, bearbeiten, ausführen und löschen. Die Links zu diesen APIs sind im Abschnitt Weitere Informationen aufgelistet.

Übersicht über die Metadatenaufbereitung

Die Aufbereitung von Datenassets umfasst den folgenden Prozess:

  1. Identifizieren Sie die Datenassets, die Sie aufbereiten möchten.

  2. Erstellen Sie in einem Projekt ein Metadatenaufbereitungsasset, um die Aufbereitungsdetails wie den Bereich und das Ziel der Aufbereitung sowie den Plan für den Aufbereitungsjob zu konfigurieren.

  3. Führen Sie den Aufbereitungsjob aus.

  4. Arbeiten Sie für jedes Datenasset, das in die Aufbereitung eingeschlossen ist, mit den Ergebnissen im Metadatenanreicherungsasset:

    1. Ermitteln Sie Anomalien und Qualitätsprobleme und ergreifen Sie geeignete Maßnahmen, um Probleme zu beheben.
    2. Prüfen Sie generierte Inhalte wie Anzeigenamen oder KI-generierte Beschreibungen.
    3. Überprüfen Sie Begriffszuordnungen, und bewerten Sie Begriffsvorschläge und folgen Sie diesen.
    4. Verwalten Sie Datenklassenzuordnungen auf Spaltenebene.
    5. Verwalten Sie Klassifikationen.
    6. Geben Sie Primärschlüssel und Beziehungen an und definieren Sie sie.
    7. Erkennen Sie überlappende oder redundante Daten.

    Sie können auch auf die Ergebnisse der Aufbereitung zugreifen und sie im Profil des jeweiligen Assets bearbeiten. Siehe Assetprofile. Detaillierte Qualitätsinformationen sind auf der Registerkarte Datenqualität eines Assets verfügbar.

  5. Werten Sie die entsprechenden Assets erneut aus.

  6. Veröffentlichen Sie die Datenbestände mit den Ergebnissen nach Bedarf.

Sie können die meisten Tasks mit APIs anstelle der Benutzerschnittstelle ausführen. Links zu IBM Knowledge Catalog API sind für jede anwendbare Aufgabe aufgeführt.

Auch wenn Sie einzelne verbundene Assets zu einer Metadatenaufbereitung hinzufügen können, ist die Metadatenaufbereitung für die Massenverarbeitung von Datenassets vorgesehen, die dem Projekt durch den Import von Metadaten hinzugefügt wurden.

Um die konsistente Verwendung von Aufbereitungsoptionen sicherzustellen, können Sie Standardeinstellungen für alle Assets für die Metadatenaufbereitung in einem Projekt konfigurieren. Um die Einstellungsseite zu öffnen, gehen Sie zu Verwalten > Metadatenanreicherung. Alternativ können Sie auch ein bestehendes Metadaten-Anreicherungs-Asset öffnen und auf Standardeinstellungen klicken.

Für das Workload-Management kann die Ausführung von Metadatenanreicherungsaufträgen auf Auftragsausführungsfenster beschränkt werden. Ein Projektadministrator kann solche Fenster unter Verwalten > Auftragsausführungsfenster definieren.

Weitere Informationen

Nächste Schritte

Übergeordnetes Thema: Datenpflege

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen