0 / 0
Zurück zur englischen Version der Dokumentation
Datenpflege
Letzte Aktualisierung: 13. Dez. 2024
Datenpflege

Die Datenpflege ist der Prozess des Hinzufügens von Datenassets zu einem Projekt oder einem Katalog, deren Aufbereitung durch Zuordnung von Klassifikationen, Datenklassen und Geschäftsbegriffen sowie die Analyse und Verbesserung der Datenqualität.

Bevor Sie mit der Datenkuratierung beginnen können, müssen Sie Folgendes eingerichtet haben: IBM Knowledge Catalog damit Sie über ein Governance-Framework und mindestens einen Katalog für die gemeinsame Nutzung der kuratierten Assets verfügen (siehe Planen Sie die Implementierung der Daten-Governance).

Curation kann ein meist manueller Prozess sein, bei dem Sie Datenressourcen gleichzeitig kuratieren. Erweiterte Kuration ist ein eher automatisierter Prozess, bei dem viele der Kurationstasks automatisch für mehrere Datenassets gleichzeitig ausgeführt werden.

Anforderungen und Einschränkungen

Für die Datenpflege gelten die folgenden Anforderungen und Einschränkungen.

Tools für Datenpflege

Sie arbeiten mit den folgenden Tools:

erforderlicher Service

Die Datenkuratierung erfordert IBM Knowledge Catalog, IBM Knowledge Catalog Standard oder IBM Knowledge Catalog Premium. Für fortgeschrittene Analysen im Rahmen der Metadatenanreicherung (fortgeschrittene Profilerstellung und tiefgreifende Schlüssel- und Beziehungsanalysen) ist ebenfalls der DataStage erforderlich.

Datenformate

Die folgenden Datenformate werden unterstützt:

  • Tabellen aus relationalen und nicht-relationalen Datenquellen, Amazon S3 Delta Lake-Tabellen
  • Metadata import: Ein beliebiges Format aus dateibasierten Verbindungen zu den Datenquellen
  • Metadatenanreicherung: Tabellarisch: CSV, TSV, Avro, Parquet, Microsoft Excel

Informationen zu unterstützten Connectors finden Sie unter Unterstützte Datenquellen für Kuration und Datenqualität.

Datenmenge

Die Datenpflege funktioniert mit Daten beliebiger Größe.

Erforderliche Berechtigungen

Ihre Rollen bestimmen, welche Kurationstasks Sie ausführen können:

  • Sie müssen über die Rolle CloudPak Data Steward oder über eine angepasste Rolle mit mindestens derselben Gruppe von Aktionen verfügen. Siehe Vordefinierte Rollen.
  • Um mit den Assets zu arbeiten, die den Kurationstools zugeordnet sind, benötigen Sie auch bestimmte Rollen in Projekten und Katalogen. Die genauen Anforderungen finden Sie in den einzelnen Tools.

Arbeitsbereiche

Sie können in den folgenden Arbeitsbereichen Kurationstasks ausführen:

  • Projekte
  • Kataloge

Je nach dem, welche Kurationsaufgaben Sie ausführen möchten, müssen Sie das Datenasset in einem Projekt, einem Katalog oder beidem bearbeiten, bevor die Daten für die Verwendung durch andere Benutzer bereit sind.

Ein Projekt ist ein interaktiver Arbeitsbereich, in dem Sie normalerweise Daten vorbereiten und analysieren, bevor Sie sie in einem Katalog veröffentlichen, um sie anderen Benutzern in Ihrer Organisation verfügbar zu machen. Sie können einem Katalog auch direkt Daten hinzufügen, wenn Sie sie ohne weitere Vorbereitung freigeben können. Bestimmte Datentypen können nur Katalogen hinzugefügt werden.

Kuratierungsaufgaben

Mit diesen Kurierungstasks können Sie wertvolle Datenressourcen entwickeln:

  • Fügen Sie Datenressourcen zu einem Projekt oder einem Katalog hinzu:

    • Fügen Sie Assets aus einer Verbindung zu einer Datenquelle hinzu, manuell ein oder mehrere Datenassets automatisch über den Metadatenimport. Lassen Sie Ihre Daten dort, wo sie sich in der Cloud oder lokal befinden, und fügen Sie einfach Assetmetadaten und die Verbindungsinformationen hinzu, um auf die Daten in einem Projekt oder Katalog zuzugreifen.
    • Laden Sie einzelne Dateien in den Speicher hoch, der dem Projekt oder dem Katalog zugeordnet ist.
    • Fügen Sie Assets aus einem Katalog manuell zu einem Projekt hinzu, um mit ihnen zu arbeiten.
  • Analysieren und bereichern Sie Ihre Daten:

    • Erstellen Sie Profile für einzelne Datenassets, um grundlegende Statistikdaten zum Assetinhalt abzurufen und Datenklassen in einem Projekt oder Katalog zuzuordnen. Siehe Profile für Datenassets erstellen.

    • Erstellen und führen Sie eine Metadatenanreicherung in einem Projekt aus. Siehe Datenassets aufbereiten.

      • Profilieren Sie mehrere Datenressourcen in einer einzigen Ausführung, um automatisch Datenklassen zuzuordnen und Datentypen und Formate von Spalten zu identifizieren.
      • Führen Sie die Qualitätsanalyse für mehrere Datasets in einem einzigen Testlauf aus, um nach allgemeinen Datenqualitätsproblemen wie fehlenden Werten oder Datenklassenverstößen zu suchen.
      • Ordnen Sie Geschäftsbegriffe automatisch Assets zu und generieren Sie Begriffsvorschläge auf der Basis von Datenklassifizierung oder Algorithmen für maschinelles Lernen.
    • Überprüfen Sie die Ergebnisse der Aufbereitung. Eine Gesamtansicht der Qualitätsbewertungen für die Datenassets ist im Metadatenanreicherungsasset im Projekt verfügbar. Sie können die detaillierten Ergebnisse für jedes Datenasset oder jede Spalte anzeigen, indem Sie den Qualitätsscore anklicken. Alternativ können Sie auf die Informationen auf der Registerkarte Datenqualität eines Assets in einem Projekt oder Katalog zugreifen.

    • Führen Sie den Import und die Aufbereitungsjobs in Intervallen erneut aus, um Änderungen an Datenassets zu erkennen und auszuwerten. Sie können dies manuell tun oder Zeitpläne für den Import und die Aufbereitung einrichten.

  • Bewerten Sie die Datenqualität, indem Sie Datenqualitätsregeln ausführen

  • Verfeinern der Daten zum Verbessern ihrer Qualität und Zweckmäßigkeit in einem Projekt.

  • Publizieren von Assets aus einem Projekt oder Katalog.

  • Bewerten und Überprüfen von Datenassets in einem Katalog.

  • Erstellen von Tags und Hinzufügen dieser Tags zu Datenassets in einem Katalog.

  • Fügen Sie Klassifikationen und Geschäftstermen zu einzelnen Datenressourcen innerhalb eines Katalogs hinzu.

Kuratierungsaufgaben
Task Wo kannst du es manuell machen? Wo können Sie das automatisch machen?
Assets erstellen Projekte
Kataloge
Projekte
Kataloge
Zuweisen von Datenklassen Projekte
Kataloge
Projekte
Kataloge
Klassifikationen zuweisen Kataloge
Zuweisen von Geschäftsbedingungen Projekte
Kataloge
Projekte
Datenqualität analysieren
(Metadatenaufbereitung)
Projekte Projekte
Datenqualität bewerten (Regeln) Projekte Projekte

Beispielablauf: erweiterte Kuration

Ein Kurationsablauf kann die folgenden Tasks enthalten:

  1. Erstellen Sie in einem Projekt einen Metadatenimport mit dem Ziel Erkennen , um einen Massenimport von Metadaten aus einer Verbindung in das Projekt durchzuführen. Sie können den Metadatenimport auch so konfigurieren, dass er einmalig oder wiederholt ausgeführt wird.

  2. Erstellen Sie in demselben Projekt eine Metadatenaufbereitung und führen Sie sie aus, um die folgenden Tasks für die Gruppe der importierten Datenassets in einem einzigen Testlauf auszuführen:

    • Profil der Datenressourcen.
    • Führen Sie eine Qualitätsanalyse für die Datenressourcen aus.
    • Ordnen Sie Geschäftsbegriffe automatisch importierten Assets zu und generieren Sie Begriffsvorschläge.

    Sie können auch einen einmaligen oder sich wiederholenden Zeitplan für Ihre Metadatenaufbereitung einrichten. Sie können Ihren Aufbereitungszeitplan an dem Zeitplan ausrichten, der für den Metadatenimport konfiguriert ist.

  3. Überprüfen Sie die Ergebnisse der Aufbereitung für die Datenassets und die entsprechenden Spalten.

  4. Veröffentlichen Sie angereicherte Datenressourcen in den Katalog.

Sie können die meisten Kurationstasks mit APIs anstelle der Benutzerschnittstelle ausführen. Links zu IBM Knowledge Catalog API sind für jede anwendbare Aufgabe aufgeführt.

Weitere Informationen

Übergeordnetes Thema: Daten vorbereiten

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen