Die Datenpflege ist der Prozess des Hinzufügens von Datenassets zu einem Projekt oder einem Katalog, deren Aufbereitung durch Zuordnung von Klassifikationen, Datenklassen und Geschäftsbegriffen sowie die Analyse und Verbesserung der Datenqualität.
Bevor Sie mit der Datenkuratierung beginnen können, müssen Sie Folgendes eingerichtet haben: IBM Knowledge Catalog damit Sie über ein Governance-Framework und mindestens einen Katalog für die gemeinsame Nutzung der kuratierten Assets verfügen (siehe Planen Sie die Implementierung der Daten-Governance).
Curation kann ein meist manueller Prozess sein, bei dem Sie Datenressourcen gleichzeitig kuratieren. Erweiterte Kuration ist ein eher automatisierter Prozess, bei dem viele der Kurationstasks automatisch für mehrere Datenassets gleichzeitig ausgeführt werden.
Anforderungen und Einschränkungen
Für die Datenpflege gelten die folgenden Anforderungen und Einschränkungen.
Tools für Datenpflege
Sie arbeiten mit den folgenden Tools:
erforderlicher Service
Die Datenkuratierung erfordert IBM Knowledge Catalog, IBM Knowledge Catalog Standard oder IBM Knowledge Catalog Premium. Für fortgeschrittene Analysen im Rahmen der Metadatenanreicherung (fortgeschrittene Profilerstellung und tiefgreifende Schlüssel- und Beziehungsanalysen) ist ebenfalls der DataStage erforderlich.
Datenformate
Die folgenden Datenformate werden unterstützt:
- Tabellen aus relationalen und nicht-relationalen Datenquellen, Amazon S3 Delta Lake-Tabellen
- Metadata import: Ein beliebiges Format aus dateibasierten Verbindungen zu den Datenquellen
- Metadatenanreicherung: Tabellarisch: CSV, TSV, Avro, Parquet, Microsoft Excel
Informationen zu unterstützten Connectors finden Sie unter Unterstützte Datenquellen für Kuration und Datenqualität.
Datenmenge
Die Datenpflege funktioniert mit Daten beliebiger Größe.
Erforderliche Berechtigungen
Ihre Rollen bestimmen, welche Kurationstasks Sie ausführen können:
- Sie müssen über die Rolle CloudPak Data Steward oder über eine angepasste Rolle mit mindestens derselben Gruppe von Aktionen verfügen. Siehe Vordefinierte Rollen.
- Um mit den Assets zu arbeiten, die den Kurationstools zugeordnet sind, benötigen Sie auch bestimmte Rollen in Projekten und Katalogen. Die genauen Anforderungen finden Sie in den einzelnen Tools.
Arbeitsbereiche
Sie können in den folgenden Arbeitsbereichen Kurationstasks ausführen:
- Projekte
- Kataloge
Je nach dem, welche Kurationsaufgaben Sie ausführen möchten, müssen Sie das Datenasset in einem Projekt, einem Katalog oder beidem bearbeiten, bevor die Daten für die Verwendung durch andere Benutzer bereit sind.
Ein Projekt ist ein interaktiver Arbeitsbereich, in dem Sie normalerweise Daten vorbereiten und analysieren, bevor Sie sie in einem Katalog veröffentlichen, um sie anderen Benutzern in Ihrer Organisation verfügbar zu machen. Sie können einem Katalog auch direkt Daten hinzufügen, wenn Sie sie ohne weitere Vorbereitung freigeben können. Bestimmte Datentypen können nur Katalogen hinzugefügt werden.
Kuratierungsaufgaben
Mit diesen Kurierungstasks können Sie wertvolle Datenressourcen entwickeln:
Fügen Sie Datenressourcen zu einem Projekt oder einem Katalog hinzu:
- Fügen Sie Assets aus einer Verbindung zu einer Datenquelle hinzu, manuell ein oder mehrere Datenassets automatisch über den Metadatenimport. Lassen Sie Ihre Daten dort, wo sie sich in der Cloud oder lokal befinden, und fügen Sie einfach Assetmetadaten und die Verbindungsinformationen hinzu, um auf die Daten in einem Projekt oder Katalog zuzugreifen.
- Laden Sie einzelne Dateien in den Speicher hoch, der dem Projekt oder dem Katalog zugeordnet ist.
- Fügen Sie Assets aus einem Katalog manuell zu einem Projekt hinzu, um mit ihnen zu arbeiten.
Analysieren und bereichern Sie Ihre Daten:
Erstellen Sie Profile für einzelne Datenassets, um grundlegende Statistikdaten zum Assetinhalt abzurufen und Datenklassen in einem Projekt oder Katalog zuzuordnen. Siehe Profile für Datenassets erstellen.
Erstellen und führen Sie eine Metadatenanreicherung in einem Projekt aus. Siehe Datenassets aufbereiten.
- Profilieren Sie mehrere Datenressourcen in einer einzigen Ausführung, um automatisch Datenklassen zuzuordnen und Datentypen und Formate von Spalten zu identifizieren.
- Führen Sie die Qualitätsanalyse für mehrere Datasets in einem einzigen Testlauf aus, um nach allgemeinen Datenqualitätsproblemen wie fehlenden Werten oder Datenklassenverstößen zu suchen.
- Ordnen Sie Geschäftsbegriffe automatisch Assets zu und generieren Sie Begriffsvorschläge auf der Basis von Datenklassifizierung oder Algorithmen für maschinelles Lernen.
Überprüfen Sie die Ergebnisse der Aufbereitung. Eine Gesamtansicht der Qualitätsbewertungen für die Datenassets ist im Metadatenanreicherungsasset im Projekt verfügbar. Sie können die detaillierten Ergebnisse für jedes Datenasset oder jede Spalte anzeigen, indem Sie den Qualitätsscore anklicken. Alternativ können Sie auf die Informationen auf der Registerkarte Datenqualität eines Assets in einem Projekt oder Katalog zugreifen.
Führen Sie den Import und die Aufbereitungsjobs in Intervallen erneut aus, um Änderungen an Datenassets zu erkennen und auszuwerten. Sie können dies manuell tun oder Zeitpläne für den Import und die Aufbereitung einrichten.
Bewerten Sie die Datenqualität, indem Sie Datenqualitätsregeln ausführen
Verfeinern der Daten zum Verbessern ihrer Qualität und Zweckmäßigkeit in einem Projekt.
Publizieren von Assets aus einem Projekt oder Katalog.
Bewerten und Überprüfen von Datenassets in einem Katalog.
Erstellen von Tags und Hinzufügen dieser Tags zu Datenassets in einem Katalog.
Fügen Sie Klassifikationen und Geschäftstermen zu einzelnen Datenressourcen innerhalb eines Katalogs hinzu.
Task | Wo kannst du es manuell machen? | Wo können Sie das automatisch machen? |
---|---|---|
Assets erstellen | Projekte Kataloge |
Projekte Kataloge |
Zuweisen von Datenklassen | Projekte Kataloge |
Projekte Kataloge |
Klassifikationen zuweisen | Kataloge | — |
Zuweisen von Geschäftsbedingungen | Projekte Kataloge |
Projekte |
Datenqualität analysieren (Metadatenaufbereitung) |
Projekte | Projekte |
Datenqualität bewerten (Regeln) | Projekte | Projekte |
Beispielablauf: erweiterte Kuration
Ein Kurationsablauf kann die folgenden Tasks enthalten:
Erstellen Sie in einem Projekt einen Metadatenimport mit dem Ziel Erkennen , um einen Massenimport von Metadaten aus einer Verbindung in das Projekt durchzuführen. Sie können den Metadatenimport auch so konfigurieren, dass er einmalig oder wiederholt ausgeführt wird.
Erstellen Sie in demselben Projekt eine Metadatenaufbereitung und führen Sie sie aus, um die folgenden Tasks für die Gruppe der importierten Datenassets in einem einzigen Testlauf auszuführen:
- Profil der Datenressourcen.
- Führen Sie eine Qualitätsanalyse für die Datenressourcen aus.
- Ordnen Sie Geschäftsbegriffe automatisch importierten Assets zu und generieren Sie Begriffsvorschläge.
Sie können auch einen einmaligen oder sich wiederholenden Zeitplan für Ihre Metadatenaufbereitung einrichten. Sie können Ihren Aufbereitungszeitplan an dem Zeitplan ausrichten, der für den Metadatenimport konfiguriert ist.
Überprüfen Sie die Ergebnisse der Aufbereitung für die Datenassets und die entsprechenden Spalten.
Veröffentlichen Sie angereicherte Datenressourcen in den Katalog.
Sie können die meisten Kurationstasks mit APIs anstelle der Benutzerschnittstelle ausführen. Links zu IBM Knowledge Catalog API sind für jede anwendbare Aufgabe aufgeführt.
Weitere Informationen
Übergeordnetes Thema: Daten vorbereiten