Messen, überwachen und pflegen Sie die Qualität Ihrer Daten, um sicherzustellen, dass die Daten Ihren Erwartungen und Standards für bestimmte Anwendungsfälle entsprechen.
Daten guter Qualität befinden sich in einem Zustand, der normalerweise als für die Verwendung geeignet, fehlerfreioder den Erwartungen und Anforderungen gerechtdefiniert werden kann. Die Datenqualität wird anhand der Standardqualitätsdimensionen Genauigkeit, Vollständigkeit, Konsistenz, Aktualität, Eindeutigkeitund Gültigkeitsowie aller angepassten Qualitätsdimensionen gemessen.
Die Datenqualitätsanalyse liefert Antworten auf folgende Fragen:
- Wie gut ist die Gesamtqualität eines Datenassets?
- Welches Datenasset hat die bessere Qualität?
- Wie hat sich die Qualität eines Datenassets im Laufe der Zeit verändert?
Anforderungen und Einschränkungen
Für das Datenqualitätsmanagement gelten die folgenden Anforderungen und Einschränkungen.
Erforderliche Services
Für das Datenqualitätsmanagement sind folgende Services erforderlich:
- IBM Knowledge Catalog
- DataStage oder DataStage as a Service Anywhere
Mit DataStage, können Sie Datenqualitätsregeln in den unterstützten Regionen ausführen. Mit DataStage as a Service Anywhere können Sie Datenqualitätsregeln außerhalb von IBM Cloud ausführen, indem Sie Remote-Engines verwenden. Weitere Informationen zum Einrichten von Remote-Engines finden Sie in der Dokumentation zuDataStage as a Service Anywhere.
Datenqualitätstools
Sie arbeiten mit den folgenden Tools:
Datenformate
Die folgenden Datenformate werden unterstützt:
- Tabellen aus relationalen und nicht relationalen Datenquellen
- Tabellarisch: Avro, CSV, Parquet, ORC; für Datenbestände, die aus dem lokalen Dateisystem hochgeladen wurden, nur CSV
Informationen zu unterstützten Connectors finden Sie unter Unterstützte Datenquellen für Kuration und Datenqualität.
Datenmenge
Datenqualitätsmanagementtasks können für Daten beliebiger Größe ausgeführt werden.
Erforderliche Berechtigungen
Ihre Rollen bestimmen, welche Tasks für das Datenqualitätsmanagement Sie ausführen können:
- Zum Anzeigen von Datenqualitätsdefinitionen und -regeln müssen Sie mindestens die Rolle Anzeigeberechtigter im Projekt haben.
- Zum Erstellen, Bearbeiten oder Löschen von Datenqualitätsdefinitionen und -regeln benötigen Sie die Rolle Administrator oder die Rolle Editor im Projekt. Darüber hinaus benötigen Sie die Benutzerberechtigung Datenqualitätsassets verwalten .
- Zum Ausführen von Datenqualitätsregeln müssen Sie über die Rolle Administrator oder Editor im Projekt und über die Benutzerberechtigung Datenqualitätsregeln ausführen verfügen.
- Um die Daten, die zu Datenqualitätsproblemen geführt haben (die Ausgabetabelle), im Regelverlauf oder auf der Seite Qualität der Daten anzeigen zu können, benötigen Sie die Drilldown zu den Details der Ausgabe Benutzererlaubnis. Der Datenbestand im Projekt, der für die Ausgabetabelle erstellt wird, ist jedoch für jeden zugänglich, der auf die Verbindung zugreifen kann. Um den Zugriff auf diesen Datenbestand einzuschränken, sollte die Verbindung zu der Datenquelle, in der die Ausgabetabelle gespeichert ist, mit persönlichen Zugangsdaten eingerichtet werden.
- Um SLA-Regeln für die Datenqualität zu erstellen, zu bearbeiten oder zu löschen, müssen Sie über diese Benutzerberechtigungen verfügen:
- Auf Governance-Artefakte zugreifen
- Verwalten von SLA-Regeln für die Datenqualität
Arbeitsbereiche
Sie können Datenqualitätsmanagementtasks in Projekten ausführen. Informationen zur schreibgeschützten Datenqualität sind in Katalogen verfügbar.
Datenqualitätsanalyse und -überwachung
Verwenden Sie Datenqualitätsanalyse und -überwachung, um Daten anhand bestimmter Kriterien auszuwerten. Verwenden Sie diese Bewertungskriterien im Laufe der Zeit wiederholt, um wichtige Änderungen in der Qualität der zu validierenden Daten zu sehen.
Nach dem Entwurf einer Datenqualitätsprüfung haben Sie folgende Möglichkeiten:
Erstellen Sie eine Datenqualitätsdefinition, die die Logik der Datenprüfung unabhängig von der Datenquelle definiert. Die Definition enthält logische Variablen oder Verweise, die Sie verknüpfen oder binden , wenn Sie eine Datenqualitätsregel erstellen, die ausgeführt werden kann.
Nachdem Sie eine Datenqualitätsregel mit den erforderlichen Bindungen basierend auf einer ausgewählten Datenqualitätsdefinition erstellt haben, kann diese Regel ausgeführt werden. Die Regel erzeugt relevante Statistiken und kann je nach Regelkonfiguration eine Ausgabetabelle generieren.
Erstellen Sie eine SQL-basierte Datenqualitätsregel.
Die Funktionalität einer Datenqualitätsregel kann von einem einfachen Einzelspaltentest bis zur Auswertung mehrerer Spalten innerhalb und zwischen Datenquellen reichen.
Datenqualität bewerten
Um festzustellen, ob Ihre Daten von guter Qualität sind, prüfen Sie, wie weit die Daten Ihren Erwartungen entsprechen, und identifizieren Sie Anomalien in den Daten. Die Bewertung der Daten auf Qualität hilft Ihnen darüber hinaus, Struktur und Inhalt der Daten zu verstehen.
Überwachung der Datenqualität
Um sicherzustellen, dass wichtige Daten die Qualitätserwartungen Ihres Unternehmens erfüllen, sollten Sie SLA-Regeln für die Datenqualität implementieren, die Ihre Daten auf die Einhaltung der Standards hin überwachen und bei erkannten Datenqualitätsproblemen für Abhilfe sorgen können.
Weitere Informationen
- Datenqualitätsassets
- Datenqualitätsdefinitionen verwalten
- Datenqualitätsregeln verwalten
- Datenqualität bewerten
- Einhaltung von SLA-Regeln zur Datenqualität und deren Behebung
Übergeordnetes Thema: Daten vorbereiten