Datenqualitätsdimensionen
Datenqualitätsdimensionen beschreiben ein messbares Merkmal von Daten und helfen bei der Definition von Datenqualitätsanforderungen. Verwenden Sie Datenqualitätsdimensionen, um die erwarteten Ergebnisse der Datenqualitätsbewertung zu ermitteln, unabhängig davon, ob es sich um eine Erstbewertung oder eine fortlaufende Überwachung handelt.
Der Status, in dem sich Ihre Daten normalerweise befinden sollen, kann als für die Verwendung geeignet, fehlerfrei, entspricht der Spezifikationoder erfüllt Erwartungen und Anforderungendefiniert werden. Wenn Sie die Datenqualität messen, vergleichen Sie den tatsächlichen Status Ihrer Daten mit diesem gewünschten Status. Die Standards, Erwartungen und Anforderungen, die für Ihre Geschäftsprozesse wichtig sind, werden als Merkmale oder Dimensionen der Daten ausgedrückt.
Die Data Management Association (DAMA) International hat einen Bericht veröffentlicht, in dem 6 Kerndimensionen der Datenqualität beschrieben werden:
Dimension | Beschreibung | Vordefinierte Datenqualitätsprüfungen, die Probleme identifizieren, die dieser Dimension zugeordnet sind |
---|---|---|
Genauigkeit | Datenwerte sind so nah wie möglich an realen Werten. | Keine. |
Vollständigkeit | Alle erforderlichen Datenwerte sind vorhanden. | Unerwartete fehlende Werte |
Konsistenz | Datenwerte in einer Spalte entsprechen einer Regel. | Inkonsistente Großschreibung Inkonsistente Darstellung fehlender Werte Verdächtige Werte |
Pünktlichkeit | Daten stellen die Realität ab einem erforderlichen Zeitpunkt dar. | Keine. |
Eindeutigkeit | Unterschiedliche Werte werden nur einmal angezeigt. | Unerwartete duplizierte Werte |
Gültigkeit | Die Daten entsprechen dem Format, Typ oder Bereich ihrer Definition. | Verstöße gegen die Datenklassen Verstöße gegen den Datentyp Formatverstöße Werte außerhalb des gültigen Bereichs |
Sie können Ihre eigenen Datenqualitätsdimensionen erstellen, indem Sie die IBM Knowledge Catalog API Create a data quality dimension verwenden.
Der Status, in dem sich Ihre Daten normalerweise befinden sollen, kann als für die Verwendung geeignet, fehlerfrei, entspricht der Spezifikationoder erfüllt Erwartungen und Anforderungendefiniert werden. Wenn Sie die Datenqualität messen, vergleichen Sie den tatsächlichen Status Ihrer Daten mit diesem gewünschten Status. Die Standards, Erwartungen und Anforderungen, die für Ihre Geschäftsprozesse wichtig sind, werden als Merkmale oder Dimensionen der Daten ausgedrückt.
Die Data Management Association (DAMA) International hat ein Dokument veröffentlicht, in dem sechs Kerndimensionen der Datenqualität beschrieben werden: Genauigkeit, Vollständigkeit, Konsistenz, Aktualität, Eindeutigkeit, Gültigkeit
Zusätzlich bietet IBM Knowledge Catalog die Dimension Homogenität.
Alle diese Dimensionen können durch die Durchführung von Datenqualitätsprüfungen im Rahmen der Metadatenanreicherung oder durch die Anwendung individueller Datenqualitätsregeln bewertet werden.
In der folgenden Tabelle werden die Datenqualitätsdimensionen beschrieben und die Datenqualitätsprüfungen in der Metadatenanreicherung aufgeführt, mit denen Probleme im Zusammenhang mit einer bestimmten Dimension identifiziert werden können:
Dimension | Beschreibung | Arten von Datenqualitätsprüfungen |
---|---|---|
Genauigkeit | Datenwerte sind so nah wie möglich an realen Werten. | Keine. |
Vollständigkeit | Alle erforderlichen Datenwerte sind vorhanden. | Vollständigkeitsprüfung |
Konsistenz | Datenwerte in einer Spalte entsprechen einer Regel. | Überprüfung der Groß- und Kleinschreibung Überprüfung der Darstellung fehlender Werte Referenzielle Integritätsprüfung ( IBM Knowledge Catalog Premium ) Überprüfung verdächtiger Werte |
Homogenität | Die Daten sind über die Zeit hinweg ähnlich und konsistent. | Historische Stabilität ( IBM Knowledge Catalog Premium ) |
Pünktlichkeit | Daten stellen die Realität ab einem erforderlichen Zeitpunkt dar. | Keine. |
Eindeutigkeit | Unterschiedliche Werte werden nur einmal angezeigt. | Überprüfung der Eindeutigkeit |
Gültigkeit | Die Daten entsprechen dem Format, Typ oder Bereich ihrer Definition. | Datenklassenprüfung Datentypprüfung Formatprüfung Längenprüfung Prüfung möglicher Werte Reichweitencheck Regex-Prüfung |
Weitere Informationen
- Ergebnisse der Datenqualitätsanalyse
- Vordefinierte Datenqualitätsprüfungen
- Stammdatenworkflows konfigurieren
- IBM Knowledge Catalog API: Alle Datenqualitätsdimensionen auflisten
- IBM Knowledge Catalog API: Erstellen einer Datenqualitätsdimension
Übergeordnetes Thema: Datenqualität verwalten