Datenqualitätsscore

Für das gesamte Datenasset und für alle Spalten, die das analysierte Datenasset enthält, wird ein Datenqualitätsscore angezeigt.

Datenqualitätsscores werden auf der Grundlage von Qualitätsdimensionen für jede einzelne Spalte im Datenasset berechnet. Anschließend wird ein kombinierter Qualitätsscore für das gesamte Datenasset errechnet. Der kombinierte Qualitätsscore ist der Durchschnittswert aus den Scores für alle Spalten.

Um zu vermeiden, dass Datensätze mit mehreren Qualitätsproblemen den Datenqualitätsscore unnötig herunterdrücken, wirken sich Werte, die mit mehreren Problemen erkannt werden, nicht anders aus als Werte, die nur mit einem Problem erkannt werden.

Verlässlichkeit der Datenqualität (Konfidenz)

Jeder ermittelten potenziellen Qualitätsdimension auf Wertebene oder Spaltenebene wird außerdem eine Konfidenzzahl zugeordnet, die die Zuverlässigkeit angibt, mit der das System die ermittelte Dimension für korekt hält. Die Konfidenz ist eine Zahl zwischen 0,0 und 1,0, wobei 0,0 keine Konfidenz für die Korrektheit der Dimension und 1,0 absolute Konfidenz für die Korrektheit der Dimension bedeutet.

Der Qualitätscore eines Werts wird als Produkt von (1,0-Konfidenzen) aller Qualitätsprobleme berechnet, die für die betreffende Zelle oder Spalte festgestellt wurden. Beispiel: Stellen Sie sich vor, Sie haben eine Spalte mit US-Namen. Eine Zeile enthält einen Namen aus einem anderen Land, der in der Regel lang ist und eine Kombination von Buchstaben enthält, die in einer Spalte dieser Datenklasse nicht erwartet wird. Dieser Datensatz könnte möglicherweise als verdächtiger Wert mit einer Konfidenz von 70 Prozent ermittelt werden. In derselben Spalte befindet sich ein anderer Wert: "###############1234###############." Das Format ist ohne Zweifel ein verdächtiger Domänenverstoß und wird mit einer Konfidenz von 100 % festgestellt. Die Scoreverringerung durch den ersten Wert liegt bei 70 Prozent der Scoreverringerung durch den zweiten Wert.

Weitere Informationen

Übergeordnetes Thema: Ergebnisse der Metadatenaufbereitung