Datenqualitätsverstöße

Die Datenqualitätsanalyse identifiziert Qualitätsprobleme mit Ihren Daten, indem sie Qualitätsdimensionen sowohl auf Datenasset- als auch auf Spaltenebene analysiert.

Ergebnisse werden für die folgenden Datenqualitätsverstöße bereitgestellt:

Für jeden Typ von Verstoß werden die Anzahl der Ergebnisse und der Prozentsatz der ausgewerteten Datensätze angezeigt, für die dieser Verstoß aufgetreten ist.

Verstöße gegen die Datenklasse

Eine Datenklasse ist die für eine bestimmte Spalte erkannte Datenart. Beispiele für Datenklassen sind Postleitzahl, Land oder Kreditkartennummer. Dieser Messwert gibt an, wie viele Werte in einer Spalte nicht der für diese Spalte erkannten Datenklasse entsprechen. Jeder Wert, der gegen die Datenklasse verstößt, wird identifiziert. Der Qualitätsscore wird berechnet, indem der Prozentsatz der identifizierten Werte vom Prozentsatz 100 subtrahiert wird.

Beispiel: Einer Spalte ist die Datenklasse 'Kreditkartennummer' zugeordnet. Der erwartete Wert für die Datenklasse ist eine numerische Zeichenfolge mit 16 Zeichen. Wenn in dieser Spalte ein Wert 'MA,' vorkommt, wird dieser Wert als Verstoß gegen die Datenklasse erkannt. Wenn die betreffende Spalte 100 Werte enthält und 40 dieser Werte nicht der Datenklasse entsprechen, dann wird dieser Spalte der Qualitätsscore 60 zugeordnet, da 40 Prozent der Werte geben die Datenklasse der Spalte verstoßen.

Verstöße gegen den Datentyp

Ein Datentyp definiert das gültige Format für Daten in einer bestimmten Spalte. Beispiele für Datentypen sind Text, Zahl oder Datumsangabe. Dieser Messwert gibt an, wie viele Werte in einer Spalte nicht den erkannten oder zugeordneten Datentyp für die Spalte aufweisen. Jeder Wert, dessen Länge, Genauigkeit oder Anzahl der Kommastellen nicht mit dem abgeleiteten Datentyp übereinstimmt oder gegen den angegebenen Datentyp verstößt, wird identifiziert. Der Qualitätsscore wird berechnet, indem der Prozentsatz der identifizierten Werte vom Prozentsatz 100 subtrahiert wird.

Beispiel: Für eine Spalte ist der dezimale Datentyp 'DECIMAL(4,2)' angegeben. Dieser Datentyp

definiert das Format der Spalte als Zahlenwert mit einer Gesamtlänge von 4 Stellen, von denen zwei auf das Dezimalkomma folgen. Wenn die Spalte einen Zahlenwert mit zu vielen Stellen enthält, wird dieser Wert als Verstoß gegen den Datentyp erkannt. Wenn die betreffende Spalte 100 Werte enthält und 40 dieser Werte nicht dem Datentyp entsprechen, dann wird dieser Spalte der Qualitätsscore 60 zugeordnet, da 40 Prozent der Werte gegen den Datentyp der Spalte verstoßen.

Doppelte Werte

Diese Dimension ermittelt doppelte Werte in Spalten, in denen die meisten Werte eindeutig sind. In einer Spalte, in der mindestens 95 % eindeutige Werte festgestellt wurden, wird jeder doppelte Wert identifiziert. Der Qualitätsscore wird berechnet, indem der Prozentsatz der identifizierten Werte vom Prozentsatz 100 subtrahiert wird.

Beispiel: Ein Dataset mit Patientendaten enthält eine Spalte mit Sozialversicherungsnummern. Der größte Teil der Werte in dieser Spalte kommt jeweils nur einmal vor, da jedem Patienten genau eine Sozialversicherungsnummer zugeordnet ist. Jeder doppelte Wert in dieser Spalte wird identifiziert. Wenn die Spalte 100 Werte enthält und 3 Werte doppelt vorkommen und keine weiteren Qualitätsdimensionen angegeben sind, dann wird dieser Spalte der Qualitätsscore 97 zu geordnet, da 3 Prozent der Werte doppelt vorkommen.

Formatverstöße

Zurzeit nicht ausgewertet.

Inkonsistente Großschreibung

Diese Dimension prüft, ob die Verwendung von Groß- und Kleinbuchstaben im analysierten Datenasset konsistent ist.

Angenommen, eine Spalte enthält Werte, die in Klein- und Großbuchstaben geschrieben werden. Wenn die Spalte 100 Werte enthält, von denen 90 in Kleinbuchstaben und 10 in Großbuchstaben vorliegen, und wenn keine anderen Qualitätsdimensionen ermittelt werden, hat die Spalte einen Qualitätsscore von 90 Prozent, weil 10 Prozent der Werte in einer anderen Schreibweise als die Mehrheit vorliegen.

Maßnahme bei inkonsistenter Großschreibung: Untersuchen Sie die betreffende(n) Spalte(n), um weitere Informationen zu erhalten und eine geeignete Maßnahme festzulegen. In einigen Fällen müssen Sie beispielsweise eine Anmerkung erstellen, um Standardisierung für eine Spalte vorzuschlagen.

Inkonsistente Darstellung fehlender Werte

Datenassets enthalten häufig unterschiedliche Darstellungen für fehlende Daten. +Eine Spalte in einem Datenasset könnte beispielsweise mehrere Nullwerte, Angaben "nicht zutreffend" und leere Felder enthalten. Alle diese Werte können Anzeichen für fehlende Daten sein, werden jedoch unterschiedlich interpretiert und können zu Ungenauigkeiten bei der Analyse führen. Die inkonsistente Darstellung fehlender Werte wird erkannt, indem Spalten mit Nullwerten und mit leeren Werten identifiziert werden. Eine Spalte, die sowohl Nullwerte als auch leere Werte enthält, deutet darauf hin, dass kein standardisiertes Darstellungsverfahren für fehlende Werte vorhanden ist. Wenn eine Spalte Nullwerte enthält, sollten leere Werte meist ebenfalls als Null dargestellt werden.

Jeder Wert, der diese Kriterien in einer Spalte erfüllt, wird ermittelt. Der Qualitätsscore wird berechnet, indem der Prozentsatz der identifizierten Werte vom Prozentsatz 100 subtrahiert wird.

Sie können Verstöße gegen die Darstellung fehlender Werte lösen, indem Sie die ermittelte(n) Spalte(n) überprüfen und die beste Vorgehensweise festlegen. In einigen Fällen müssen Sie beispielsweise eine Anmerkung erstellen, um Standardisierung für eine Spalte vorzuschlagen.

Fehlende Werte

Diese Dimension sucht nach fehlenden Werten in einer Spalte. Zeilen mit fehlenden Werten werden als unvollständig angesehen. Der Qualitätsscore basiert auf dem Prozentsatz von Zeilen in der Spalte, die vollständig sind.

Beispiel: Wenn die Spalte 100 Werte enthält, von denen 40 fehlende Werte sind, und keine anderen Qualitätsdimensionen angegeben sind, dann wird dieser Spalte der Qualitätsscore 60 zugeordnet, da 60 von 100 Werten vollständige Werte sind.

Verdächtige Werte

Wenn die Datenklasse einer Spalte nicht festgestellt werden kann, sucht diese Metrik nach verdächtigen Werten, die von der Mehrheit der anderen Werte in der Spalte abweichen, weil ihre Merkmale unterschiedlich sind. Jeder verdächtige Wert, der gegen die Domäne verstößt, wird identifiziert. Der Qualitätsscore wird berechnet, indem der Prozentsatz der identifizierten Werte vom Prozentsatz 100 subtrahiert wird.

Wenn z. B. eine Spalte 100 Werte enthält und 98 dieser Werte numerische Zeichenfolgen mit einer Länge von fünf bis neun Zeichen sind, zwei Werte jedoch 30-45 Zeichen lange Textfolgen sind, werden diese beiden Werte als verdächtig ermittelt, weil sie von den Merkmalen der anderen Werte abweichen. Wenn keine anderen Qualitätsdimensionen angegeben sind, dann wird dieser Spalte der Qualitätsscore 98 zugeordnet, da 2 Prozent der Werte verdächtige Werte sind.

Sie können Verstöße gegen verdächtige Werte lösen, indem Sie die ermittelte(n) Spalte(n) überprüfen und die beste Vorgehensweise festlegen. In einigen Fällen müssen Sie beispielsweise eine Anmerkung erstellen, um Standardisierung für eine Spalte vorzuschlagen.

Werte außerhalb des gültigen Bereichs

Zurzeit nicht ausgewertet.

Weitere Informationen

Übergeordnetes Thema: Ergebnisse der Metadatenaufbereitung