Datenqualitätsverstöße
Die Datenqualitätsanalyse identifiziert Qualitätsprobleme mit Ihren Daten, indem sie Qualitätsdimensionen sowohl auf Datenasset- als auch auf Spaltenebene analysiert.
Ergebnisse werden für die folgenden Datenqualitätsverstöße bereitgestellt:
- Datenklassenverstöße
- Datentypverstöße
- Doppelte Werte
- Formatverstöße
- Inkonsistente Großschreibung
- Inkonsistente Darstellung fehlender Werte
- Fehlende Werte
- Verdächtige Werte
- Werte außerhalb des gültigen Bereichs
Für jeden Typ von Verstoß werden die Anzahl der Ergebnisse und der Prozentsatz der ausgewerteten Datensätze angezeigt, für die dieser Verstoß aufgetreten ist.
Verstöße gegen die Datenklasse
Eine Datenklasse ist die für eine bestimmte Spalte erkannte Datenart. Beispiele für Datenklassen sind Postleitzahl, Land oder Kreditkartennummer. Dieser Messwert gibt an, wie viele Werte in einer Spalte nicht der für diese Spalte erkannten Datenklasse entsprechen. Jeder Wert, der gegen die Datenklasse verstößt, wird identifiziert. Der Qualitätsscore wird berechnet, indem der Prozentsatz der identifizierten Werte vom Prozentsatz 100 subtrahiert wird.
Beispiel: Einer Spalte ist die Datenklasse 'Kreditkartennummer' zugeordnet. Der erwartete Wert für die Datenklasse ist eine numerische Zeichenfolge mit 16 Zeichen. Wenn in dieser Spalte ein Wert 'MA,' vorkommt, wird dieser Wert als Verstoß gegen die Datenklasse erkannt. Wenn diese Spalte 100 Werte enthält, 40 Werte nicht mit der Klasse übereinstimmen und keine anderen Qualitätsdimensionen identifiziert werden, weist die Spalte einen Qualitätsscore von 60% auf, da 40% der Werte gegen die Datenklasse der Spalte verstoßen.
Verstöße gegen den Datentyp
Ein Datentyp definiert das gültige Format für Daten in einer bestimmten Spalte. Beispiele für Datentypen sind Text, Zahl oder Datumsangabe. Dieser Messwert gibt an, wie viele Werte in einer Spalte nicht den erkannten oder zugeordneten Datentyp für die Spalte aufweisen. Jeder Wert, dessen Länge, Genauigkeit oder Anzahl der Kommastellen nicht mit dem abgeleiteten Datentyp übereinstimmt oder gegen den angegebenen Datentyp verstößt, wird identifiziert. Der Qualitätsscore wird berechnet, indem der Prozentsatz der identifizierten Werte vom Prozentsatz 100 subtrahiert wird.
Beispiel: Für eine Spalte ist der dezimale Datentyp 'DECIMAL(4,2)' angegeben. Dieser Datentyp definiert das Format der Spalte als Zahlenwert mit einer Gesamtlänge von 4 Stellen, von denen zwei auf das Dezimalkomma folgen. Wenn die Spalte einen Zahlenwert mit zu vielen Stellen enthält, wird dieser Wert als Verstoß gegen den Datentyp erkannt. Wenn diese Spalte 100 Werte enthält, 40 Werte nicht mit dem Typ übereinstimmen und keine anderen Qualitätsdimensionen identifiziert werden, weist die Spalte einen Qualitätsscore von 60% auf, da 40% der Werte gegen den Datentyp der Spalte verstoßen.
Doppelte Werte
Diese Dimension ermittelt doppelte Werte in Spalten, in denen die meisten Werte eindeutig sind. In einer Spalte, in der mindestens 95% der Werte als eindeutig identifiziert werden, wird jeder doppelte Wert identifiziert. Der Qualitätsscore wird berechnet, indem der Prozentsatz der identifizierten Werte vom Prozentsatz 100 subtrahiert wird.
Beispiel: Ein Dataset mit Patientendaten enthält eine Spalte mit Sozialversicherungsnummern. Der größte Teil der Werte in dieser Spalte kommt jeweils nur einmal vor, da jedem Patienten genau eine Sozialversicherungsnummer zugeordnet ist. Jeder doppelte Wert in dieser Spalte wird identifiziert. Wenn die Spalte 100 Werte hat, 3 Werte Duplikate sind und keine anderen Qualitätsdimensionen identifiziert werden, hat die Spalte einen Qualitätsscore von 97%, da 3% der Werte Duplikate sind.
Formatverstöße
Momentan nicht in der Metadatenaufbereitung ausgewertet.
Inkonsistente Großschreibung
Diese Dimension prüft, ob die Verwendung von Groß- und Kleinbuchstaben im analysierten Datenasset konsistent ist.
Angenommen, eine Spalte enthält Werte, die in Klein- und Großbuchstaben geschrieben werden. If the column has 100 values, 90 of them are in lowercase, and 10 of them are in uppercase, and no other quality dimensions are identified, the column has a quality score of 90% because 10% of the values are in a different case than the majority.
Maßnahme bei inkonsistenter Großschreibung: Untersuchen Sie die betreffende(n) Spalte(n), um weitere Informationen zu erhalten und eine geeignete Maßnahme festzulegen. In einigen Fällen müssen Sie beispielsweise eine Anmerkung erstellen, um Standardisierung für eine Spalte vorzuschlagen.
Inkonsistente Darstellung fehlender Werte
Datenassets enthalten häufig unterschiedliche Darstellungen für fehlende Daten. +Eine Spalte in einem Datenasset könnte beispielsweise mehrere Nullwerte, Angaben "nicht zutreffend" und leere Felder enthalten. Alle diese Werte können Anzeichen für fehlende Daten sein, werden jedoch unterschiedlich interpretiert und können zu Ungenauigkeiten bei der Analyse führen. Die inkonsistente Darstellung fehlender Werte wird erkannt, indem Spalten mit Nullwerten und mit leeren Werten identifiziert werden. Eine Spalte, die sowohl Nullwerte als auch leere Werte enthält, deutet darauf hin, dass kein standardisiertes Darstellungsverfahren für fehlende Werte vorhanden ist. Wenn eine Spalte Nullwerte enthält, sollten leere Werte meist ebenfalls als Null dargestellt werden.
Jeder Wert, der diese Kriterien in einer Spalte erfüllt, wird ermittelt. Der Qualitätsscore wird berechnet, indem der Prozentsatz der identifizierten Werte vom Prozentsatz 100 subtrahiert wird.
Sie können Verstöße gegen die Darstellung fehlender Werte lösen, indem Sie die ermittelte(n) Spalte(n) überprüfen und die beste Vorgehensweise festlegen. In einigen Fällen müssen Sie beispielsweise eine Anmerkung erstellen, um Standardisierung für eine Spalte vorzuschlagen.
Fehlende Werte
Diese Dimension sucht nach fehlenden Werten in einer Spalte. Zeilen mit fehlenden Werten werden als unvollständig angesehen. Der Qualitätsscore basiert auf dem Prozentsatz von Zeilen in der Spalte, die vollständig sind.
Wenn eine Spalte beispielsweise 100 Werte enthält, von denen 40 fehlende Werte sind und keine anderen Qualitätsdimensionen identifiziert werden, beträgt der Qualitätsscore 60%, da 60 von 100 Werten als vollständig identifiziert werden.
Verdächtige Werte
Wenn die Datenklasse einer Spalte nicht festgestellt werden kann, sucht diese Metrik nach verdächtigen Werten, die von der Mehrheit der anderen Werte in der Spalte abweichen, weil ihre Merkmale unterschiedlich sind. Jeder verdächtige Wert, der gegen die Domäne verstößt, wird identifiziert. Der Qualitätsscore wird berechnet, indem der Prozentsatz der identifizierten Werte vom Prozentsatz 100 subtrahiert wird.
Wenn z. B. eine Spalte 100 Werte enthält und 98 dieser Werte numerische Zeichenfolgen mit einer Länge von fünf bis neun Zeichen sind, zwei Werte jedoch 30-45 Zeichen lange Textfolgen sind, werden diese beiden Werte als verdächtig ermittelt, weil sie von den Merkmalen der anderen Werte abweichen. Wenn keine anderen Qualitätsdimensionen identifiziert werden, hat die Spalte einen Qualitätsscore von 98%, da 2% der Werte fehlerverdächtig sind.
Sie können Verstöße gegen verdächtige Werte lösen, indem Sie die ermittelte(n) Spalte(n) überprüfen und die beste Vorgehensweise festlegen. In einigen Fällen müssen Sie beispielsweise eine Anmerkung erstellen, um Standardisierung für eine Spalte vorzuschlagen.
Werte außerhalb des gültigen Bereichs
Momentan nicht in der Metadatenaufbereitung ausgewertet.
Weitere Informationen
Übergeordnetes Thema: Ergebnisse der Metadatenaufbereitung