Vordefinierte Datenqualitätsprüfungen werden automatisch ausgeführt, wenn Sie eine grundlegende Datenqualitätsanalyse als Teil der Metadatenaufbereitung ausführen. Diese Datenqualitätsprüfungen identifizieren grundlegende Qualitätsprobleme mit Ihren Daten auf Datenasset-und Spaltenebene.
Die folgenden Datenqualitätsprüfungen generieren individuelle Qualitätsscores und tragen zum Gesamtqualitätsscore eines Datenassets oder einer Spalte bei:
- Datenklassenverstöße
- Datentypverstöße
- Formatverstöße
- Inkonsistente Großschreibung
- Inkonsistente Darstellung fehlender Werte
- Verdächtige Werte
- Unerwartete duplizierte Werte
- Unerwartete fehlende Werte
- Werte außerhalb des gültigen Bereichs
Außerdem ist jeder Datenqualitätsprüfung eine Datenqualitätsdimension zugeordnet. Siehe Datenqualitätsdimensionen.
Die Ergebnisse dieser Prüfungen werden als Teil der Datenqualitätsinformationen für ein Datenasset oder eine Spalte angezeigt. Siehe Ergebnisse der Datenqualitätsanalyse. Allerdings wird nicht jede Prüfung auf alle Spalten in einem Datenasset angewendet. Welche Prüfungen ausgeführt werden, hängt vom Datentyp der Spalte und den darin enthaltenen Daten ab.
Die vordefinierten Prüfungen validieren einzelne Werte (wertbasierte Prüfungen) in einer Spalte oder die Spaltenmetadaten, die während der Profilerstellung gefunden wurden (metadatenbasierte Prüfungen).
Verstöße gegen die Datenklasse
Eine Datenklasse ist die Art von Daten, die für eine bestimmte Spalte erkannt wird. Beispiele für Datenklassen sind Postleitzahl, Land oder Kreditkartennummer. Diese Prüfung zählt die Anzahl der Werte in einer Spalte, die nicht mit der erkannten Datenklasse dieser Spalte übereinstimmen. Jeder Wert, der gegen die Datenklasse verstößt, wird identifiziert. Der Qualitätsscore wird berechnet, indem der Prozentsatz der identifizierten Werte vom Prozentsatz 100 subtrahiert wird.
Beispiel: Einer Spalte ist die Datenklasse 'Kreditkartennummer' zugeordnet. Der erwartete Wert für die Datenklasse ist eine numerische Zeichenfolge mit 16 Zeichen. Wenn in dieser Spalte ein Wert 'MA,' vorkommt, wird dieser Wert als Verstoß gegen die Datenklasse erkannt. Wenn diese Spalte 100 Werte enthält, stimmen 40 Werte nicht mit der Klasse überein, hat die Spalte einen Qualitätsscore von 60% für diese Prüfung, da 40% der Werte gegen die Datenklasse der Spalte verstoßen.
Typ der Prüfung: Wertbasierte Prüfung
Dimension: Gültigkeit
Verstöße gegen den Datentyp
Ein Datentyp definiert das gültige Format für Daten in einer bestimmten Spalte. Beispiele für Datentypen sind Text, Zahl oder Datumsangabe. Dieser Messwert gibt an, wie viele Werte in einer Spalte nicht den erkannten oder zugeordneten Datentyp für die Spalte aufweisen. Jeder Wert, dessen Länge, Genauigkeit oder Anzahl der Kommastellen nicht mit dem abgeleiteten Datentyp übereinstimmt oder gegen den angegebenen Datentyp verstößt, wird identifiziert. Der Qualitätsscore wird berechnet, indem der Prozentsatz der identifizierten Werte vom Prozentsatz 100 subtrahiert wird.
Beispiel: Für eine Spalte ist der dezimale Datentyp 'DECIMAL(4,2)' angegeben. Dieser Datentyp definiert das Format der Spalte als Zahlenwert mit einer Gesamtlänge von 4 Stellen, von denen zwei auf das Dezimalkomma folgen. Wenn diese Spalte einen numerischen Wert mit zu vielen Ziffern enthält, wird dieser Wert als Verstoß gegen den Datentyp identifiziert. Wenn diese Spalte 100 Werte enthält, stimmen 40 Werte nicht mit dem Typ überein, hat die Spalte einen Qualitätsscore von 60% für diese Prüfung, da 40% der Werte gegen den Datentyp der Spalte verstoßen.
Typ der Prüfung: Wertbasierte Prüfung
Dimension: Gültigkeit
Formatverstöße
Derzeit nicht für die Anreicherung von Metadaten ausgewertet. Daher wird immer ein Datenqualitätsscore von 100% angezeigt.
Typ der Prüfung: Wertbasierte Prüfung
Dimension: Gültigkeit
Inkonsistente Großschreibung
Bei dieser Prüfung wird untersucht, ob die Großschreibung der Werte in einer Spalte konsistent ist. In Spalten des Datentyps 'String' können Werte eine beliebige Groß-/Kleinschreibung, eine beliebige Groß-/Kleinschreibung, eine beliebige Groß-/Kleinschreibung für einen Satz oder eine beliebige Groß-oder Kleinschreibung aufweisen. Wenn die Prüfung ergibt, dass die meisten (über 95 %) der Werte eine bestimmte Großschreibung aufweisen, werden die restlichen Werte als Qualitätsprobleme gekennzeichnet.
Ein Beispiel: Eine Spalte hat 100 Werte. Von diesen Werten sind 90 Kleinbuchstaben, und 10 sind Großbuchstaben. So the check sets the column's quality score to 90% because 10% of the values are in a different case than the majority.
Maßnahme bei inkonsistenter Großschreibung: Untersuchen Sie die betreffende(n) Spalte(n), um weitere Informationen zu erhalten und eine geeignete Maßnahme festzulegen. In einigen Fällen müssen Sie beispielsweise eine Anmerkung erstellen, um Standardisierung für eine Spalte vorzuschlagen.
Typ der Prüfung: Wertbasierte Prüfung
Dimension: Konsistenz
Inkonsistente Darstellung fehlender Werte
Datenassets enthalten häufig unterschiedliche Darstellungen für fehlende Daten. +Eine Spalte in einem Datenasset könnte beispielsweise mehrere Nullwerte, Angaben "nicht zutreffend" und leere Felder enthalten. Alle diese Werte können Anzeichen für fehlende Daten sein, werden jedoch unterschiedlich interpretiert und können zu Ungenauigkeiten bei der Analyse führen. Die inkonsistente Darstellung fehlender Werte wird erkannt, indem Spalten mit Nullwerten und mit leeren Werten identifiziert werden. Eine Spalte, die sowohl Nullwerte als auch leere Werte enthält, deutet darauf hin, dass kein standardisiertes Darstellungsverfahren für fehlende Werte vorhanden ist. Wenn eine Spalte Nullwerte enthält, sollten leere Werte meist ebenfalls als Null dargestellt werden.
Jeder Wert, der diese Kriterien in einer Spalte erfüllt, wird ermittelt. Der Qualitätsscore wird berechnet, indem der Prozentsatz der identifizierten Werte vom Prozentsatz 100 subtrahiert wird.
Sie können Verstöße gegen die Darstellung fehlender Werte lösen, indem Sie die ermittelte(n) Spalte(n) überprüfen und die beste Vorgehensweise festlegen. In einigen Fällen müssen Sie beispielsweise eine Anmerkung erstellen, um Standardisierung für eine Spalte vorzuschlagen.
Typ der Prüfung: Wertbasierte Prüfung
Dimension: Konsistenz
Verdächtige Werte
Bei dieser Prüfung wird nach verdächtigen Werten gesucht, die anscheinend nicht mit der Mehrheit der anderen Werte in der Spalte übereinstimmen, da ihre Merkmale unterschiedlich sind. Sie identifiziert Ausreißer in numerischen Spalten oder Zeichenfolgespalten mit numerischen Daten. Ergebnisse für Zeichenfolgespalten mit Zeichenfolgewerten werden ignoriert. Der Qualitätsscore wird berechnet, indem der Prozentsatz der identifizierten Werte vom Prozentsatz 100 subtrahiert wird.
Wenn z. B. eine Spalte 100 Werte enthält und 98 dieser Werte numerische Zeichenfolgen mit einer Länge von fünf bis neun Zeichen sind, zwei Werte jedoch 30-45 Zeichen lange Textfolgen sind, werden diese beiden Werte als verdächtig ermittelt, weil sie von den Merkmalen der anderen Werte abweichen. For this individual check, the column has a quality score of 98% because 2% of the values are suspect.
Sie können Verstöße gegen verdächtige Werte lösen, indem Sie die ermittelte(n) Spalte(n) überprüfen und die beste Vorgehensweise festlegen. In einigen Fällen müssen Sie beispielsweise eine Anmerkung erstellen, um Standardisierung für eine Spalte vorzuschlagen.
Typ der Prüfung: Wertbasierte Prüfung
Dimension: Konsistenz
Unerwartete duplizierte Werte
Diese Prüfung identifiziert doppelte Werte in Spalten, in denen die meisten Werte eindeutig sind. Alle nicht eindeutigen Werte werden als Qualitätsprobleme markiert. Der Schwellenwert für Eindeutigkeit wird in den Einstellungen für die Metadatenaufbereitung festgelegt. Die Standardeinstellung ist 95 %. Siehe Schwellenwert für Eindeutigkeit.
Der Qualitätsscore wird berechnet, indem der Prozentsatz der identifizierten Werte vom Prozentsatz 100 subtrahiert wird. Beispiel: Ein Dataset mit Patientendaten enthält eine Spalte mit Sozialversicherungsnummern. Die meisten Werte in der Spalte erscheinen nur einmal, da jeder Patient nur mit einer SSN verbunden ist. Jeder doppelte Wert in dieser Spalte wird identifiziert. Wenn die Spalte 100 Werte hat, 3 Werte sind Duplikate, hat die Spalte einen Qualitätsscore von 97% für diese Prüfung, da 3% der Werte Duplikate sind.
Typ der Prüfung : Metadatenbasierte Prüfung
Dimension: Eindeutigkeit
Unerwartete fehlende Werte
Bei dieser Prüfung wird nach unerwarteten fehlenden Werten in Spalten gesucht. Wenn eine Spalte fast keine Nullwerte oder leere Werte enthält, werden Zeilen mit fehlenden Werten als unvollständig betrachtet. Der Nullschwellenwert bestimmt, wann fehlende Werte zulässig sind und wann fehlende Werte als unerwartet betrachtet werden. Dieser Schwellenwert wird in den Einstellungen für die Metadatenaufbereitung festgelegt. Die Standardeinstellung ist 5%, was bedeutet, dass fehlende Werte in 5% oder weniger der Zeilen in einer Spalte als unerwartete fehlende Werte betrachtet werden. Siehe Nullfähigkeit.
Der Qualitätsscore basiert auf dem Prozentsatz der Werte in dieser Spalte, die vollständig sind. Bei der Standardeinstellung beträgt der Qualitätsscore für diese Prüfung beispielsweise 96%, wenn eine Spalte 100 Werte enthält und 4 Werte fehlen. Wenn 9 Werte fehlen, beträgt der Qualitätsscore 100%, da diese Anzahl fehlender Werte über dem festgelegten Schwellenwert liegt und fehlende Werte nicht als unerwartet betrachtet werden.
Typ der Prüfung: Wertbasierte Prüfung
Dimension: Vollständigkeit
Werte außerhalb des gültigen Bereichs
Derzeit nicht für die Anreicherung von Metadaten ausgewertet. Daher wird immer ein Datenqualitätsscore von 100% angezeigt.
Typ der Prüfung: Wertbasierte Prüfung
Dimension: Gültigkeit
Weitere Informationen
Übergeordnetes Thema: Datenqualität verwalten