Datenqualitätsverstöße | IBM Cloud Pak for Data as a Service

Übersetzung nicht aktuell

Die Übersetzung dieser Seite stellt nicht die neueste Version dar. Die neuesten Aktualisierungen finden Sie in der englischen Version der Dokumentation.

Zurück zur englischen Version der Dokumentation

Datenqualitätsverstöße

Die Datenqualitätsanalyse identifiziert Qualitätsprobleme mit Ihren Daten, indem sie Qualitätsdimensionen sowohl auf Datenasset- als auch auf Spaltenebene analysiert.

Ergebnisse werden für die folgenden Datenqualitätsverstöße bereitgestellt:

Datenklassenverstöße
Datentypverstöße
Formatverstöße
Inkonsistente Großschreibung
Inkonsistente Darstellung fehlender Werte
Verdächtige Werte
Unerwartete duplizierte Werte
Unerwartete fehlende Werte
Werte außerhalb des gültigen Bereichs

Für jeden Typ von Verstoß werden die Anzahl der Ergebnisse und der Prozentsatz der ausgewerteten Datensätze angezeigt, für die dieser Verstoß aufgetreten ist.

Verstöße gegen die Datenklasse

Eine Datenklasse ist die für eine bestimmte Spalte erkannte Datenart. Beispiele für Datenklassen sind Postleitzahl, Land oder Kreditkartennummer. Dieser Messwert gibt an, wie viele Werte in einer Spalte nicht der für diese Spalte erkannten Datenklasse entsprechen. Jeder Wert, der gegen die Datenklasse verstößt, wird identifiziert. Der Qualitätsscore wird berechnet, indem der Prozentsatz der identifizierten Werte vom Prozentsatz 100 subtrahiert wird.

Beispiel: Einer Spalte ist die Datenklasse 'Kreditkartennummer' zugeordnet. Der erwartete Wert für die Datenklasse ist eine numerische Zeichenfolge mit 16 Zeichen. Wenn in dieser Spalte ein Wert 'MA,' vorkommt, wird dieser Wert als Verstoß gegen die Datenklasse erkannt. Wenn diese Spalte 100 Werte enthält, 40 Werte nicht mit der Klasse übereinstimmen und keine anderen Qualitätsdimensionen identifiziert werden, weist die Spalte einen Qualitätsscore von 60% auf, da 40% der Werte gegen die Datenklasse der Spalte verstoßen.

Verstöße gegen den Datentyp

Ein Datentyp definiert das gültige Format für Daten in einer bestimmten Spalte. Beispiele für Datentypen sind Text, Zahl oder Datumsangabe. Dieser Messwert gibt an, wie viele Werte in einer Spalte nicht den erkannten oder zugeordneten Datentyp für die Spalte aufweisen. Jeder Wert, dessen Länge, Genauigkeit oder Anzahl der Kommastellen nicht mit dem abgeleiteten Datentyp übereinstimmt oder gegen den angegebenen Datentyp verstößt, wird identifiziert. Der Qualitätsscore wird berechnet, indem der Prozentsatz der identifizierten Werte vom Prozentsatz 100 subtrahiert wird.

Beispiel: Für eine Spalte ist der dezimale Datentyp 'DECIMAL(4,2)' angegeben. Dieser Datentyp definiert das Format der Spalte als Zahlenwert mit einer Gesamtlänge von 4 Stellen, von denen zwei auf das Dezimalkomma folgen. Wenn die Spalte einen Zahlenwert mit zu vielen Stellen enthält, wird dieser Wert als Verstoß gegen den Datentyp erkannt. Wenn diese Spalte 100 Werte enthält, 40 Werte nicht mit dem Typ übereinstimmen und keine anderen Qualitätsdimensionen identifiziert werden, weist die Spalte einen Qualitätsscore von 60% auf, da 40% der Werte gegen den Datentyp der Spalte verstoßen.

Formatverstöße

Momentan nicht in der Metadatenaufbereitung ausgewertet.

Inkonsistente Großschreibung

Diese Dimension prüft, ob die Verwendung von Groß- und Kleinbuchstaben im analysierten Datenasset konsistent ist.

Angenommen, eine Spalte enthält Werte, die in Klein- und Großbuchstaben geschrieben werden. If the column has 100 values, 90 of them are in lowercase, and 10 of them are in uppercase, and no other quality dimensions are identified, the column has a quality score of 90% because 10% of the values are in a different case than the majority.

Maßnahme bei inkonsistenter Großschreibung: Untersuchen Sie die betreffende(n) Spalte(n), um weitere Informationen zu erhalten und eine geeignete Maßnahme festzulegen. In einigen Fällen müssen Sie beispielsweise eine Anmerkung erstellen, um Standardisierung für eine Spalte vorzuschlagen.

Inkonsistente Darstellung fehlender Werte

Datenassets enthalten häufig unterschiedliche Darstellungen für fehlende Daten. +Eine Spalte in einem Datenasset könnte beispielsweise mehrere Nullwerte, Angaben "nicht zutreffend" und leere Felder enthalten. Alle diese Werte können Anzeichen für fehlende Daten sein, werden jedoch unterschiedlich interpretiert und können zu Ungenauigkeiten bei der Analyse führen. Die inkonsistente Darstellung fehlender Werte wird erkannt, indem Spalten mit Nullwerten und mit leeren Werten identifiziert werden. Eine Spalte, die sowohl Nullwerte als auch leere Werte enthält, deutet darauf hin, dass kein standardisiertes Darstellungsverfahren für fehlende Werte vorhanden ist. Wenn eine Spalte Nullwerte enthält, sollten leere Werte meist ebenfalls als Null dargestellt werden.

Jeder Wert, der diese Kriterien in einer Spalte erfüllt, wird ermittelt. Der Qualitätsscore wird berechnet, indem der Prozentsatz der identifizierten Werte vom Prozentsatz 100 subtrahiert wird.

Sie können Verstöße gegen die Darstellung fehlender Werte lösen, indem Sie die ermittelte(n) Spalte(n) überprüfen und die beste Vorgehensweise festlegen. In einigen Fällen müssen Sie beispielsweise eine Anmerkung erstellen, um Standardisierung für eine Spalte vorzuschlagen.

Verdächtige Werte

Wenn die Datenklasse einer Spalte nicht festgestellt werden kann, sucht diese Metrik nach verdächtigen Werten, die von der Mehrheit der anderen Werte in der Spalte abweichen, weil ihre Merkmale unterschiedlich sind. Jeder verdächtige Wert, der gegen die Domäne verstößt, wird identifiziert. Der Qualitätsscore wird berechnet, indem der Prozentsatz der identifizierten Werte vom Prozentsatz 100 subtrahiert wird.

Wenn z. B. eine Spalte 100 Werte enthält und 98 dieser Werte numerische Zeichenfolgen mit einer Länge von fünf bis neun Zeichen sind, zwei Werte jedoch 30-45 Zeichen lange Textfolgen sind, werden diese beiden Werte als verdächtig ermittelt, weil sie von den Merkmalen der anderen Werte abweichen. Wenn keine anderen Qualitätsdimensionen identifiziert werden, hat die Spalte einen Qualitätsscore von 98%, da 2% der Werte fehlerverdächtig sind.

Sie können Verstöße gegen verdächtige Werte lösen, indem Sie die ermittelte(n) Spalte(n) überprüfen und die beste Vorgehensweise festlegen. In einigen Fällen müssen Sie beispielsweise eine Anmerkung erstellen, um Standardisierung für eine Spalte vorzuschlagen.

Unerwartete duplizierte Werte

Diese Dimension ermittelt doppelte Werte in Spalten, in denen die meisten Werte eindeutig sind. Der Schwellenwert für Eindeutigkeit wird in den Einstellungen für die Metadatenaufbereitung festgelegt. Die Standardeinstellung ist 95 %. Siehe Schwellenwert für Eindeutigkeit. In einer Spalte, in der mindestens 95% der Werte als eindeutig identifiziert werden, wird jeder doppelte Wert identifiziert. Der Qualitätsscore wird berechnet, indem der Prozentsatz der identifizierten Werte vom Prozentsatz 100 subtrahiert wird.

Beispiel: Ein Dataset mit Patientendaten enthält eine Spalte mit Sozialversicherungsnummern. Der größte Teil der Werte in dieser Spalte kommt jeweils nur einmal vor, da jedem Patienten genau eine Sozialversicherungsnummer zugeordnet ist. Jeder doppelte Wert in dieser Spalte wird identifiziert. Wenn die Spalte 100 Werte hat, 3 Werte Duplikate sind und keine anderen Qualitätsdimensionen identifiziert werden, hat die Spalte einen Qualitätsscore von 97%, da 3% der Werte Duplikate sind.

Unerwartete fehlende Werte

Diese Dimension sucht nach unerwarteten fehlenden Werten in Spalten. Wenn eine Spalte fast keine Nullwerte oder leere Werte enthält, werden Zeilen mit fehlenden Werten als unvollständig betrachtet. Der Nullschwellenwert bestimmt, wann fehlende Werte zulässig sind und wann fehlende Werte als unerwartet betrachtet werden. Dieser Schwellenwert wird in den Einstellungen für die Metadatenaufbereitung festgelegt. Die Standardeinstellung ist 5%, was bedeutet, dass fehlende Werte in 5% oder weniger der Zeilen in einer Spalte als unerwartete fehlende Werte betrachtet werden. Siehe Nullfähigkeit.

Der Qualitätsscore basiert auf dem Prozentsatz der Werte in dieser Spalte, die vollständig sind. Bei der Standardeinstellung beträgt der Qualitätsscore für diese Prüfung beispielsweise 96%, wenn eine Spalte 100 Werte enthält und 4 Werte fehlen. Wenn 9 Werte fehlen, beträgt der Qualitätsscore 100%, da diese Anzahl fehlender Werte über dem festgelegten Schwellenwert liegt und fehlende Werte nicht als unerwartet angesehen werden.

Werte außerhalb des gültigen Bereichs

Momentan nicht in der Metadatenaufbereitung ausgewertet.

Weitere Informationen

Übergeordnetes Thema: Ergebnisse der Metadatenaufbereitung