Für das gesamte Datenasset und für alle Spalten, die das analysierte Datenasset enthält, wird ein Datenqualitätsscore angezeigt. Datenqualitätsscores werden auf der Basis der Ergebnisse von Datenqualitätsprüfungen berechnet, die für das gesamte Asset und seine Spalten ausgeführt werden.
Die folgenden Typen von Datenqualitätsprüfungen stellen Datenqualitätsscores bereit:
Vordefinierte Datenqualitätsprüfungen
Diese Prüfungen werden ausgeführt, wenn Sie die Qualitätsanalyse als Teil der Metadatenaufbereitung ausführen. Jede Prüfung wird für das gesamte Asset ausgeführt. Abhängig vom Typ der Prüfung werden jedoch möglicherweise keine Ergebnisse für alle Spalten zurückgegeben.
Jede vordefinierte Datenqualitätsprüfung ist einer Datenqualitätsdimension zugeordnet.
Datenqualitätsregeln (Datenqualitätsregeln verwalten)
Datenqualitätsregeln validieren bestimmte Bedingungen in Ihrer Datenquelle. Sie können manuell oder automatisch nach einem Zeitplan ausgeführt werden.
Eine Datenqualitätsregel kann abhängig von der Konfiguration der Regel zu mehreren Dimensionen beitragen. Wenn für eine Regel keine Dimension festgelegt ist, werden ihre Ergebnisse als Dimensionsbewertung Keineerfasst.
Für jede Prüfung können Sie bestimmen, ob die Ergebnisse zum Gesamtdatenqualitätsscore beitragen. Siehe Ergebnisse der Datenqualitätsanalyse.
Sie können die Datenqualitätsbewertungen für einzelne Assets auch über die IBM Knowledge Catalog API abrufen.
Berechnung von Datenqualitätsscores
Der Spaltenscore wird als gewichteter Durchschnitt der verfügbaren Dimensionsscores für die Spalte berechnet. Dies bedeutet, dass die Scores aller Dimensionen, für die mindestens eine Datenqualitätsprüfung ausgeführt wurde, ein Ergebnis zurückgegeben haben.
Ein Dimensionsscoremit Ausnahme der Dimension Entitätskonfidenz wird berechnet, indem die Wahrscheinlichkeitszahlen aller Probleme, für die die Datenqualitätsprüfungen nach dieser Dimension gesucht haben, multipliziert werden, wobei die Wahrscheinlichkeitszahl eines Problems (1-Häufigkeit) ist. Angenommen, eine Spalte enthält zwei verschiedene Qualitätsprobleme, die für dieselbe Dimension gemeldet werden. Problem 1 tritt mit einer Häufigkeit von 10% und Problem 2 mit einer Häufigkeit von 20% auf. Daher beträgt die Wahrscheinlichkeit, dass ein Wert in dieser Spalte nicht Problem 1 aufweist, 90%. Bei Ausgabe 2 beträgt der Wert 80%. Die Wahrscheinlichkeit, dass die Spalte ein Qualitätsproblem in dieser Dimension hat, beträgt also 72%, was wie folgt berechnet wird:
(1.0 - 0.1) × (1.0 - 0.2) = 0.9 × 0.8 = 0.72
Für die Dimension Entitätskonfidenz stellt die Dimensionsbewertung den Prozentsatz der Entitäten des bestimmten Entitätstyps dar, die keine Datensätze mit potenziellen Übereinstimmungsproblemen als Mitglied haben.
Assetscores (der Gesamtscore oder die Dimensionsscores) werden als gewichteter Durchschnitt der entsprechenden Scores seiner Spalten berechnet.
In Projekten können Sie ändern, was bei der Berechnung der Scores berücksichtigt wird, indem Sie die Einstellung Trägt zur Gesamtbewertung bei ändern. Diese Einstellung ist standardmäßig aktiviert. Sie können die Ergebnisse vollständiger Spalten und die Ergebnisse für bestimmte Prüfungen auf Spaltenebene oder auf Assetebene ausschließen.
In Projekten werden die Qualitätsscores in den folgenden Fällen neu berechnet:
- Die Datenqualitätsanalyse wird im Kontext der Metadatenaufbereitung ausgeführt.
- Vorhandene oder neue Datenqualitätsregeln werden für das Asset ausgeführt.
- Eine Datenqualitätsregel, die zu den Scores beigetragen hat, wird gelöscht.
- Die Einstellung Trägt zur Gesamtbewertung bei wurde geändert.
- Ein IBM -Entitätsdatenasset Match 360 wird aktualisiert.
In Katalogen ändern sich die Qualitätsscores, wenn das Asset erneut veröffentlicht wird.
Beispiel für Scoreberechnung
Angenommen, ein Datenasset hat die Spalten ID, NAME, EMAIL, PHONE und SALARY. Alle Spalten und alle Problemtypen tragen zu den Gesamtscores bei (Standardeinstellung).
Anfangs sind keine Datenqualitätsscores verfügbar, da keine Datenqualitätsprüfung für das Asset ausgeführt wurde. So generieren Sie Informationen zur Datenqualität:
Die Analyse IBM Match 360 wird für das Datenasset ausgeführt und identifiziert die folgenden Probleme:
10% übereinstimmende Entitäten für das Datenasset. Diese Informationen werden für die Datenqualitätsdimension Entitätskonfidenzberücksichtigt.
Die folgenden Bewertungen auf Assetebene werden berechnet:
Dimensionsscore
Entitätskonfidenz: (1- 0.1) = 90%Gesamtbewertung: 90%
Datenqualitätsanalyse als Teil der Metadatenaufbereitung ausführen. Die Qualitätsanalyse identifiziert die folgenden Probleme:
- Fehlende Werte, die für die Datenqualitätsdimension Completenessberücksichtigt werden:
- 3% der Werte in Spalte NAME
- 5% der Werte in Spalte EMAIL
- 3% der Werte in Spalte PHONE
- Verstöße gegen Datenklassen, die für die Datenqualitätsdimension Validityberücksichtigt werden:
- 10% der Werte in Spalte EMAIL
- 6% der Werte in Spalte PHONE
- Ausreißer oder verdächtige Werte, die für die Datenqualitätsdimension Konsistenzberücksichtigt werden:
- 4% der Werte in Spalte NAME
- 1% der Werte in Spalte GEHALT
Diese Ergebnisse führen zu den folgenden Bewertungen für die einzelnen Spalten:
- Spalten-ID
- Dimensionsscores
Entity confidence: 90% (unverändert)
Vollständigkeit: 100% (Bei der Prüfung Unerwartete fehlende Werte wurden keine Probleme gefunden.)
Gültigkeit: 100% (Keine der vordefinierten Prüfungen auf Gültigkeit hat Probleme gefunden.)
Konsistenz: 100% (Die vordefinierten Konsistenzprüfungen haben Probleme gefunden.) - Gesamtspaltenscore: (90% + 100% + 100% + 100%) /4 = 97.5%
- Dimensionsscores
- Spaltenname
- Dimension scores
Entitätskonfidenz: 90% (unchanged)
Vollständigkeit: 100% - 3% = 97%
Gültigkeit: 100%
Konsistenz: 100% - 4% = 96% - Overall column score: (90% + 97% + 100% + 96%)/4 = 95.75%
- Dimension scores
- Spalte EMAIL
- Dimensionsscores
Entitätskonfidenz: 90% (unverändert)
Vollständigkeit: 100%-5% = 95%
Gültigkeit: 100%-10% = 90%
Konsistenz: 100% - Gesamtspaltenbewertung: (90Â% + 95Â% + 90Â% + 100Â%) /4 = 93.75%
- Dimensionsscores
- Spalte TELEFON
- Dimension scores
Entitätskonfidenz: 90% (unchanged)
Vollständigkeit: 100% - 3% = 97%
Gültigkeit: 100% - 6% = 94%
Konsistenz: 100% - Gesamtspaltenbewertung: (90% + 97% + 94% + 100%) /4 = 95.25%
- Dimension scores
- Spalte GEHALT
- Dimensionsscores
Entitätskonfidenz: 90% (unverändert)
Vollständigkeit: 100%
Gültigkeit: 100%
Konsistenz: 100%-1% = 99% - Overall column score: (90% + 100% + 100% + 99%)/4 = 97.25%
- Dimensionsscores
Aus diesen Bewertungen werden die Bewertungen auf Assetebene berechnet:
Dimension scores
Entitätskonfidenz: (90% + 90% + 90% + 90% + 90%)/5 = 90%
Vollständigkeit: (100% + 97% + 95% + 97% + 100%)/5 = 97.8%
Gültigkeit: (100% + 100% + 90% + 94% + 100%)/5 = 96.8%
Konsistenz: (100% + 96% + 100% +100% + 99%)/5 = 99%Gesamtbewertung: (97.5% + 95.75% + 93.75% + 95.25% + 97.25%) /5 = 95.9%
- Fehlende Werte, die für die Datenqualitätsdimension Completenessberücksichtigt werden:
Führen Sie die Datenqualitätsregel Name_Complete aus, die auf die Spalte NAME angewendet wird, um sicherzustellen, dass sie einen Vornamen und einen Nachnamen enthält. Die Regel ist an die Datenqualitätsdimension Vollständigkeitgebunden. Diese Regel meldet 1% Verstöße in Spalte NAME.
Die Bewertungen der Spalte NAME ändern sich wie folgt. Die Bewertungen der anderen Spalten bleiben unverändert.
- Dimensionsbewertungen
Entitätskonfidenz: 90% (unverändert)
Vollständigkeit: (1-0.03) × (1-0.01) = 0.9603 = 96.03%
Gültigkeit: 100% (unverändert)
Konsistenz: 96% (unverändert) - Overall score: (90% + 96.03% + 100% + 96%)/4 = 95.5%
Diese Änderungen ändern auch die Assetscores.
- Dimensionsbewertungen
Entitätskonfidenz: 90% (unverändert)
Vollständigkeit: (100% + 96% + 95% + 97% + 100%) /5 = 97.6%
Gültigkeit: 96.8% (unverändert)
Konsistenz: 99% (unverändert) - Gesamtbewertung:97.5% + 95.5% + 93.75% + 95.25% + 97.25%) /5 = 95.85%
- Dimensionsbewertungen
Führen Sie eine zusätzliche Datenqualitätsregel 'Phone_Valid' aus, die auf die Spalte PHONE angewendet wird, um sicherzustellen, dass die Telefonnummer die Landeskennzahl und das Präfix aufweist, die der Adresse entsprechen. Die Regel ist an die Datenqualitätsdimension Gültigkeitgebunden. Diese Regel meldet 2% Verstöße in Spalte PHONE.
Die Bewertungen der Spalte PHONE ändern sich wie folgt. Die Bewertungen der anderen Spalten bleiben unverändert.
- Dimensionsbewertungen
Entitätskonfidenz: 90% (unverändert)
Vollständigkeit: 97% (unverändert)
Gültigkeit: (1.0-0.06) × (1.0-0.02) = 0.9212 = 92.12%
Konsistenz: 100% - Gesamtscore: (90% + 97% + 92.12% + 100%) /4 = 94.78%
Diese Änderungen führen auch zu Änderungen der Assetscores.
- Dimensionsbewertungen
Entitätskonfidenz: 90% (unverändert)
Vollständigkeit: 97.6% (unverändert)
Gültigkeit: (100% + 100% + 90% + 92.12% + 100%) /5 = 96.42%
Konsistenz: 99% (unverändert) - Gesamtscore: = (97.5% + 95.5% + 93.75% + 94.78% + 97.25%) /5 = 95.76%
- Dimensionsbewertungen
Legen Sie fest, dass alle Prüfungen für die Dimension Konsistenz bei der Scoreberechnung ignoriert werden. Die Dimensionsbewertung für die Dimension Konsistenz wird nicht mehr angezeigt. Alle anderen Dimensionsbewertungen bleiben unverändert. Die Gesamtspalte und die Assetscores werden neu berechnet.
Column scores
xx Column ID: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 100%)/(1 + 1 + 1 + 0) = 96.67%
Column NAME: (1 × 90% + 1 × 96.03% + 1 × 100% + 0 × 96%)/(1 + 1 + 1 + 0) = 95.34%
Column EMAIL: (1 × 90% + 1 × 95% + 1 × 90% + 0 × 100%)/(1 + 1 + 1 + 0) = 91.67%
Column PHONE: (1 × 90% + 1 × 97% + 1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 0) = 94.78%
Column SALARY: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 99%)/(1 + 1 + 1 + 0) = 96.67%Gesamtassetscore: (96.67 + 95.34% + 91.67% + 93.04% + 96.67)/5 = 94.68%
Schließt die Ergebnisse für die Spalte GEHALT aus der Bewertungsberechnung aus. Die Spaltenscores ändern sich nicht. Die Gesamt-und Dimensionsbewertungen für das Asset werden wie folgt neu berechnet:
- Dimension scores
Entitätskonfidenz: (1 × 90% + 1 × 90% + 1 × 90% + 1 × 90% + 0 × 90%)/(1 + 1+ 1 + 1 + 0) = 90%
Vollständigkeit: (1 × 100% + 1 × 96.03% + 1 × 95% + 1 × 97% + 0 × 100%)/(1 + 1+ 1 + 1 + 0) = 97%
Gültigkeit: (1 × 100% + 1 × 100% +1 × 90% +1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 1 + 0) = 95.53%
Konsistenz: not shown - Gesamtasset = (100% + 98.02% + 92.5% + 92.74% + 0%)/(1 + 1 + 1 + 1 + 0) = 95.82%
- Dimension scores
Weitere Informationen
- Profil für Asset erstellen
- Metadatenaufbereitung
- Datenqualität bewerten
- Vordefinierte Datenqualitätsprüfungen
- IBM Knowledge Catalog API: Abrufen einer Liste von Datenqualitätsbewertungen für ein bestimmtes Asset
Übergeordnetes Thema: Ergebnisse der Datenqualitätsanalyse