Datenqualitätsscores
Für das gesamte Datenasset und für alle Spalten, die das analysierte Datenasset enthält, wird ein Datenqualitätsscore angezeigt. Datenqualitätsscores werden auf der Basis der Ergebnisse von Datenqualitätsprüfungen berechnet, die für das gesamte Asset und seine Spalten ausgeführt werden.
Die folgenden Typen von Datenqualitätsprüfungen stellen Datenqualitätsscores bereit:
Vordefinierte Datenqualitätsprüfungen
Diese Prüfungen werden ausgeführt, wenn Sie die Qualitätsanalyse als Teil der Metadatenaufbereitung ausführen. Jede Prüfung wird für das gesamte Asset ausgeführt. Abhängig vom Typ der Prüfung werden jedoch möglicherweise keine Ergebnisse für alle Spalten zurückgegeben.
Jede vordefinierte Datenqualitätsprüfung ist einer Datenqualitätsdimension zugeordnet.
Datenqualitätsregeln (Datenqualitätsregeln verwalten)
Datenqualitätsregeln validieren bestimmte Bedingungen in Ihrer Datenquelle. Sie können manuell oder automatisch nach einem Zeitplan ausgeführt werden.
Eine Datenqualitätsregel kann abhängig von der Konfiguration der Regel zu mehreren Dimensionen beitragen. Wenn für eine Regel keine Dimension festgelegt ist, werden ihre Ergebnisse als Dimensionsbewertung Keineerfasst.
Für jede Prüfung können Sie bestimmen, ob die Ergebnisse zum Gesamtdatenqualitätsscore beitragen. Siehe Ergebnisse der Datenqualitätsanalyse.
Sie können die Datenqualitätsbewertungen für einzelne Assets auch über die IBM Knowledge Catalog API abrufen.
Berechnung von Datenqualitätsscores
Der Spaltenscore wird als gewichteter Durchschnitt der verfügbaren Dimensionsscores für die Spalte berechnet. Dies bedeutet, dass die Scores aller Dimensionen, für die mindestens eine Datenqualitätsprüfung ausgeführt wurde, ein Ergebnis zurückgegeben haben.
Ein Dimensionsscoremit Ausnahme der Dimension Entitätskonfidenz wird berechnet, indem die Wahrscheinlichkeitszahlen aller Probleme, für die die Datenqualitätsprüfungen nach dieser Dimension gesucht haben, multipliziert werden, wobei die Wahrscheinlichkeitszahl eines Problems (1-Häufigkeit) ist. Angenommen, eine Spalte enthält zwei verschiedene Qualitätsprobleme, die für dieselbe Dimension gemeldet werden. Problem 1 tritt mit einer Häufigkeit von 10% und Problem 2 mit einer Häufigkeit von 20% auf. Daher beträgt die Wahrscheinlichkeit, dass ein Wert in dieser Spalte nicht Problem 1 aufweist, 90%. Bei Ausgabe 2 beträgt der Wert 80%. Die Wahrscheinlichkeit, dass die Spalte ein Qualitätsproblem in dieser Dimension hat, beträgt also 72%, was wie folgt berechnet wird:
(1.0 - 0.1) × (1.0 - 0.2) = 0.9 × 0.8 = 0.72
Für die Dimension Entitätskonfidenz stellt die Dimensionsbewertung den Prozentsatz der Entitäten des bestimmten Entitätstyps dar, die keine Datensätze mit potenziellen Übereinstimmungsproblemen als Mitglied haben.
Assetscores (der Gesamtscore oder die Dimensionsscores) werden als gewichteter Durchschnitt der entsprechenden Scores seiner Spalten berechnet.
In Projekten können Sie ändern, was bei der Berechnung der Scores berücksichtigt wird, indem Sie die Einstellung Trägt zur Gesamtbewertung bei ändern. Diese Einstellung ist standardmäßig aktiviert. Sie können die Ergebnisse vollständiger Spalten und die Ergebnisse für bestimmte Prüfungen auf Spaltenebene oder auf Assetebene ausschließen.
In Projekten werden die Qualitätsscores in den folgenden Fällen neu berechnet:
- Die Datenqualitätsanalyse wird im Kontext der Metadatenaufbereitung ausgeführt.
- Vorhandene oder neue Datenqualitätsregeln werden für das Asset ausgeführt.
- Eine Datenqualitätsregel, die zu den Scores beigetragen hat, wird gelöscht.
- Die Einstellung Trägt zur Gesamtbewertung bei wurde geändert.
- Ein IBM -Entitätsdatenasset Match 360 wird aktualisiert.
In Katalogen ändern sich die Qualitätsscores, wenn das Asset erneut veröffentlicht wird.
Wie die Datenqualitätsbewertungen für SQL-basierte Datenqualitätsregeln berechnet werden
Wenn eine SQL-basierte Regel ausgeführt wird, wird zunächst geprüft, ob für das Asset ein Profiling durchgeführt wurde und ob die Profiling-Ergebnisse die Gesamtzahl der Datensätze enthalten. Die Anzahl der Datensätze wird für die Berechnung der Qualitätsbewertung herangezogen, wenn die Anzahl niedriger ist als der in der Metadatenanreicherung festgelegte Stichprobenumfang.
Wenn auf diese Weise keine Datensatzanzahl festgelegt werden kann, wird der Anlagentyp geprüft. Bei einem abfragebasierten Asset wird die folgende Abfrage ausgeführt, um die Datensätze aus der Datenquelle abzurufen:
select count(*) from (<original query>)
Dabei ist <originale Abfrage> die SQL-Anweisung, die das abfragegestützte Asset erstellt.
Kann die Anzahl der Datensätze auf diese Weise nicht ermittelt werden oder handelt es sich bei dem Asset nicht um ein abfragebasiertes Asset, wird geprüft, ob der Konnektor, der für den Import des Daten-Assets verwendet wird, die Gesamtzahl der Datensätze abrufen kann. Ist dies der Fall, wird die Anzahl der Datensätze abgefragt.
Wenn die Gesamtzahl der Datensätze kleiner ist als die Anzahl der Ausgabedatensätze der Regel oder wenn keine Gesamtzahl der Datensätze ermittelt werden kann, wird die Datenqualitätsbewertung auf 0 % gesetzt. Andernfalls wird die Punktzahl wie folgt berechnet:
(1 - <Anzahl_der_Ausgabedatensätze>/<Gesamtzahl_der_Datensätze>) × 100
Beispiel für Scoreberechnung
Angenommen, ein Datenasset hat die Spalten ID, NAME, EMAIL, PHONE und SALARY. Alle Spalten und alle Problemtypen tragen zu den Gesamtscores bei (Standardeinstellung).
Anfangs sind keine Datenqualitätsscores verfügbar, da keine Datenqualitätsprüfung für das Asset ausgeführt wurde. So generieren Sie Informationen zur Datenqualität:
Die Analyse IBM Match 360 wird für das Datenasset ausgeführt und identifiziert die folgenden Probleme:
10% übereinstimmende Entitäten für das Datenasset. Diese Informationen werden für die Datenqualitätsdimension Entitätskonfidenzberücksichtigt.
Die folgenden Bewertungen auf Assetebene werden berechnet:
Dimensionsscore
Entitätskonfidenz: (1- 0.1) = 90%Gesamtbewertung: 90%
Datenqualitätsanalyse als Teil der Metadatenaufbereitung ausführen. Die Qualitätsanalyse identifiziert die folgenden Probleme:
- Fehlende Werte, die für die Datenqualitätsdimension Completenessberücksichtigt werden:
- 3% der Werte in Spalte NAME
- 5% der Werte in Spalte EMAIL
- 3% der Werte in Spalte PHONE
- Verstöße gegen Datenklassen, die für die Datenqualitätsdimension Validityberücksichtigt werden:
- 10% der Werte in Spalte EMAIL
- 6% der Werte in Spalte PHONE
- Ausreißer oder verdächtige Werte, die für die Datenqualitätsdimension Konsistenzberücksichtigt werden:
- 4% der Werte in Spalte NAME
- 1% der Werte in Spalte GEHALT
Diese Ergebnisse führen zu den folgenden Bewertungen für die einzelnen Spalten:
- Spalten-ID
- Dimensionsscores
Entity confidence: 90% (unverändert)
Vollständigkeit: 100% (Bei der Prüfung Unerwartete fehlende Werte wurden keine Probleme gefunden.)
Gültigkeit: 100% (Keine der vordefinierten Prüfungen auf Gültigkeit hat Probleme gefunden.)
Konsistenz : 100% (Bei keiner der vordefinierten Konsistenzprüfungen wurden Probleme festgestellt) - Gesamtspaltenscore: (90% + 100% + 100% + 100%) /4 = 97.5%
- Dimensionsscores
- Spaltenname
- Dimension scores
Entitätskonfidenz: 90% (unchanged)
Vollständigkeit: 100% - 3% = 97%
Gültigkeit: 100%
Konsistenz: 100% - 4% = 96% - Overall column score: (90% + 97% + 100% + 96%)/4 = 95.75%
- Dimension scores
- Spalte EMAIL
- Dimensionsscores
Entitätskonfidenz: 90% (unverändert)
Vollständigkeit: 100%-5% = 95%
Gültigkeit: 100%-10% = 90%
Konsistenz: 100% - Gesamtspaltenbewertung: (90Â% + 95Â% + 90Â% + 100Â%) /4 = 93.75%
- Dimensionsscores
- Spalte TELEFON
- Dimension scores
Entitätskonfidenz: 90% (unchanged)
Vollständigkeit: 100% - 3% = 97%
Gültigkeit: 100% - 6% = 94%
Konsistenz: 100% - Gesamtspaltenbewertung: (90% + 97% + 94% + 100%) /4 = 95.25%
- Dimension scores
- Spalte GEHALT
- Dimensionsscores
Entitätskonfidenz: 90% (unverändert)
Vollständigkeit: 100%
Gültigkeit: 100%
Konsistenz: 100%-1% = 99% - Overall column score: (90% + 100% + 100% + 99%)/4 = 97.25%
- Dimensionsscores
Aus diesen Bewertungen werden die Bewertungen auf Assetebene berechnet:
Dimension scores
Entitätskonfidenz: (90% + 90% + 90% + 90% + 90%)/5 = 90%
Vollständigkeit: (100% + 97% + 95% + 97% + 100%)/5 = 97.8%
Gültigkeit: (100% + 100% + 90% + 94% + 100%)/5 = 96.8%
Konsistenz: (100% + 96% + 100% +100% + 99%)/5 = 99%Gesamtbewertung: (97.5% + 95.75% + 93.75% + 95.25% + 97.25%) /5 = 95.9%
- Fehlende Werte, die für die Datenqualitätsdimension Completenessberücksichtigt werden:
Führen Sie die Datenqualitätsregel Name_Complete aus, die auf die Spalte NAME angewendet wird, um sicherzustellen, dass sie einen Vornamen und einen Nachnamen enthält. Die Regel ist an die Datenqualitätsdimension Vollständigkeitgebunden. Diese Regel meldet 1% Verstöße in Spalte NAME.
Die Bewertungen der Spalte NAME ändern sich wie folgt. Die Bewertungen der anderen Spalten bleiben unverändert.
- Dimensionsbewertungen
Entitätskonfidenz: 90% (unverändert)
Vollständigkeit: (1-0.03) × (1-0.01) = 0.9603 = 96.03%
Gültigkeit: 100% (unverändert)
Konsistenz: 96% (unverändert) - Overall score: (90% + 96.03% + 100% + 96%)/4 = 95.5%
Diese Änderungen ändern auch die Assetscores.
- Dimensionsbewertungen
Entitätskonfidenz: 90% (unverändert)
Vollständigkeit: (100% + 96% + 95% + 97% + 100%) /5 = 97.6%
Gültigkeit: 96.8% (unverändert)
Konsistenz: 99% (unverändert) - Gesamtbewertung:97.5% + 95.5% + 93.75% + 95.25% + 97.25%) /5 = 95.85%
- Dimensionsbewertungen
Führen Sie eine zusätzliche Datenqualitätsregel 'Phone_Valid' aus, die auf die Spalte PHONE angewendet wird, um sicherzustellen, dass die Telefonnummer die Landeskennzahl und das Präfix aufweist, die der Adresse entsprechen. Die Regel ist an die Datenqualitätsdimension Gültigkeitgebunden. Diese Regel meldet 2% Verstöße in Spalte PHONE.
Die Bewertungen der Spalte PHONE ändern sich wie folgt. Die Bewertungen der anderen Spalten bleiben unverändert.
- Dimensionsbewertungen
Entitätskonfidenz: 90% (unverändert)
Vollständigkeit: 97% (unverändert)
Gültigkeit: (1.0-0.06) × (1.0-0.02) = 0.9212 = 92.12%
Konsistenz: 100% - Gesamtscore: (90% + 97% + 92.12% + 100%) /4 = 94.78%
Diese Änderungen führen auch zu Änderungen der Assetscores.
- Dimensionsbewertungen
Entitätskonfidenz: 90% (unverändert)
Vollständigkeit: 97.6% (unverändert)
Gültigkeit: (100% + 100% + 90% + 92.12% + 100%) /5 = 96.42%
Konsistenz: 99% (unverändert) - Gesamtscore: = (97.5% + 95.5% + 93.75% + 94.78% + 97.25%) /5 = 95.76%
- Dimensionsbewertungen
Legen Sie fest, dass alle Prüfungen für die Dimension Konsistenz bei der Scoreberechnung ignoriert werden. Die Dimensionsbewertung für die Dimension Konsistenz wird nicht mehr angezeigt. Alle anderen Dimensionsbewertungen bleiben unverändert. Die Gesamtspalte und die Assetscores werden neu berechnet.
Column scores
xx Column ID: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 100%)/(1 + 1 + 1 + 0) = 96.67%
Column NAME: (1 × 90% + 1 × 96.03% + 1 × 100% + 0 × 96%)/(1 + 1 + 1 + 0) = 95.34%
Column EMAIL: (1 × 90% + 1 × 95% + 1 × 90% + 0 × 100%)/(1 + 1 + 1 + 0) = 91.67%
Column PHONE: (1 × 90% + 1 × 97% + 1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 0) = 94.78%
Column SALARY: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 99%)/(1 + 1 + 1 + 0) = 96.67%Gesamtassetscore: (96.67 + 95.34% + 91.67% + 93.04% + 96.67)/5 = 94.68%
Schließt die Ergebnisse für die Spalte GEHALT aus der Bewertungsberechnung aus. Die Spaltenscores ändern sich nicht. Die Gesamt-und Dimensionsbewertungen für das Asset werden wie folgt neu berechnet:
- Dimension scores
Entitätskonfidenz: (1 × 90% + 1 × 90% + 1 × 90% + 1 × 90% + 0 × 90%)/(1 + 1+ 1 + 1 + 0) = 90%
Vollständigkeit: (1 × 100% + 1 × 96.03% + 1 × 95% + 1 × 97% + 0 × 100%)/(1 + 1+ 1 + 1 + 0) = 97%
Gültigkeit: (1 × 100% + 1 × 100% +1 × 90% +1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 1 + 0) = 95.53%
Konsistenz: not shown - Gesamtasset = (100% + 98.02% + 92.5% + 92.74% + 0%)/(1 + 1 + 1 + 1 + 0) = 95.82%
- Dimension scores
Weitere Informationen
- Profil für Asset erstellen
- Metadatenaufbereitung
- Datenqualität bewerten
- Vordefinierte Datenqualitätsprüfungen
- IBM Knowledge Catalog API: Abrufen einer Liste von Datenqualitätsbewertungen für ein bestimmtes Asset
Übergeordnetes Thema: Ergebnisse der Datenqualitätsanalyse