Daten sind nur nützlich, wenn ihre Qualität vertrauenswürdig ist und kontinuierlich ausgewertet wird. Sie können die Datenqualität eines Datenassets auf der Seite Datenqualität überwachen.
Dieselben Informationen wie auf der Registerkarte Datenqualität sind verfügbar, wenn Sie auf einen Datenqualitätsscore in einem Metadatenanreicherungsasset klicken.
Anforderungen und Einschränkungen
Sie können Informationen zur Datenqualität für Assets unter den folgenden Umständen anzeigen:
Erforderliche Services
Für die Datenqualität ist der IBM Knowledge Catalog-Dienst erforderlich. Die Datenqualitätsausgabe von Datenqualitätsregeln ist jedoch nur in den Regionen Dallas und Frankfurt verfügbar. Siehe Regionale Einschränkungen für Cloud Pak for Data as a Service.
Erforderliche Berechtigungen
Ihre Rollen legen fest, wie Sie mit der Datenqualität interagieren können:
- Zum Anzeigen der Seite Datenqualität können Sie über eine beliebige Mitarbeiterrolle im Arbeitsbereich verfügen.
- Um die Art und Weise zu ändern, wie die Scores berechnet werden, müssen Sie im Projekt über die Rolle Administrator oder Editor verfügen.
- Zum Erstellen neuer Datenqualitätsprüfungen müssen Sie über die Rolle Administrator oder Bearbeiter im Projekt verfügen und über die Berechtigung Datenqualitätsassets verwalten verfügen.
- Um die Daten, die zu Datenqualitätsproblemen geführt haben (die Ausgabetabelle), von der Seite Datenqualität aus einsehen zu können, müssen Sie die Berechtigung Aufschlüsselung der Problemdetails haben. Der Datenbestand im Projekt, der für die Ausgabetabelle erstellt wird, ist jedoch für jeden zugänglich, der auf die Verbindung zugreifen kann. Um den Zugriff auf diesen Datenbestand einzuschränken, sollte die Verbindung zu der Datenquelle, in der die Ausgabetabelle gespeichert ist, mit persönlichen Zugangsdaten eingerichtet werden.
Arbeitsbereiche
Sie können Informationen zur Datenqualität in diesen Arbeitsbereichen anzeigen:
- Projekte
- Kataloge
Arten von Assets
Diese Assettypen verfügen über Datenqualitätsinformationen:
- Datenassets aus relationalen oder nicht relationalen Datenbanken aus einer Verbindung zu den Datenquellen
- Datenassets aus partitionierten Dateien, wobei eine partitionierte Datei aus mehreren Dateien besteht und durch einen einzelnen Ordner dargestellt wird, der aus dem lokalen Dateisystem oder aus dateibasierten Verbindungen zu den Datenquellen hochgeladen wurde
- Datenassets aus Dateien, die aus dem lokalen Dateisystem oder aus dateibasierten Verbindungen zu den Datenquellen hochgeladen wurden, in den folgenden Formaten:
- CSV
- XLS, XLSM, XLSX (Nur das erste Arbeitsblatt in einer Arbeitsmappe.
- Durch Tabulatoren getrennt (TSV)
- Avro
- OCR
- Parquet
- IBM Match 360 -Entitätsdatenassets
Übersicht
Auf der Seite Datenqualität finden Sie Informationen zur Qualität eines Datenassets:
- Der Gesamtdatenqualitätsscore des Assets. Dies ist der gewichtete Durchschnitt der Scores, die von den zugehörigen Spalten bereitgestellt werden. Weitere Informationen finden Sie unter Datenqualitätsscores.
- Die Scores für die einzelnen Dimensionen Für jede Dimension ist dies der gewichtete Durchschnitt der entsprechenden Dimensionsbewertungen, die von den einzelnen Prüfungen bereitgestellt werden. Den vordefinierten Datenqualitätsprüfungen, die als Teil der Metadatenaufbereitung ausgeführt werden, sind Standarddimensionen zugewiesen. Siehe Vordefinierte Datenqualitätsprüfungen. Bei Datenqualitätsregeln weisen Sie Dimensionen nach Bedarf zu. Weitere Informationen finden Sie unter Datenqualitätsdimensionen und Datenqualitätsscores.
- Trendinformationen, die zeigen, wie sich die Gesamtqualität oder der Qualitätsscore für eine Dimension über 30, 90 oder 180 Tage geändert hat. Weitere Informationen finden Sie unter Ergebnisse der Datenqualitätsanalyse.
- Die Liste der Datenqualitätsprüfungen, die auf das Asset angewendet wurden, und ihre Ergebnisse. Weitere Informationen finden Sie unter Ergebnisse der Datenqualitätsanalyse.
- Datenqualitätsinformationen für die einzelnen Spalten. Weitere Informationen finden Sie unter Ergebnisse der Datenqualitätsanalyse.
Seite 'Datenqualität' in Projekten
Die Seite Datenqualität wird nach der ersten Datenqualitätsprüfung für das Datenasset auf eine der folgenden Arten gefüllt:
- Die Datenqualitätsanalyse wird im Rahmen der Metadatenaufbereitung für das Asset ausgeführt.
- Eine Datenqualitätsregel wird für das Asset ausgeführt.
- Ein verbundenes IBM Entitätsdatenasset Match 360 wird hinzugefügt.
Wenn ein Asset aus einem Katalog importiert wird, werden nur Profilinformationen in das Projekt kopiert. Informationen zur Datenqualität werden nicht kopiert.
Die Qualitätsscores werden neu berechnet und die Daten auf dieser Seite werden in den folgenden Fällen aktualisiert:
- Die Datenqualitätsanalyse wird im Kontext der Metadatenaufbereitung ausgeführt.
- Für das Asset werden Datenqualitätsregeln ausgeführt.
- Eine Datenqualitätsregel, die zu den Scores beigetragen hat, wird gelöscht. Alle Probleme, die von dieser Datenqualitätsregel zurückgegeben wurden, werden entfernt.
- Das Assetprofil wird auf der Seite Profil des Assets gelöscht. Alle Probleme, die von den vordefinierten Datenqualitätsprüfungen zurückgegeben wurden, werden entfernt.
Die Gesamt-und Dimensionsbewertungen werden auch jedes Mal aktualisiert, wenn Sie die Einstellung Trägt zur Gesamtbewertung bei für eine Prüfung oder eine Spalte ändern. Weitere Informationen finden Sie unter Datenqualitätsscores.
Sie können sofort sehen, wann die Qualitätsscores zuletzt aktualisiert wurden.
Im Abschnitt Datenqualitätsprüfungen werden die folgenden Informationen angezeigt:
- Welche Prüfungen für das Asset ausgeführt wurden, sortiert nach Datum, wobei die letzten Prüfungen am Anfang stehen
- An welche Dimension jede Prüfung gebunden ist
- Ob eine Prüfung auf das gesamte Asset oder auf Spalten im Asset angewendet wurde
- Informationen zur Anzahl der gefundenen Probleme
- Welche Art von Stichprobenziehung wurde angewendet, falls vorhanden
- Der Datenqualitätsscore, den eine Prüfung generiert hat
- Ob der Datenqualitätsscore einer Prüfung bei der Berechnung des Gesamtasset-Scores und der Dimensionsscores berücksichtigt wird
- Zeitpunkt der letzten Ausführung der Prüfung
Sie können einen Drilldown zu den Ergebnissen jeder Prüfung durchführen, mit Ausnahme des IBM Match 360 -Abgleichs. Als Projektadministrator oder Editor können Sie für jede Prüfung ändern, ob sie zum Gesamtdatenqualitätsscore beiträgt, und neue Datenqualitätsprüfungen erstellen. Weitere Informationen finden Sie unter Ergebnisse der Datenqualitätsanalyse.
Sie können zwischen der Ansicht Prüfungen und der Ansicht Spalten wechseln. Im Abschnitt Spaltenübersicht werden die folgenden Informationen für jede Spalte angezeigt, die einer Datenqualitätsprüfung unterzogen wurde:
- Der Spaltenname
- Der Qualitätsscore der Spalte für alle Dimensionen, die für das Asset gelten.
- Die Anzahl der Prüfungen, die für eine Spalte ausgeführt wurden
- Ob der Datenqualitätsscore der Spalte bei der Berechnung des Gesamtasset-Scores und der Dimensionsscores berücksichtigt wird
- Zeitpunkt der letzten Prüfung der Spalte
Anschließend können Sie für jede Spalte einen Drilldown zu den Datenqualitätsdetails durchführen. Als Projektadministrator oder Editor können Sie auch für jede Spalte ändern, ob ihr Qualitätsscore zum Gesamtdatenqualitätsscore beiträgt. Weitere Informationen finden Sie unter Ergebnisse der Datenqualitätsanalyse.
Seite 'Datenqualität' in Katalogen
Die Seite Datenqualität wird anfänglich gefüllt, wenn ein Datenasset mit Datenqualitätsinformationen im Katalog veröffentlicht wird. Die Seite ist für jedes Asset leer, das Sie direkt als verbundenes Asset hinzufügen oder das Sie aus Ihrem lokalen Dateisystem hochladen. Um Datenqualitätsinformationen für solche Assets zu generieren, fügen Sie sie einem Projekt hinzu und führen Sie die Metadatenaufbereitung oder Datenqualitätsregeln für die Assets aus. Veröffentlichen Sie sie anschließend im Katalog.
Die Qualitätsscores werden aktualisiert und die Daten auf dieser Seite werden jedes Mal aktualisiert, wenn das Asset aus einem Projekt mit neuen Datenqualitätsinformationen veröffentlicht wird.
Sie können sofort sehen, wann die Qualitätsscores zuletzt aktualisiert wurden.
Die Abschnitte Datenqualitätsprüfungen und Spaltenübersicht enthalten dieselben Informationen wie die Registerkarte Datenqualität im Projekt. Es ist jedoch nicht möglich, einen Drilldown in Scheck-oder Spaltendetails durchzuführen.
Weitere Informationen
- Vordefinierte Datenqualitätsprüfungen
- Ergebnisse der Datenqualitätsanalyse
- Datenqualitätsdimensionen
- Datenqualitätsscores
Übergeordnetes Thema: Assettypen und Eigenschaften