0 / 0
Zurück zur englischen Version der Dokumentation
Datenqualität bewerten
Letzte Aktualisierung: 07. Feb. 2025
Datenqualität bewerten

Um festzustellen, ob Ihre Daten von guter Qualität sind, prüfen Sie, wie weit die Daten Ihren Erwartungen entsprechen, und identifizieren Sie Anomalien in den Daten. Die Bewertung der Daten auf Qualität hilft Ihnen darüber hinaus, Struktur und Inhalt der Daten zu verstehen.

Führen Sie Datenqualitätsregeln aus, um Daten auf der Basis der definierten Bedingungen auszuwerten. Der Regeltyp bestimmt, woher die Daten stammen können.

  • Regeln, die aus Datenqualitätsdefinitionen erstellt werden

    Sie können komplexe Regeln mit extern verwalteten Bindungen für Datenassets von jedem Connector ausführen, der von DataStageunterstützt wird. Siehe DataStage -Connectors.

    Für einfache Regeln, bei denen Sie die Daten direkt binden, werden die in Unterstützte Connectors aufgelisteten Verbindungen unterstützt.

    Außerdem können Sie mit Datenassets aus Dateien im CSV-Format arbeiten, die aus dem lokalen Dateisystem oder aus dateibasierten Verbindungen zu den Datenquellen hochgeladen wurden.

  • SQL-basierte Regeln

    Informationen zu unterstützten Datenbanktypen finden Sie unter Unterstützte Connectors.

Damit eine Datenqualitätsregel mit externen Bindungen oder eine SQL-basierte Datenqualitätsregel zu den Datenqualitätsbewertungen eines Assets oder einer Spalte beiträgt, fügen Sie dieses Asset oder diese Spalte als verwandtes Element zur entsprechenden Regel hinzu. Verwenden Sie den Beziehungstyp Validiert die Datenqualität von.

Erforderliche Services

IBM Knowledge Catalog
DataStage oder DataStage as a Service Anywhere '
Mit DataStage, können Sie Datenqualitätsregeln in den unterstützten Regionen ausführen. Mit DataStage as a Service Anywhere können Sie Datenqualitätsregeln außerhalb von IBM Cloud ausführen, indem Sie Remote-Engines verwenden. Weitere Informationen zum Einrichten von Remote-Engines finden Sie in der Dokumentation zuDataStage as a Service Anywhere.

Erforderliche Berechtigungen

Um Datenqualitätsregeln ausführen zu können, benötigen Sie die Rolle Administrator oder die Rolle Editor im Projekt. Außerdem müssen Sie über die Benutzerberechtigung Datenqualitätsregeln ausführen verfügen. Außerdem müssen Sie berechtigt sein, auf die Verbindungen zu den Datenquellen der zu prüfenden Datenassets zuzugreifen.

Um die Daten, die zu Datenqualitätsproblemen geführt haben (die Ausgabetabelle), im Regelverlauf oder auf der Seite Qualität der Daten anzeigen zu können, benötigen Sie die Drilldown zu den Details der Ausgabe Benutzererlaubnis. Der Datenbestand im Projekt, der für die Ausgabetabelle erstellt wird, ist jedoch für jeden zugänglich, der auf die Verbindung zugreifen kann. Um den Zugriff auf diesen Datenbestand einzuschränken, sollte die Verbindung zu der Datenquelle, in der die Ausgabetabelle gespeichert ist, mit persönlichen Zugangsdaten eingerichtet werden.

Sie können auch die folgenden Tasks mit APIs anstelle der Benutzerschnittstelle ausführen. Die Links zu diesen APIs sind im Abschnitt Weitere Informationen aufgelistet.

Datenqualitätsregeln ausführen

Die Ausführung einer Datenqualitätsregel erfordert einen DataStage -Ablauf und anschließend einen DataStage -Job. Der Job mit Standardjobeinstellungen wird automatisch erstellt, wenn Sie die Regel zum ersten Mal innerhalb des Assets ausführen. Ein DataStage -Job mit dem Standardnamen DataStage flow of data rule <rulename>.DataStage job wird zum Projekt hinzugefügt.

Nach der ersten Ausführung können Sie die Jobeinstellungen nach Bedarf ändern, z. B. um geplante Ausführungen einzurichten. Sie können auch die Anzahl der Warnungen anpassen, die akzeptabel sind, bevor der Job beendet wird. Der Standardwert ist 100. Rufen Sie zum Ändern der Jobeinstellungen die Detailseite des Jobs auf und klicken Sie auf das Stiftsymbol in der Symbolleiste. Sie können die Detailseite des Jobs aufrufen, indem Sie auf den Jobnamen im Ausführungsprotokoll der Regel oder auf der Seite Jobs des Projekts klicken.

Sie können weitere DataStage -Jobs für Ihre Regel manuell erstellen, entweder über das Überlaufmenü der Regel im Projekt oder, wenn Sie das Asset öffnen, über das Überlaufmenü neben dem Assetnamen. Siehe Jobs für die Ausführung von Datenqualitätsregeln erstellen.

Um zu bestätigen, dass eine Regel noch gültig ist, bevor Sie sie manuell ausführen können, können Sie den Regelstatus überprüfen, indem Sie im Überlaufmenü Validieren auswählen.

Sie können eine Regel auf eine der folgenden Arten ausführen:

  • Öffnen Sie die Datenqualitätsregel und klicken Sie auf Regel ausführen. Verwenden Sie diese Option für die erste Ausführung der Regel, um den zugeordneten DataStage -Job zu erstellen.
  • Wählen Sie Ausführen aus dem Regel-Overflow-Menü im Projekt.
  • Rufen Sie die Seite Aufträge des Projekts auf, öffnen Sie die Auftragsdetails, und führen Sie den Auftrag aus, indem Sie in der Aktionsleiste auf das Symbol Ausführen ' Ausführungssymbol klicken.

Sie können Qualitätsprüfungen auch automatisieren, indem Sie Jobs mit einem Wiederholungszeitplan für die Ausführung einer Regel einrichten.

Regeln werden mit IBM Cloud -Berechtigungsnachweisen ausgeführt. Normalerweise wird Ihr persönlicher IBM Cloud -API-Schlüssel verwendet, um solche Operationen mit langer Laufzeit ohne Unterbrechung auszuführen. Wenn bei der Erstellung des Jobs keine Berechtigungsnachweise verfügbar sind, werden Sie aufgefordert, einen API-Schlüssel zu erstellen. Dieser API-Schlüssel wird dann als Ihre Taskberechtigungsnachweise gespeichert.

Gruppierungsregeln

Sie können bestimmte Datenqualitätsregeln zur Ausführung in einem einzigen DataStage-Ablauf gruppieren:

  • Die Datenqualitätsregeln müssen aus Datenqualitätsdefinitionen erstellt werden.

  • Die Regelvariablen müssen an ein einziges Datenelement im Projekt gebunden sein:

    • Eine einzelne Datei aus einem der folgenden Dateispeicher-Konnektoren: Amazon S3, Apache HDFS, Azure Data Lake Storage oder Google Cloud Storage
    • Eine Datei, die aus dem lokalen Dateisystem hochgeladen wurde
    • Ein einziger relationaler Datenbestand
    • Eine einzige SQL-basierte Datenqualitätsregel für einen einzigen relationalen Datenbestand

Je nach der Konfiguration der einzelnen Datenqualitätsregeln, die Sie gruppieren, kann die Ausführung der Regeln mehrere Durchläufe über die Daten erfordern.

Sie können keine Datenqualitätsregeln gruppieren, die an mehrere Datenbestände gebunden sind.

Sie können den folgenden API-Aufruf verwenden, um Regeln für die Ausführung zu gruppieren:

POST /data_quality/v3/projects/{project_id}/execute_rules

Für diesen API-Aufruf sind die folgenden Parameter erforderlich:

project_id

Die ID des Projekts, das die Regeln enthält

Anforderungshauptteil

Die Nutzlast in folgendem Format:

{
  "rules": [
    {
      "id": "<rule1_id>"
    },
    {
      "id": "<rule2_id>"
    }
  ]
}

Pushdown der Verarbeitung in Datenqualitätsregeln

Bestimmte Aspekte der Verarbeitung von Datenqualitätsregeln können auf die Datenquelle verlagert werden, um die aus der Quelle übertragene Datenmenge zu verringern und die Verarbeitung zu beschleunigen. Die Spaltenauswahl, die Erstellung von Verknüpfungen zwischen verschiedenen Datenbeständen und die Stichprobennahme werden auf Datenquellen mit einem relationalen Datenbankverwaltungssystem (RDBMS) übertragen, was bedeutet, dass sie SQL-Abfragen unterstützen. Bei dateibasierten Datenquellen wird keine Verarbeitung nach unten verlagert. SQL-basierte Datenqualitätsregeln werden immer an der Datenquelle ausgeführt.

Mit DataStage as a Service Anywhere können Sie Datenqualitätsregeln außerhalb von IBM Cloud ausführen, indem Sie Remote-Engines verwenden. Weitere Informationen zum Einrichten von Remote-Engines finden Sie in der Dokumentation zuDataStage as a Service Anywhere.

Spaltenauswahl

Für RDBMS-Datenquellen eine SQL SELECT-Anweisung wieselect colA, colB from schema1.table1 wird auf der Datenquelle ausgeführt, um nur die erforderlichen Spalten aus einer Tabelle abzurufen. Solche Abfragen können nicht auf Datenbestände aus Dateispeicherverbindungen ausgeführt werden. Für solche Dateien werden alle Spalten abgerufen und die DataStage Die Phase „Ändern“ wird zum Filtern der Spalten verwendet.

Joins

Wenn eine Datenqualitätsregel zwei oder mehr Variablen hat, die an mehrere Datenassets gebunden sind, müssen diese Datenassets in bestimmten Spalten verknüpft werden.

Für RDBMS-Datenquellen eine SQL SELECT-Anweisung mit einer JOIN-Klausel wieSELECT col1, col2 FROM schema1.table1 INNER JOIN schema1.table2 ON table1.id = table2.id wird auf der Datenquelle ausgeführt. Bei dieser Abfrage erfolgt die Zusammenführung der Datenbestände an der Datenquelle. Einige RDBMS-Datenquellen unterstützen die JOIN-Verarbeitung überhaupt nicht oder unterstützen nur bestimmte Typen von JOIN-Klauseln. Zum Beispiel, Google BigQuery unterstützt überhaupt keine JOIN-Klauseln.

Die Ergebnisse von Datenqualitätsregeln mit Joins hängen auch davon ab, wie Werte wie Null und leere Zeichenfolgen von der RDBMS-Datenquelle während der JOIN-Verarbeitung behandelt werden.

Für ein Datenasset aus einer Dateispeicherverbindung werden alle Datensätze aus jedem einzelnen Datenasset abgerufen und die DataStage Die Verbindungsphase wird zum Verbinden der Datenbestände verwendet.

Stichprobenentnahme

Bei RDBMS-Datenquellen werden zufällige und sequenzielle Stichproben an der Datenquelle entnommen. Für die sequentielle Stichprobennahme wird der SQL-Anweisung eine RDBMS-spezifische Klausel zur Auswahl der Datensätze hinzugefügt, beispielsweise FETCH FIRST oder LIMIT.

Für ein Datenasset aus einer Dateispeicherverbindung werden alle Datensätze abgerufen und die DataStage Zum Erstellen des Samples wird die Sample-Bühne verwendet.

Ausführungsprotokoll überprüfen

Bei jeder Ausführung einer Datenregel wird ein Ausführungsdatensatz erstellt. Diese Ausführungsdatensätze werden im Ausführungsprotokoll einer Regel aufgelistet, sodass Sie sehen können, wie sich die Ergebnisse bei jeder Ausführung geändert haben. Öffnen Sie zum Anzeigen der Ausführungsdatensätze die Datenqualitätsregel und wechseln Sie zur Registerkarte Ausführungsverlauf . Jeder Ausführungsdatensatz enthält die folgenden Informationen:

  • Die Startzeit der Regelausführung als Hyperlink. Klicken Sie auf den Link, um auf die Jobausführungen zuzugreifen.
  • Der Name des entsprechenden DataStage -Jobs als Hyperlink. Klicken Sie auf den Link, um auf die Jobdetails zuzugreifen.
  • Der Status der Ausführung.
  • Für Regeln, die aus Datenqualitätsdefinitionen erstellt wurden:
    • Die Anzahl der getesteten Sätze.
    • Die Anzahl der Datensätze und der Prozentsatz der getesteten Datensätze, die die Regel erfüllt haben.
    • Die Anzahl der Datensätze und der Prozentsatz der getesteten Datensätze, die die Regel nicht erfüllen.
  • Für SQL-basierte Regeln:
    • Die Anzahl der Datensätze, die von der Anweisung SELECT in der Spalte Regel nicht erfüllt zurückgegeben werden.

Alle Ausführungsdatensätze werden aufgezeichnet und gespeichert, bis sie gelöscht werden. Ziehen Sie in Betracht, das Ausführungsprotokoll regelmäßig zu bereinigen, um Speicherplatz zu sparen. Sie können ausgewählte Ausführungsdatensätze oder alle Ausführungsdatensätze gleichzeitig löschen. Wenn Sie einen Ausführungsdatensatz löschen, werden auch die entsprechenden Jobausführungsdetails gelöscht.

Regelausgabetabelle überprüfen

Wenn eine Ausgabetabelle für die Regel definiert ist, wird die Regelausgabe wie konfiguriert in eine Datenbanktabelle geschrieben. Weitere Informationen finden Sie im Schritt zum Konfigurieren der Ausgabeeinstellungen unter Regeln aus Datenqualitätsdefinitionen erstellen oder SQL-basierte Regeln erstellen.

Die Ausgabetabelle wird dem Projekt auch als Datenasset hinzugefügt. Sie haben folgende Möglichkeiten, auf die Ausgabetabelle zuzugreifen:

  • Wechseln Sie zum Ausführungsverlauf der Regel und klicken Sie auf Ausgabetabelle anzeigen. Sie können die Regelausgabe als CSV-Datei herunterladen, z. B. zur Verwendung in einem Tabellenkalkulationsprogramm, wenn Sie eine Ausgabe suchen oder filtern möchten, die eine große Anzahl von Datensätzen enthält. Die Ausgabeseite enthält außerdem einen Link zu dem entsprechenden Datenasset im Projekt.
  • Öffnen Sie die Ausgabetabelle im Projekt. Suchen Sie nach einem Datenasset mit demselben Namen wie die in der Regel definierte Ausgabetabelle.
  • Greifen Sie mit nativen Datenbankabfragen auf die Tabelle in der Datenbank zu.

Weitere Informationen

Übergeordnetes Thema: Datenqualität verwalten