0 / 0

Konfigurieren der Ausgabeeinstellungen für Datenqualitätsregeln

Letzte Aktualisierung: 08. Apr. 2025
Konfigurieren der Ausgabeeinstellungen für Datenqualitätsregeln

Wenn Sie mehr als nur statistische Informationen erfassen möchten, konfigurieren Sie einen externen Ausgabespeicherort und den Inhalt, der an diesen Speicherort geschrieben werden soll.

Sie können wählen, ob die Regelausgabe in eine Datenbanktabelle geschrieben werden soll. Wenn die Datenflüsse in einer definitionsbasierten Regel extern verwaltet werden, haben Sie auch die Möglichkeit, bis zu 4 DataStage Ausgangsverbindungen zu erstellen.

Um eine Datenbanktabelle oder Ausgabeverknüpfungen zu erzeugen:

  1. Aktivieren Sie die Option Externe Ausgabe und erweitern Sie den Abschnitt.

    Wenn Sie in den Projekteinstellungen eine Ausgabetabellenkonfiguration eingerichtet haben, können Sie diese Konfiguration übernehmen und direkt zur Konfiguration des Ausgabeinhalts übergehen. Eine geerbte Konfiguration wird als Aktuell angezeigt.

  2. Wenn Sie nicht die in den Projekteinstellungen konfigurierte Tabelle verwenden möchten, wählen Sie die Art der Ausgabe, die Sie erzeugen möchten:

    • Schreiben Sie die Ausgabe in eine neue oder eine bestehende Datenbanktabelle.

      Wählen Sie eine Verbindung aus. Je nach gewählter Verbindung wählen Sie ein Schema oder einen Katalog und ein Schema aus. Für eine neue Tabelle geben Sie den Namen der zu erstellenden Ausgabetabelle ein. Andernfalls wählen Sie eine vorhandene Tabelle aus. In diesem Fall wird der Abschnitt Ausgabeinhalt mit den Spalten dieser Tabelle ausgefüllt, und Sie können diesen Spalten Inhalte zuordnen.

      Sie können wählen, ob die Ausgabetabelle beim Ausführen der Regel als Datenbestand zu Ihrem Projekt hinzugefügt werden soll.

      Unterstützte Datenbanktypen finden Sie unter Unterstützte Konnektoren für Kuration und Datenqualität.

      Wenn Sie eine neue Tabelle definieren, kann der Tabellenname ein benutzerdefinierter Name, ein Parameter zur dynamischen Erstellung eines Namens, eine Kombination aus benutzerdefiniertem Namen und Parameter oder eine Kombination von Parametern sein.

      Benutzerdefinierte Tabellennamen müssen dieser Konvention entsprechen:

      • Das erste Zeichen des Namens muss ein alphabetisches Zeichen sein.
      • Der Rest des Namens kann aus alphabetischen Zeichen, numerischen Zeichen oder Unterstrichen bestehen.
      • Der Name darf keine Leerzeichen enthalten.

      Für die dynamische Namenserstellung können Sie diese Parameter verwenden:

      • #execution_id#
      • #rule_id#
      • #rule_name#
      • #project_id#
      • #job_id#
      • #rule_id#
      • #job_run_id#
      • #rule_id#

      Für die Parameter, deren Werte sich ändern, kann eine neue Tabelle erstellt werden:

      • Für #job_run_id# für jede Regel ausführen
      • Für #execution_id# , wenn die Regel über die Benutzeroberfläche für Datenqualitätsregeln oder über einen API-Aufruf ausgeführt wird

      Zusätzlich können Sie diese Optionen auswählen:

      • Tabelle nur erstellen, wenn Ausgaben gefunden werden Diese Option verhindert, dass leere Tabellen erstellt werden, wenn eine Regel keine Ausgabedatensätze erzeugt. Wenn jedoch eine Tabelle mit diesem Namen bereits existiert, weil sie für einen früheren Regellauf erstellt wurde, bleibt die Tabelle unverändert.
      • Importieren Sie die generierte Ausgabetabelle als Projekt-Asset Um einen einfachen Zugriff auf die Regelausgabe zu ermöglichen, fügen Sie neue Regelausgabetabellen als Daten-Assets zum Projekt hinzu. Anstatt eine Datenbankabfrage durchzuführen, können Sie die Daten auch anzeigen, indem Sie das Daten-Asset auf der Seite Assets in Ihrem Projekt oder im Verlauf der Regel öffnen. DieseOption ist standardmäßig aktiviert.

      Konfigurieren Sie außerdem die folgenden Einstellungen:

      • Datensätze ausgeben : Wählen Sie aus, ob Sie alle Datensätze in Ihre Ausgabe einbeziehen möchten, nur Datensätze, die die Regelbedingungen nicht erfüllen (Standardeinstellung), oder nur die Datensätze, die die Regelbedingungen erfüllen.
      • Maximale Anzahl von Datensätzen für die Ausgabe von Ausnahmen : Sie können alle Datensätze einbeziehen oder eine maximale Anzahl festlegen.
      • Aktualisierungsmethode : Neue Ausgabesätze können an den bestehenden Inhalt der Ausgabetabelle angehängt werden. Wenn Sie nur die Ausgabeergebnisse des letzten Laufs behalten möchten, markieren Sie die Option zum Überschreiben vorhandener Datensätze. Bei der Aktualisierungsmethode Append kann das Tabellenschema nicht geändert werden, d. h. Sie können keine Spalten umbenennen, hinzufügen oder löschen. Wenn Sie den Ausgabeinhalt für eine Datenqualitätsregel ändern und in eine bestehende Ausgabetabelle schreiben möchten, stellen Sie sicher, dass Sie die Aktualisierungsmethode Overwrite verwenden, um die Spalten in der Ausgabetabelle durch die neu definierten Ausgabespalten zu ersetzen.

    • Um Ausgabeverknüpfungen zu erstellen, wenn die Datenflüsse in einem DataStage Fluss verwaltet werden, wählen Sie DataStage Ausgabeverknüpfungen. Konfigurieren Sie bis zu 4 Ausgangsverbindungen. Wählen Sie aus, welche Ausgabe an eine bestimmte Verknüpfung weitergeleitet werden soll: alle Datensätze, nur Datensätze, die die Regelbedingungen nicht erfüllen, nur Datensätze, die die Regelbedingungen erfüllen, oder alle verletzten Regelbedingungen. Legen Sie außerdem die maximale Anzahl der Ausgabesätze fest, die pro Link geschrieben werden sollen. Der Inhalt der Ausgabedatensätze wird durch das bestimmt, was Sie im nächsten Schritt konfigurieren. Bei verletzten Regelbedingungen können 0 oder mehr Ausgabedatensätze zurückgegeben werden, je nach Anzahl der Datenqualitätsdefinitionen in der Regel. Jeder Ausgabesatz enthält die folgenden Informationen:

      • Die Datensatz-ID. Diese Metrik wird automatisch als Ausgabespalte festgelegt.
      • Die Definitions-ID einer der Definitionen, die der Eingabesatz nicht bestanden hat
      • Die Nummer, die die fehlgeschlagene Definition im Falle doppelter Definitionen eindeutig identifiziert

      Um die Definitions-ID einer Datenqualitätsdefinition in Ihrem Projekt zuzuordnen, verwenden Sie die API IBM Knowledge Catalog :

      Die Zielknoten dieser Ausgangsverbindungen müssen im Fluss DataStage konfiguriert werden.

    Sie können die Nachrichtenart jederzeit ändern. Abhängig von Ihrer neuen Auswahl werden alle konfigurierten Einstellungen zurückgesetzt oder überschrieben. Wenn Sie fertig sind, klappen Sie den Abschnitt zu und fahren Sie mit der Konfiguration des Ausgabeinhalts fort.

  3. Konfigurieren Sie den Inhalt Ihrer Ausgabetabelle.

    1. Wenn die Datenbindungen extern verwaltet werden, können Sie alle zusätzlichen Spalten, die über die Eingabeverknüpfung DataStage bereitgestellt werden, in die Ausgabetabelle aufnehmen. Solche Spalten werden in der Ausgabetabellenkonfiguration nicht aufgelistet. Sie können keine Variablen einbeziehen, die in Regelbindungen verwendet werden.
    2. Klicken Sie auf Ausgabeinhalt hinzufügen und wählen Sie eine der folgenden Optionen:
      • Spalten

        Wählen Sie die Spalten aus, die Sie in Ihrer Ausgabetabelle sehen möchten. Bei SQL-basierten Regeln können Sie aus allen Spalten auswählen, die die SQL-Abfrage zurückgibt. Die Option Spalten ist nicht verfügbar, wenn Sie eine definitionsbasierte Regel mit extern verwalteten Datenflüssen erstellen.

      • Statistiken und Attribute

        Wählen Sie alle zusätzlichen Attribute oder Statistiken aus, die Sie in Ihre Ausgabetabelle aufnehmen möchten. Welche Metriken verfügbar sind, hängt von der Art der Datenqualitätsregel ab.

        • Gebunden an Asset-ID

          Listet die ID des Datenbestands auf, an den die Regel gebunden ist. Wenn diese Metrik ausgewählt ist, wird für jedes Datenelement in einer Datenqualitätsregel ein Ausgabesatz geschrieben. So kann es vorkommen, dass für einen einzelnen Eingabesatz mehr als ein Ausgabesatz geschrieben wird. Der Inhalt der Ausgabedatensätze für verschiedene Assets der gleichen Datenqualitätsregel variiert nur für diese Metriken für jeden einzelnen Eingabedatensatz: Datenqualitätsdefinition, Datenqualitätsdefinitions-ID, an die Asset-ID gebunden und eventuell Regeln "Bestanden", Regeln "Nicht bestanden", Regeln "Bestanden" in Prozent und Regeln "Nicht bestanden" in Prozent

          Sie können diese Metrik nur in Kombination mit der Metrik Datenqualitätsdefinition oder Datenqualitätsdefinitions-ID verwenden. Wenn die Regel mit mehr als einer Datenqualitätsdefinition verbunden ist, wird der metrische Disambiguator automatisch in die Ausgabe aufgenommen.

          Diese Metrik ist nicht verfügbar für definitionsbasierte Regeln mit extern verwalteten Bindungen oder SQL-basierte Regeln.

        • Gebunden an Spalte

          Listet die Namen der einzelnen gebundenen Spalten auf. Wenn diese Metrik ausgewählt ist, wird für jede Spalte in einer Datenqualitätsdefinition ein Ausgabesatz geschrieben. So kann es vorkommen, dass für einen einzelnen Eingabesatz mehr als ein Ausgabesatz geschrieben wird. Der Inhalt der Ausgabedatensätze für verschiedene Spalten derselben Datenqualitätsdefinition variiert nur für diese Metriken für jeden einzelnen Eingabedatensatz: Datenqualitätsdefinition, Datenqualitätsdefinitions-ID, Gebunden an die Spalte und eventuell Regeln für Bestehen, Regeln für Nichtbestehen, Regeln für Bestehen in Prozent und Regeln für Nichtbestehen in Prozent

          Sie können diese Metrik nur in Kombination mit der Metrik Datenqualitätsdefinition oder Datenqualitätsdefinitions-ID verwenden. Wenn die Regel mit mehr als einer Datenqualitätsdefinition verbunden ist, wird der metrische Disambiguator automatisch in die Ausgabe aufgenommen.

          Diese Metrik ist nicht verfügbar für definitionsbasierte Regeln mit extern verwalteten Bindungen oder SQL-basierte Regeln.

        • Datenqualitätsdefinition

          Listet den Namen der angewandten Datenqualitätsdefinition auf. Wenn diese Metrik ausgewählt ist, können je nach Anzahl der in der Regel enthaltenen Datenqualitätsdefinitionen mehrere Ausgabesätze geschrieben werden.

          Diese Metrik ist für SQL-basierte Regeln nicht verfügbar.

        • Datenqualitätsdefinition ID

          Enthält einen eindeutigen Schlüssel, der die angewandte Datenqualitätsdefinition identifiziert. Wenn diese Metrik ausgewählt ist, können je nach Anzahl der in der Regel enthaltenen Datenqualitätsdefinitionen mehrere Ausgabesätze geschrieben werden.

          Diese Metrik ist für SQL-basierte Regeln nicht verfügbar.

        • Disambiguator

          Enthält eine Nummer zur Unterscheidung der Datenqualitätsdefinitionen, die in der Regel verwendet werden, vor allem wenn eine Datenqualitätsdefinition mehrfach verwendet wird. Die Nummerierung beginnt bei 0.

          Diese Metrik ist für SQL-basierte Regeln nicht verfügbar.

        • Fehlgeschlagene Regeln

          Zeigt die Anzahl der Regelbedingungen an, die der Datensatz nicht erfüllt hat.

        • Job ID

          Enthält einen eindeutigen Schlüssel, der den Auftrag identifiziert, der mit dem DataStage Fluss für die Regel verbunden ist.

        • Job-Lauf-ID

          Enthält einen eindeutigen Schlüssel, der einen einzelnen Lauf des Auftrags identifiziert, der mit dem DataStage Fluss für die Regel verbunden ist.

        • Bestandene Regeln

          Zeigt die Anzahl der Regelbedingungen an, die der Datensatz erfüllt.

        • Prozent bestandene Regeln

          Zeigt den Prozentsatz der Regelbedingungen an, die erfüllt wurden.

        • Prozent fehlgeschlagene Regeln

          Zeigt den Prozentsatz der Regelbedingungen an, die nicht erfüllt wurden.

        • Projekt-ID

          Enthält einen eindeutigen Schlüssel, der das Projekt identifiziert, in dem sich die Regel befindet.

        • Datensatz-ID

          Enthält einen eindeutigen Schlüssel, der einen Datensatz in der Ausgabe identifiziert. Diese Metrik wird automatisch für Output-Links für verletzte Regelbedingungen einbezogen.

        • Regel-ID

          Enthält einen eindeutigen Schlüssel, der die Datenqualitätsregel identifiziert.

        • Regelname

          Enthält den Namen der Datenqualitätsregel.

        • Systemdatum

          Zeigt das Systemdatum an, an dem die Regel ausgeführt wurde. Das Systemdatum ist das Datum in der auf dem Server eingestellten Zeitzone.

        • Systemzeit

          Zeigt das Systemdatum und die Uhrzeit an, zu der die Regel ausgeführt wurde. Systemdatum und -zeit ist das Datum und die Uhrzeit in der auf dem Server eingestellten Zeitzone.

      • Variablen

        Wählen Sie die Variablen aus der Regellogik aus, die Sie in Ihre Ausgabetabelle aufnehmen möchten.

      • Ausdrücke

        Fügen Sie einen Ausdruck hinzu, der den Inhalt einer Ausgabespalte definiert. Sie können dieser Spalte in der Übersicht der Ausgabeinhalte einen beschreibenden Namen geben. Sie können Blockelemente verwenden, um Ihren Ausdruck zu konstruieren. Wählen Sie Elemente aus und kombinieren Sie sie nach Bedarf. Weitere Informationen zur Verwendung von Blockelementen finden Sie unter Verwalten von Datenqualitätsdefinitionen. Alternativ können Sie auch den Freiform-Editor verwenden, um den Ausdruck zu erstellen. Siehe Bausteine für Regellogik oder Regelausgabe.

Weitere Informationen

Übergeordnetes Thema: Verwaltung von Datenqualitätsregeln