SQL-basierte Datenqualitätsregeln erstellen

Letzte Aktualisierung: 21. März 2025
SQL-basierte Datenqualitätsregeln erstellen

Sie können SQL-basierte Datenqualitätsregeln erstellen, um die Qualität der Daten in Ihrem Projekt zu bewerten. Verwenden Sie solche Regeln zum Messen von Fehlern, anstatt die Einhaltung bestimmter Qualitätskriterien zu bewerten.

Damit eine SQL-basierte Datenqualitätsregel zu den Datenqualitätsbewertungen eines Assets oder einer Spalte beiträgt, fügen Sie dieses Asset oder diese Spalte als zugehöriges Element zur entsprechenden Regel hinzu. Verwenden Sie den Beziehungstyp Validiert die Datenqualität von . Für alle Assets und Spalten, die mit diesem Beziehungstyp verknüpft sind, werden derselbe Score und dieselben Probleme gemeldet.

So erstellen Sie eine SQL-basierte Datenqualitätsregel:

  1. Öffnen Sie ein Projekt, klicken Sie auf Neues Asset > Datenqualität messen und überwachen .

  2. Definieren Sie Details:

    • Geben Sie einen Namen für die Datenqualitätsregel an.

    • Optional: Geben Sie eine Beschreibung an.

    • Optional: Wählen Sie eine Datenqualitätsdimension aus, um die primäre Datenqualitätsmetrik für die Regellogik in diesem Asset zu beschreiben. Die ausgewählte Dimension kann als Berichtskategorie, zum Filtern oder zum Visualisieren ausgewählter Daten verwendet werden.

      Wenn Sie Ihre Regel aus einer Datenqualitätsdefinition erstellen, ist möglicherweise bereits eine Datenqualitätsdimension festgelegt. Sie können sie beibehalten, die Dimensionseinstellung löschen oder eine andere Dimension auswählen.

  3. Aktivieren Sie die Option SQL-Anweisungen verwenden .

  4. Geben Sie die Quelle der zu prüfenden Daten an, indem Sie eine vorhandene Verbindung auswählen oder eine neue erstellen. Informationen zu unterstützten Datenquellen finden Sie unter Unterstützte Datenquellen für Kuration und Datenqualität.

    Wenn Sie eine vorhandene Verbindung auswählen und diese Verbindung mit persönlichen Berechtigungsnachweisen erstellt wurde, müssen Sie die Verbindung entsperren.

  5. Geben Sie Ihre SQL-Anweisungen ein.

    Stellen Sie beim Schreiben der Abfrage sicher, dass die Anweisung SELECT die folgenden Bedingungen erfüllt:

    • Die Anweisung gibt nur Spalten mit eindeutigen Namen zurück. Spalten mit doppelten Namen führen zu Gültigkeitsfehlern.
    • Die Anweisung gibt die Anzahl der Datensätze zurück, die Ihre Datenqualitätsbedingung nicht erfüllen. SQL-basierte Regeln funktionieren anders als Regeln, die aus Datenqualitätsdefinitionen erstellt wurden. Sie geben die Datensätze, die die Anweisung SELECT zurückgibt, als failed oder Not metzurück. Außerdem entspricht die Gesamtzahl der gemeldeten Datensätze der Anzahl der zurückgegebenen Datensätze und nicht der Anzahl der geprüften Datensätze.

    Angenommen, Sie haben eine Tabelle db2admin.credit_card mit 31 Zeilen und möchten überprüfen, wie viele Datensätze mit dem Kartentyp AMEX in der Tabelle enthalten sind. Der Unterschied ist wie folgt:

    Datenqualitätsregel aus einer Datenqualitätsdefinition
    Sie suchen nach Datensätzen, bei denen der Kartentyp AMEX ist.
    Ausdruck in der Datenqualitätsdefinition: Col = 'AMEX'
    Ausdruck in der Datenqualitätsregel gebunden: credit_card.card_type = 'AMEX'
    Beispielergebnis: Total: 31 | Met: 4 (12.9%) Not met: 27 (87.1%)

    SQL-basierte Datenqualitätsregel
    Sie suchen nach Datensätzen, bei denen der Kartentyp nicht AMEX ist.
    SELECT-Anweisung: select card_type from db2admin.credit_card where card_type <> 'AMEX'
    Beispielergebnis: Total: 27 | Met: 0 (0%) Not met: 27 (100%)

    Überprüfen Sie auch die Gruppe der SQL-Beispielanweisungen für Datenqualitätsregeln. Diese Beispiele veranschaulichen, wie SQL-Regeln geschrieben werden, um Datensätze zurückzugeben, die Ihre Qualitätskriterien nicht erfüllen. Sie können die bereitgestellten Anweisungen in Ihre eigenen Datenqualitätsregeln kopieren und nach Bedarf anpassen.

    • Beachten Sie die folgenden Konventionen für die Angabe von Spalten-, Tabellen-und Schemanamen in Ihrer Anweisung SELECT:

      • Bei Tabellen-und Schemanamen in PostgreSQL -Datenquellen muss die Groß-/Kleinschreibung beachtet werden. Möglicherweise müssen Sie die Namen wie im folgenden Beispiel in Anführungszeichen einschließen: "schema". "tabellenname"
      • Vermeiden Sie SELECT * -Abfragen. Solche Abfragen können Gültigkeitsfehler verursachen, wenn sich Spaltennamen ändern. Grenzen Sie die Spaltenauswahl ein.
      • Wenn der Spaltenname nicht mit einem alphabetischen Zeichen beginnt oder andere Zeichen als alphabetische Zeichen, numerische Zeichen oder Unterstreichungszeichen enthält, verwenden Sie einen Aliasnamen für den Spaltennamen.

    Sie können die SQL-Anweisungen jederzeit testen. Beachten Sie, dass der Test nur die Namen der von Ihrer Abfrage ausgewählten Spalten zurückgibt. Es erfolgt keine tatsächliche Verarbeitung. Eine Gültigkeitsprüfung wird ausgeführt, wenn Sie auf Weiterklicken. Sie können erst fortfahren, wenn Ihre Abfrage diese Prüfung besteht.

  6. Ausgabeeinstellungen und -inhalt konfigurieren.

    Wählen Sie aus, ob die Regelausgabe in eine Datenbank geschrieben wird. Andernfalls werden nur einige statistische Informationen im Ausführungsprotokoll der Regel bereitgestellt. Weitere Informationen finden Sie unter Konfigurieren der Ausgabeeinstellungen für Datenqualitätsregeln.

  7. Überprüfen Sie Ihre Konfiguration. Um sicherzustellen, dass Ihre Regel ordnungsgemäß konfiguriert ist, können Sie sie testen, bevor Sie sie im Projekt speichern. Die Ausgabe des Regeltests wird direkt angezeigt und entspricht Ihrer Konfiguration in den Ausgabeeinstellungen.

    Um Änderungen an der Konfiguration vorzunehmen, klicken Sie auf der Kachel auf das Symbol Bearbeiten Symbol 'Bearbeiten' und aktualisieren Sie die Einstellungen. Wenn Ihre Überprüfung abgeschlossen ist, klicken Sie auf Erstellen. Die Regel und der zugehörige DataStage-Fluss werden dem Projekt hinzugefügt. Der Standardname des DataStage Flusses ist DataStage flow of data rule <rulename>.

Wenn Ihre Regel ordnungsgemäß konfiguriert ist, ohne dass Informationen fehlen, hat sie den Status Bereit. Dieser Status bedeutet, dass die Regel ausgeführt werden kann. Der Regelstatus Nicht bereit gibt an, dass die Regel aufgrund von SQL-Syntaxfehler, geänderten Abhängigkeiten oder anderen Regeldefinitionsproblemen nicht ausgeführt werden kann. Beispielsweise wurde das Kennwort für den Zugriff auf die Datenquelle geändert. Dieser Status ist eher bei Datenqualitätsregeln zu sehen, die mit Hilfe von IBM Knowledge Catalog API: Datenqualitätsregel erstellen erstellt wurden. Stellen Sie beim Erstellen von Datenqualitätsregeln mithilfe der API sicher, dass auch die Regel getestet und validiert wird.

Um zu bestätigen, dass eine Regel noch gültig ist, bevor Sie sie manuell ausführen können, können Sie den Regelstatus überprüfen, indem Sie im Überlaufmenü Validieren auswählen.

Weitere Informationen

Nächste Schritte

Übergeordnetes Thema: Datenqualitätsregeln verwalten