Sie können SQL-basierte Datenqualitätsregeln erstellen, um die Qualität der Daten in Ihrem Projekt zu bewerten. Verwenden Sie solche Regeln zum Messen von Fehlern, anstatt die Einhaltung bestimmter Qualitätskriterien zu bewerten.
Damit eine SQL-basierte Datenqualitätsregel zu den Datenqualitätsbewertungen eines Assets oder einer Spalte beiträgt, fügen Sie dieses Asset oder diese Spalte als zugehöriges Element zur entsprechenden Regel hinzu. Verwenden Sie den Beziehungstyp Validiert die Datenqualität von . Für alle Assets und Spalten, die mit diesem Beziehungstyp verknüpft sind, werden derselbe Score und dieselben Probleme gemeldet.
So erstellen Sie eine SQL-basierte Datenqualitätsregel:
Öffnen Sie ein Projekt, klicken Sie auf Neues Asset > Datenqualität messen und überwachen .
Definieren Sie Details:
Geben Sie einen Namen für die Datenqualitätsregel an.
Optional: Geben Sie eine Beschreibung an.
Optional: Wählen Sie eine Datenqualitätsdimension aus, um die primäre Datenqualitätsmetrik für die Regellogik in diesem Asset zu beschreiben. Die ausgewählte Dimension kann als Berichtskategorie, zum Filtern oder zum Visualisieren ausgewählter Daten verwendet werden.
Wenn Sie Ihre Regel aus einer Datenqualitätsdefinition erstellen, ist möglicherweise bereits eine Datenqualitätsdimension festgelegt. Sie können sie beibehalten, die Dimensionseinstellung löschen oder eine andere Dimension auswählen.
Aktivieren Sie die Option SQL-Anweisungen verwenden .
Geben Sie die Quelle der zu prüfenden Daten an, indem Sie eine vorhandene Verbindung auswählen oder eine neue erstellen. Informationen zu unterstützten Datenquellen finden Sie unter Unterstützte Datenquellen für Kuration und Datenqualität.
Wenn Sie eine vorhandene Verbindung auswählen und diese Verbindung mit persönlichen Berechtigungsnachweisen erstellt wurde, müssen Sie die Verbindung entsperren.
Geben Sie Ihre SQL-Anweisungen ein.
Stellen Sie beim Schreiben der Abfrage sicher, dass die Anweisung SELECT die folgenden Bedingungen erfüllt:
- Die Anweisung gibt nur Spalten mit eindeutigen Namen zurück. Spalten mit doppelten Namen führen zu Gültigkeitsfehlern.
- Die Anweisung gibt die Anzahl der Datensätze zurück, die Ihre Datenqualitätsbedingung nicht erfüllen. SQL-basierte Regeln funktionieren anders als Regeln, die aus Datenqualitätsdefinitionen erstellt wurden. Sie geben die Datensätze, die die Anweisung SELECT zurückgibt, als
failed
oderNot met
zurück. Außerdem entspricht die Gesamtzahl der gemeldeten Datensätze der Anzahl der zurückgegebenen Datensätze und nicht der Anzahl der geprüften Datensätze.
Angenommen, Sie haben eine Tabelle
db2admin.credit_card
mit 31 Zeilen und möchten überprüfen, wie viele Datensätze mit dem Kartentyp AMEX in der Tabelle enthalten sind. Der Unterschied ist wie folgt:Datenqualitätsregel aus einer Datenqualitätsdefinition
Sie suchen nach Datensätzen, bei denen der Kartentyp AMEX ist.
Ausdruck in der Datenqualitätsdefinition:Col = 'AMEX'
Ausdruck in der Datenqualitätsregel gebunden:credit_card.card_type = 'AMEX'
Beispielergebnis:Total: 31 | Met: 4 (12.9%) Not met: 27 (87.1%)
SQL-basierte Datenqualitätsregel
Sie suchen nach Datensätzen, bei denen der Kartentyp nicht AMEX ist.
SELECT-Anweisung:select card_type from db2admin.credit_card where card_type <> 'AMEX'
Beispielergebnis:Total: 27 | Met: 0 (0%) Not met: 27 (100%)
Überprüfen Sie auch die Gruppe der SQL-Beispielanweisungen für Datenqualitätsregeln. Diese Beispiele veranschaulichen, wie SQL-Regeln geschrieben werden, um Datensätze zurückzugeben, die Ihre Qualitätskriterien nicht erfüllen. Sie können die bereitgestellten Anweisungen in Ihre eigenen Datenqualitätsregeln kopieren und nach Bedarf anpassen.
Beachten Sie die folgenden Konventionen für die Angabe von Spalten-, Tabellen-und Schemanamen in Ihrer Anweisung SELECT:
- Bei Tabellen-und Schemanamen in PostgreSQL -Datenquellen muss die Groß-/Kleinschreibung beachtet werden. Möglicherweise müssen Sie die Namen wie im folgenden Beispiel in Anführungszeichen einschließen: "schema". "tabellenname"
- Vermeiden Sie
SELECT *
-Abfragen. Solche Abfragen können Gültigkeitsfehler verursachen, wenn sich Spaltennamen ändern. Grenzen Sie die Spaltenauswahl ein. - Wenn der Spaltenname nicht mit einem alphabetischen Zeichen beginnt oder andere Zeichen als alphabetische Zeichen, numerische Zeichen oder Unterstreichungszeichen enthält, verwenden Sie einen Aliasnamen für den Spaltennamen.
Sie können die SQL-Anweisungen jederzeit testen. Beachten Sie, dass der Test nur die Namen der von Ihrer Abfrage ausgewählten Spalten zurückgibt. Es erfolgt keine tatsächliche Verarbeitung. Eine Gültigkeitsprüfung wird ausgeführt, wenn Sie auf Weiterklicken. Sie können erst fortfahren, wenn Ihre Abfrage diese Prüfung besteht.
Ausgabeeinstellungen und -inhalt konfigurieren.
Wählen Sie aus, ob die Regelausgabe in eine Datenbank geschrieben wird. Andernfalls werden nur einige statistische Informationen im Ausführungsprotokoll der Regel bereitgestellt.
Gehen Sie wie folgt vor, um eine Datenbanktabelle zu generieren:
Aktivieren Sie die Option Externe Ausgabe und erweitern Sie den Abschnitt.
Wählen Sie eine der folgenden Optionen:
In eine neue Datenbanktabelle schreiben
Wählen Sie eine Verbindung aus. Je nach gewählter Verbindung wählen Sie ein Schema oder einen Katalog und ein Schema aus. Geben Sie dann den Namen der zu erstellenden Ausgabetabelle ein.
Wenn Sie die Regel ausführen, wird diese neue Ausgabetabelle Ihrem Projekt auch als Datenasset hinzugefügt.
In eine vorhandene Datenbanktabelle schreiben
Wählen Sie eine Verbindung aus. Wählen Sie je nach gewählter Verbindung ein Schema und eine vorhandene Tabelle oder einen Katalog, ein Schema und eine vorhandene Tabelle aus. Der Abschnitt Output-Inhalt wird mit den Spalten dieser Tabelle gefüllt, und Sie können diesen Spalten Inhalte zuordnen.
Wenn ein entsprechendes Datenasset in Ihrem Projekt nicht vorhanden ist, wird es erstellt, wenn Sie die Regel ausführen.
Informationen zu unterstützten Datenbanktypen finden Sie unter Unterstützte Datenquellen für Kuration und Datenqualität. Schema-und Tabellennamen müssen dieser Konvention entsprechen:
- Das erste Zeichen des Namens muss ein alphabetisches Zeichen sein.
- Der Rest des Namens kann aus alphabetischen Zeichen, numerischen Zeichen oder Unterstreichungszeichen bestehen.
- Der Name darf keine Leerzeichen enthalten.
Sie können auf das Datenasset, das der Regelausgabetabelle entspricht, über die Seite Assets Ihres Projekts oder über den Ausführungsverlaufder Regel zugreifen.
Ihre SQL-Abfrage bestimmt, welche Datensätze in die Ausgabetabelle geschrieben werden, Sie können jedoch die folgenden Einstellungen konfigurieren:
Maximale Anzahl Ausgabesätze: Sie können alle Datensätze einschließen oder eine maximale Anzahl festlegen.
Aktualisierungsmethode: Neue Ausgabedatensätze können an den vorhandenen Inhalt der Ausgabetabelle angehängt werden. Wenn Sie nur die Ausgabeergebnisse der letzten Ausführung beibehalten möchten, wählen Sie die Option zum Überschreiben vorhandener Datensätze aus.
Für die Aktualisierungsmethode Anhängenkann das Tabellenschema nicht geändert werden, d. h., Sie können keine Spalten umbenennen, hinzufügen oder löschen. Wenn Sie den Ausgabeinhalt für eine Datenqualitätsregel ändern und in eine vorhandene Ausgabetabelle schreiben möchten, stellen Sie sicher, dass Sie die Aktualisierungsmethode Überschreiben verwenden, um die Spalten in der Ausgabetabelle durch die neu definierten Ausgabespalten zu ersetzen.
Sie können den Ausgabetyp jederzeit ändern. Abhängig von Ihrer neuen Auswahl werden alle konfigurierten Einstellungen zurückgesetzt oder überschrieben.
Konfigurieren Sie den Inhalt Ihrer Ausgabetabelle. Standardmäßig werden alle von der SQL-Abfrage ausgewählten Spalten in die Ausgabetabelle eingeschlossen. Sie können ausgewählte oder alle dieser Spalten entfernen und weitere Inhalte hinzufügen. Klicken Sie auf Ausgabeinhalt hinzufügen und wählen Sie eine der folgenden Optionen aus:
Spalten: Wählen Sie die Spalten aus, die in Ihrer Ausgabetabelle angezeigt werden sollen. Sie können aus allen Spalten auswählen, die von der SQL-Abfrage zurückgegeben werden.
Statistiken und Attribute: Wählen Sie zusätzliche Attribute oder Statistiken aus, die Sie in Ihre Ausgabetabelle aufnehmen möchten.
- Datensatz-ID: Enthält einen eindeutigen Schlüssel, der einen Datensatz in der Ausgabe identifiziert.
- Regelname: Enthält den Namen der Datenqualitätsregel.
- Systemdatum: Zeigt das Systemdatum an, an dem die Regel ausgeführt wurde. Das Systemdatum ist das Datum in der auf dem Server festgelegten Zeitzone.
- Systemzeit: Zeigt das Systemdatum und die Uhrzeit an, zu der die Regel ausgeführt wurde. Systemdatum und -zeit sind das Datum und die Uhrzeit in der auf dem Server festgelegten Zeitzone.
- Regeln bestehen: Zeigt die Anzahl der Regelbedingungen an, die der Datensatz erfüllt hat.
- Fehlgeschlagene Regeln: Zeigt die Anzahl der Regelbedingungen an, die der Datensatz nicht erfüllt hat.
- Prozent bestandener Regeln: Zeigt den Prozentsatz der Regelbedingungen an, die erfüllt wurden.
- Prozentsatz fehlgeschlagener Regeln: Zeigt den Prozentsatz der Regelbedingungen an, die nicht erfüllt wurden.
Überprüfen Sie Ihre Konfiguration. Um sicherzustellen, dass Ihre Regel ordnungsgemäß konfiguriert ist, können Sie sie testen, bevor Sie sie im Projekt speichern. Die Ausgabe des Regeltests wird direkt angezeigt und entspricht Ihrer Konfiguration in den Ausgabeeinstellungen.
Um Änderungen an der Konfiguration vorzunehmen, klicken Sie auf das Symbol bearbeiten auf der Kachel und aktualisieren Sie die Einstellungen. Wenn Ihre Überprüfung abgeschlossen ist, klicken Sie auf Erstellen. Die Regel und der zugehörige DataStage-Fluss werden dem Projekt hinzugefügt. Der Standardname des DataStage Flusses ist
DataStage flow of data rule <rulename>
.
Wenn Ihre Regel ordnungsgemäß konfiguriert ist, ohne dass Informationen fehlen, hat sie den Status Bereit. Dieser Status bedeutet, dass die Regel ausgeführt werden kann. Der Regelstatus Nicht bereit gibt an, dass die Regel aufgrund von SQL-Syntaxfehler, geänderten Abhängigkeiten oder anderen Regeldefinitionsproblemen nicht ausgeführt werden kann. Beispielsweise wurde das Kennwort für den Zugriff auf die Datenquelle geändert. Dieser Status ist eher bei Datenqualitätsregeln zu sehen, die mit Hilfe von IBM Knowledge Catalog API: Datenqualitätsregel erstellen erstellt wurden. Stellen Sie beim Erstellen von Datenqualitätsregeln mithilfe der API sicher, dass auch die Regel getestet und validiert wird.
Um zu bestätigen, dass eine Regel noch gültig ist, bevor Sie sie manuell ausführen können, können Sie den Regelstatus überprüfen, indem Sie im Überlaufmenü Validieren auswählen.
Weitere Informationen
Nächste Schritte
Übergeordnetes Thema: Datenqualitätsregeln verwalten