Regeln aus Datenqualitätsdefinitionen erstellen
Sie können Datenqualitätsregeln aus Datenqualitätsdefinitionen in Ihrem Projekt erstellen.
Sie können mehrere Datenqualitätsdefinitionen auf eine Tabelle anwenden oder dieselbe Definition an mehrere Spalten derselben Tabelle in einer einzigen Datenqualitätsregel binden.
Im Projekt muss mindestens eine Datenqualitätsdefinition vorhanden sein. Siehe Datenqualitätsdefinitionen verwalten.
Gehen Sie wie folgt vor, um eine Datenqualitätsregel aus Datenqualitätsdefinitionen zu erstellen:
Öffnen Sie ein Projekt, klicken Sie auf Neues Asset > Datenqualität messen und überwachen .
Alternativ können Sie eine Regel direkt aus einer Datenqualitätsdefinition erstellen.
Definieren Sie Details:
Geben Sie einen Namen für die Datenqualitätsregel an.
Optional: Geben Sie eine Beschreibung an.
Wählen Sie die Datenqualitätsdimensionen aus, zu denen diese Datenqualitätsregel beiträgt. Datenqualitätsdimensionen beschreiben die Datenqualitätsmetriken für die Regellogik in diesem Asset. Die ausgewählten Dimensionen können als Berichtskategorie, zum Filtern oder zum Visualisieren ausgewählter Daten verwendet werden.
Sie können zwischen den folgenden Optionen wählen:
- Alle voreingestellten Dimensionen anwenden
- Die Regel trägt zu den Scores aller Dimensionen bei, die in den verwendeten Datenqualitätsdefinitionen festgelegt sind. Dies ist die Standardeinstellung.
- Nur diese Dimension anwenden
- Die Regel trägt nur zum Score der ausgewählten Dimension bei. Dimensionseinstellungen für die Datenqualitätsdefinitionen, die in dieser Regel verwendet werden, werden ignoriert. Wenn Sie diese Option auswählen, aber keine Datenqualitätsdimension festlegen, werden die Datenqualitätsscores der einzelnen Prüfungen der Regel in der Dimension Keine erfasst.
Optional: Ändern Sie den Typ der zu erstellenden Regel in eine SQL-basierte Regel. Fahren Sie in diesem Fall mit den Anweisungen unter SQL-basierte Regel erstellenfort.
Fügen Sie mindestens eine Datenqualitätsdefinition hinzu. Wenn Sie die Regel direkt aus einer Datenqualitätsdefinition erstellen, ist diese Definition bereits vorausgewählt. Sie können diese vorausgewählte Datenqualitätsdefinition jedoch löschen und andere auswählen.
Um Datenqualitätsdefinitionen hinzuzufügen, klicken Sie auf Hinzufügen und wählen Sie alle Datenqualitätsdefinitionen aus, die Sie zum Erstellen mehrerer Prüfungen innerhalb derselben Regel verwenden wollen. Die Schaltfläche Hinzufügen ist nur verfügbar, wenn keine Datenqualitätsdefinition ausgewählt ist. Nachdem Sie mindestens eine Definition hinzugefügt haben, können Sie weitere Definitionen mithilfe des Plussymbols hinzufügen.
Für jede Datenqualitätsdefinition im Dialog Datenqualitätsdefinition auswählen wird der konfigurierte Regelausdruck im Seitenbereich angezeigt, damit Sie die für Ihren Zweck am besten geeignete Definition auswählen können.
Wenn Sie dieselbe Definition auf verschiedene Spalten einer Tabelle anwenden möchten, können Sie die ausgewählte Datenqualitätsdefinition beliebig oft duplizieren.
Beachten Sie, dass je nach Ausgabekonfiguration für jede erfolgreiche oder fehlgeschlagene Prüfung ein separater Eintrag in der Ausgabetabelle erstellt wird.
Konfigurieren Sie Bindungen.
Binden Sie für jede Datenqualitätsdefinition Daten an alle Variablen im Regelausdruck. Sie können Spaltendaten, Literalwerte oder Jobparameter an eine Variable binden. Abhängig von den konfigurierten Bindungen müssen Sie möglicherweise wie im nächsten Schritt beschrieben Joins erstellen.
Zum Ausführen Ihrer Bindungen können Sie zwischen den Datenqualitätsdefinitionen wechseln, indem Sie die Pfeile Zurück und Weiter oder die Dropdown-Liste verwenden. In der Bindungstabelle werden alle Variablen mit ihrem Datentyp angezeigt. Wählen Sie für jede Variable einen Bindungstyp und die Daten aus, an die die Variable gebunden werden soll.
Wenn Sie Spaltendaten direkt an eine Variable in der Regel binden, können Sie Daten aus allen Datenassets im Projekt verwenden, die aus einer der unterstützten Verbindungen stammen. Siehe Unterstützte Connectors für Kuration und Datenqualität. Wenn Sie Daten aus einer Verbindung binden möchten, die mit persönlichen Berechtigungsnachweisen erstellt wurde, müssen Sie zuerst die Verbindung entsperren. Zusätzlich zu Datenassets aus einer Verbindung können Sie mit Datenassets aus Dateien im CSV-Format arbeiten, die aus dem lokalen Dateisystem hochgeladen wurden, oder aus dateibasierten Verbindungen zu den Datenquellen.
Die Bindungen erfordern jedoch möglicherweise eine Vorverarbeitung von Daten oder Sie möchten zusätzliche Informationen in Ihre Ausgabetabelle einschließen. Aktivieren Sie in diesem Fall die Option Bindungen extern verwalten und aktivieren Sie DataStage. Alle vorhandenen Bindungen werden entfernt und ein DataStage -Flow wird erstellt. Der DataStage -Ablauf hat standardmäßig den Namen
<rule_name>_DataStage_flow
, aber Sie ändern diesen Namen. Konfigurieren Sie den DataStage -Ablauf, nachdem Sie die Regelkonfiguration abgeschlossen haben. Wenn Sie solche komplexen Regeln erstellen und Bindungen extern verwalten, können Sie mit allen Datenassets arbeiten, die von Verbindungen stammen, die von DataStageunterstützt werden. Siehe DataStage -Connectors.Damit eine Datenqualitätsregel mit externen Bindungen zum Datenqualitätsergebnis eines Assets oder einer Spalte beiträgt, fügen Sie dieses Asset oder diese Spalte als zugehöriges Element zur entsprechenden Regel hinzu. Verwenden Sie den Beziehungstyp Validiert die Datenqualität von . Für alle Assets und Spalten, die mit diesem Beziehungstyp verknüpft sind, werden derselbe Score und dieselben Probleme gemeldet.
Zusätzlich zum Binden einer Regelvariablen an einen einzelnen Literalwert oder eine einzelne Spalte können Sie mit Jobparametern auf Projektebene arbeiten.
Sie können die Option Parameter zu Literal verwenden, um Ihre Regelvariablen an Literalwerte zu binden, die zentral verwaltet werden und zur Laufzeit geändert werden können. Solche Parameter stellen normalerweise einen Fakt oder einen bestimmten Datenabschnitt dar. Durch die Verwendung eines Parameters anstelle des tatsächlichen Werts in einer Regel stellen Sie sicher, dass die Regel immer den aktuellsten Wert verwendet, wenn sich der Wert ändert.
Bevor Sie Regelvariablen an Jobparameter binden können, müssen Sie einen wiederverwendbaren DataStage -Parametersatz erstellen:
- Klicken Sie in Ihrem Projekt auf Neues Asset > Wiederverwendbare Parametersätze definieren .
- Definieren Sie Parameter mit Standardwerten oder Wertegruppen. Zur Verwendung in Regeln können Sie Parameter des Typs date, integer, string, float, time oder timestamp definieren. Die Typen verschlüsselt, Liste und Pfad werden nicht unterstützt. Siehe Parameter und Parametersätze erstellen und verwenden.
Wenn Sie mit Wertegruppen arbeiten, können Sie den Variablenwert für jede Jobausführung ändern. Bearbeiten Sie die Laufzeitparameterwerte und führen Sie den Job erneut aus.
Sie können auch Spalten für Bindungen als Jobparameter auf Projektebene definieren, um die Verwaltung zu vereinfachen. Spaltenparameter bestehen aus einer Asset-ID und einem Spaltennamen und werden auch in DataStage -Parametersätzen gespeichert. Sie können einen neuen Parametersatz erstellen oder einem vorhandenen Parametersatz Spaltenparameter hinzufügen. In diesem Fall müssen Sie einen Parameter des Typs Zeichenfolge erstellen und die erforderliche Asset-ID und den Spaltennamen manuell als Standardwert eingeben. Die einfachere Methode ist das Hinzufügen solcher Parameter im Bindungsschritt, wenn Sie eine Regel erstellen.
- Wählen Sie als Bindungstyp Parameter aus Spalteaus. Klicken Sie anschließend auf Parameter auswählen.
- Alle verfügbaren Parametersätze werden aufgelistet. Erweitern Sie den Eintrag, mit dem Sie arbeiten wollen.
- Klicken Sie auf das Pluszeichen, um einen Parameter hinzuzufügen.
- Geben Sie den Parameternamen an. Überspringen Sie das Feld Eingabeaufforderung . Sie wird nicht für Spaltenparameter verwendet.
- Wählen Sie ein Datenasset und eine Spalte aus. Ihre Auswahl wird als Standardwert des Parameters festgelegt.
Beachten Sie, dass Wertegruppen nicht mit Spaltenparametern verwendet werden können. Außerdem können Sie zur Laufzeit keine Spaltenparameter ändern.
Wenn Sie einen Spaltenparameter aktualisieren, der in mehr als einer Regel verwendet wird, müssen Sie jede dieser Datenqualitätsregeln erneut ausführen, indem Sie sie öffnen und auf Regel ausführenklicken.
Erstellen Sie Verknüpfungen. Wenn für Ihre Bindungen keine Verknüpfungen erforderlich sind, können Sie mit dem nächsten Schritt fortfahren. Wenn Sie in der Ausgabetabelle Daten aus mehreren Tabellen verwenden möchten, müssen Sie Verknüpfungen zu diesen Tabellen erstellen. Wenn Sie Bindungen extern verwalten, können Sie keine Verknüpfungen in der Regelkonfiguration erstellen. Joins müssen auch im DataStage -Ablauf definiert werden.
Wenn Ihre Bindungen Joins erfordern, werden die Tabellen aufgelistet. Ein Häkchen in der Spalte Join complete wird angezeigt, nachdem Sie einen Join eingerichtet haben. Führen Sie in der Tabelle Joinschlüssel die folgenden Schritte für jeden zu definierenden Join aus:
Klicken Sie auf Schlüsselpaar hinzufügen.
Klicken Sie auf Schlüssel 1. Wählen Sie dann das erste Element aus, das Sie in der Verknüpfung verwenden wollen.
Klicken Sie auf Schlüssel 2 und wählen Sie das zweite Element aus.
Wählen Sie den Verknüpfungstyp aus:
- Inner Join
- Datensätze, in denen die ausgewählten Spalten gleiche Werte enthalten, werden in das Ausgabedataset übertragen.
- Linker Outer Join
- Alle Datensätze für die für Schlüssel 1 ausgewählte Spalte werden an die Ausgabetabelle übertragen. Datensätze für die für Schlüssel 2 ausgewählte Spalte werden nur übertragen, wenn die Werte übereinstimmen.
- Rechter Outer Join
- Alle Datensätze für die für Schlüssel 2 ausgewählte Spalte werden in die Ausgabetabelle übertragen. Datensätze für die für Schlüssel 1 ausgewählte Spalte werden nur übertragen, wenn die Werte übereinstimmen.
- Vollständiger Outer Join
- Alle Datensätze aus beiden Tabellen werden in die Ausgabetabelle übertragen.
Sie können den Verknüpfungstyp jederzeit ändern. Wenn Sie jedoch Ihre Auswahl für Schlüssel 1 oder 2 ändern möchten, müssen Sie das vorhandene Schlüsselpaar löschen und ein neues erstellen.
Optional: Konfigurieren Sie die Stichprobenentnahme.
Wenn Sie nicht alle Zeilen eines Datenassets auswerten möchten oder müssen, aktivieren Sie die Datenstichprobe. So können Sie Ergebnisse auf der Basis eines Bruchteils Ihrer Daten generieren.
Bei regulären verbundenen Datenassets erfolgt die Stichprobenentnahme in der Datenquelle. In den meisten Datenbanken ist die Reihenfolge der Datensätze nicht deterministisch. Daher können die in der Stichprobe enthaltenen Datensätze von Ausführung zu Ausführung variieren, was bedeutet, dass sich die Ergebnisse und der Inhalt der Ausgabetabelle (sofern konfiguriert) im Laufe der Zeit ändern können.
Bei abfragebasierten verbundenen Datenassets erfolgt die Stichprobenentnahme nicht in der Datenquelle, sondern in der Stage 'Sample' des DataStage -Ablaufs, der der Regel zugeordnet ist.
Legen Sie die maximale Größe der Stichprobe fest. Wählen Sie die maximale Anzahl der Datensätze aus, die Sie in Ihre Datenstichprobe einschließen wollen. Der Standardwert ist 1.000 Datensätze.
Wählen Sie eine Stichprobenmethode aus:
- Sequenziell
- Die Stichprobe enthält die ersten x Datensätze des Datenassets. Abhängig von der Größe des Datenassets kann die Zahl x bis zu dem Wert betragen, den Sie als maximal zulässige Stichprobengröße angegeben haben. Wenn Sie beispielsweise 1.000.000 Datensätze haben und einen maximalen Stichprobenumfang von 2.000 angeben, enthält die Stichprobe die ersten 2.000 Datensätze.
- Intervall
- Die Stichprobe enthält jeden nten Datensatz, bis der maximal zulässige Stichprobenumfang erreicht ist. Beispiel: Wenn Sie über 1.000.000 Datensätze verfügen und einen Stichprobenumfang von 2.000 mit dem Intervall 10 angeben, werden maximal 20.000 Datensätze gelesen (2.000*10) und jeder 10. Datensatz wird ausgewählt, um den Stichprobenumfang von 2.000 abzurufen.
- Zufällig
- Die Stichprobe enthält zufällig ausgewählte Datensätze bis zum maximal zulässigen Stichprobenumfang. Die Formel zur Auswahl von Datensätzen lautet (100/sample_percent)*sample_size*2. Die Zahl 2 wird in der Formel verwendet, um sicherzustellen, dass genügend Datensätze gelesen werden, um einen gültigen Stichprobenumfang zu generieren. Wenn Sie beispielsweise 1.000.000 Datensätze haben und einen Stichprobenumfang von 2.000 und einen Prozentsatz von 5 angeben, enthält die Stichprobe 2.000 Datensätze. Zur Erstellung der Stichprobe werden maximal 80.000 Datensätze ((100/ 5) * 2.000 * 2 = 80.000) gelesen.
- Geben Sie im Feld Prozentsatz den Prozentsatz an, den Sie zum Erstellen der Stichprobe verwenden wollen. Geben Sie einen Wert größer als 0 und bis zu 100 an.
Ausgabeeinstellungen und -inhalt konfigurieren.
Wählen Sie aus, ob die Regelausgabe in eine Datenbank geschrieben werden soll. Andernfalls werden nur einige statistische Informationen im Ausführungsprotokoll der Regel bereitgestellt. Weitere Informationen finden Sie unter Konfigurieren der Ausgabeeinstellungen für Datenqualitätsregeln.
Überprüfen Sie Ihre Konfiguration. Um sicherzustellen, dass Ihre Regel ordnungsgemäß konfiguriert ist, können Sie sie testen, bevor Sie sie im Projekt speichern. Die Ausgabe des Regeltests wird direkt angezeigt und entspricht Ihrer Konfiguration in den Ausgabeeinstellungen.
Um Änderungen an der Konfiguration vorzunehmen, klicken Sie auf der Kachel auf das Symbol Bearbeiten
und aktualisieren Sie die Einstellungen.
Klicken Sie nach Abschluss der Überprüfung auf Erstellen. Die Regel und der zugehörige DataStage -Ablauf werden zum Projekt hinzugefügt. Der Standardname des DataStage -Ablaufs lautet
DataStage flow of data rule <rulename>
. Bearbeiten Sie diesen Ablauf nicht.Wenn Ihre Regel mit extern verwalteten Bindungen konfiguriert ist, werden die Regel und der DataStage -Ablauf sowie die zugehörigen untergeordneten Abläufe dem Projekt hinzugefügt, wenn Sie auf Erstellenklicken. Ihre Regel ist jedoch nicht zur Ausführung bereit. Bevor Sie die Regel ausführen können, müssen Sie den DataStage -Ablauf bearbeiten. Sie können auch Create & edit DataStage -Ablaufauswählen. In diesem Fall werden die Regel und der DataStage -Ablauf sowie die zugehörigen untergeordneten Abläufe ebenfalls zum Projekt hinzugefügt. Sie werden jedoch direkt zur DataStage -Ablaufkonfiguration weitergeleitet. Die Benennung solcher DataStage -Abläufe folgt dem Muster
<rule-name>_Datastage_flow
undDataStage subflow of data rule <rulename>
. Weitere Informationen zum Konfigurieren des Ablaufs finden Sie unter DataStage -Abläufe.
Wenn Ihre Regel ordnungsgemäß konfiguriert ist, ohne dass Informationen fehlen, hat sie den Status Bereit. Dieser Status bedeutet, dass die Regel ausgeführt werden kann. Der Regelstatus Nicht bereit zeigt an, dass die Regel nicht ausgeführt werden kann, weil einige Abhängigkeiten geändert wurden. Beispielsweise wurde die Datenqualitätsdefinition aktualisiert oder eine Tabelle, die in den Bindungen der Regel verwendet wird, entfernt. Der Status Nicht bereit wird auch für Regeln mit extern verwalteten Bindungen angezeigt, wenn der zugehörige DataStage -Ablauf nicht konfiguriert ist. Nach der Konfiguration des Ablaufs können Sie die Regel validieren, indem Sie im Überlaufmenü die Option Validieren auswählen. Wenn die Validierung erfolgreich ist, wird der Status auf Bereitgesetzt und Sie können die Regel ausführen.
Eine Regel ist nach Änderungen am Datenasset, das von der Regel analysiert wird, möglicherweise nicht mehr gültig. Daher kann es sinnvoll sein, den Regelstatus in jedem Fall zu validieren, bevor Sie eine Regel manuell ausführen.
Weitere Informationen
- Datenqualitätsassets
- Datenqualitätsdefinitionen verwalten
- Unterstützte Connectors für Kuration und Datenqualität
- Parameter und Parametersätze erstellen und verwenden
- SQL-basierte Regeln erstellen
- IBM Knowledge Catalog API: Datenqualitätsregel erstellen
- IBM Knowledge Catalog API: Datenqualitätsregel validieren
- IBM Knowledge Catalog API: Auflistung aller Datenqualitätsdefinitionen oder einer Teilmenge von ihnen
- IBM Knowledge Catalog API: Datenqualitätsdefinition abrufen
Nächste Schritte
Übergeordnetes Thema: Datenqualitätsregeln verwalten