0 / 0
Zurück zur englischen Version der Dokumentation
Datenqualitätsassets
Letzte Aktualisierung: 13. Juni 2024
Datenqualitätsassets

Entwerfen Sie Datenqualitätsassets für die Analyse und Überwachung der Datenqualität in einem Projekt.

Ihr Projekt kann die folgenden Datenqualitätsassets enthalten:

Bevor Sie mit der Erstellung von Datenqualitätsdefinitionen und -regeln beginnen, sollten Sie sich die folgenden Themen vorstellen:

  • Was möchten Sie analysieren und überwachen?
  • Welche Elemente müssen Sie bewerten?
  • Was ist das Ziel der Analyse, wie z. B. die Überprüfung auf Vollständigkeit, Gültigkeit usw.
Erforderliche Berechtigungen
Zum Erstellen, Bearbeiten oder Löschen von Datenqualitätsassets benötigen Sie die Benutzerberechtigung Datenqualitätsassets verwalten und die Rolle Administrator oder die Rolle Editor im Projekt.

Datenqualitätsdefinitionen

Eine Datenqualitätsdefinition stellt eine generische Form einer Datenqualitätsregel dar. Sie beschreibt die Regelauswertung oder -bedingung mithilfe logischer Variablen, die nicht an tatsächliche Daten gebunden sind. Sie kann daher in einer beliebigen Anzahl von Datenqualitätsregelnverwendet werden. Wenn Sie die Datenqualitätsdefinition ändern, ändern Sie auch die Validierungslogik für alle von der Definition abgeleiteten Regeln.

Sie erstellen und verwalten Datenqualitätsdefinitionen in Projekten. Um eine Datenqualitätsdefinition für die Wiederverwendung in anderen Projekten verfügbar zu machen, können Sie sie in einem Katalog veröffentlichen.

Eigenschaften für Datenqualitätsdefinitionen

Neben den allgemeinen Asseteigenschaften haben Datenqualitätsdefinitionen die folgenden Eigenschaften in Projekten. Benutzer mit den entsprechenden Berechtigungen können alle Eigenschaften bearbeiten.

Weitere Informationen zu den allgemeinen Eigenschaften finden Sie unter Allgemeine Eigenschaften für Assets.

Eigenschaften für Datenqualitätsdefinitionen in Projekten
Eigenschaft Beschreibung
Regelausdruck Die definierte Regellogik. Änderungen am Regelausdruck wirken sich auf alle Regeln aus, die von dieser Datenqualitätsdefinition abgeleitet werden.
Datenqualitätsdimension Optional. Die primäre Datenqualitätsmetrik für die Regellogik. Die ausgewählte Dimension kann als Berichtskategorie, zum Filtern oder zum Visualisieren ausgewählter Daten verwendet werden.
Governance-Artefakte Optional. Die Geschäftsbegriffe und Governance-Regeln, die Benutzer dem Asset zugeordnet haben.

Datenqualitätsregeln

Eine Datenqualitätsregel verknüpft oder bindet logische Variablen zur Auswertung an tatsächliche Daten. Eine Regel wird für physische Daten ausgeführt, um die Qualität Ihrer Daten zu bewerten, indem bestimmte Bedingungen ausgewertet und validiert werden. Jede Regelausführung stellt Statistikdaten und Informationen zu potenziellen Ausnahmen bereit, die für die Ausgabetabelle der Regel definiert sind.

Sie erstellen, verwalten und führen Datenqualitätsregeln in Projekten aus.

Sie können Regeln aus einer oder mehreren Datenqualitätsdefinitionen oder Datenqualitätsregeln mit SQL-Anweisungen erstellen. Regeln, die aus Datenqualitätsdefinitionen erstellt werden, erfassen, welche Spalten den Regelbedingungen entsprechen und welche nicht. SQL-basierte Regeln eignen sich besser für die Überprüfung auf nicht konforme Datensätze.

Beispiel: Sie möchten Steuerkennungen validieren. Ihre Konzepte könnten also TaxID exists und Validate TaxIDsein.

Jetzt haben Sie die folgenden Optionen:

  • Regeln aus Datenqualitätsdefinitionen erstellen. Für beide Konzepte können Sie eine Datenqualitätsdefinition mit Auswertungslogik für die logische Variable tax_iderstellen. Die erste Bedingung ist, dass die Steuerkennung (oder TaxID) vorhanden sein muss und die zweite Bedingung ist, dass die Steuerkennung ein definiertes Format erfüllen muss.

    Datenqualitätsdefinition TaxID exists: tax_id exists
    Datenqualitätsdefinition TaxID: tax_id matches_format 'AA99-A999-9999'

    Wählen Sie anschließend eine der folgenden Optionen aus:

    • Definieren Sie für jede Spalte, die eine zu validierende Steuerkennung enthält, zwei Datenqualitätsregeln. Die erste Regel bindet die logische Variable tax_id der Definition TaxID exists an die Spalte. Die zweite Regel bindet die logische Variable tax_id der Definition Validate TaxID an die Spalte.
    • Definieren Sie für jede Spalte, die eine zu validierende Steuerkennung enthält, eine Datenqualitätsregel und verwenden Sie beide Datenqualitätsdefinitionen in dieser Regel. Binden Sie die logische Variable tax_id in einer der Definitionen TaxID exists und Validate TaxID an die Spalte.
    • Definieren Sie eine Datenqualitätsregel und verwenden Sie beide Datenqualitätsdefinitionen in dieser Regel. Binden Sie die logische Variable tax_id in einer der Definitionen TaxID exists und Validate TaxID an einen Parametersatz des Typs Parameter from column. Fügen Sie alle Spalten, die eine zu validierende Steuer-ID enthalten, zu diesem Parametersatz hinzu.
  • Erstellen Sie eine SQL-basierte Regel: select tax_id from taxschema.taxtable where tax_id is null or not regexp_like(tax_id, '^[a-zA-Z]{2}[0-9]{2}-[a-zA-Z][0-9]{3}-[0-9]{4}$')

Eigenschaften für Datenqualitätsregeln

Neben den allgemeinen Asseteigenschaften haben Datenqualitätsregeln die folgenden Eigenschaften in Projekten. Benutzer mit den entsprechenden Berechtigungen können alle Eigenschaften bearbeiten.

Weitere Informationen zu den allgemeinen Eigenschaften finden Sie unter Allgemeine Eigenschaften für Assets.

Eigenschaften für Datenqualitätsdefinitionen in Projekten
Eigenschaft Beschreibung Regeltyp
Gebundene Ausdrücke Die Liste der Regelausdrücke. Bei einfachen Regeln können Sie Informationen zu einem Bindungsziel anzeigen, indem Sie den Mauszeiger über den Tag im gebundenen Ausdruck bewegen. Einfache Regel
Regel mit externen Bindungen
SQL-Verbindung Die Verbindung zu der Datenquelle, auf die die Regel angewendet wird. SQL-basierte Regel
SQL-Anweisungen Die SQL-Abfrage, die die Regel bildet. SQL-basierte Regel
Datenqualitätsdimension Optional. Die primäre Datenqualitätsmetrik, zu der die Datenqualitätsregel beiträgt. Einfache Regel
Regel mit externen Bindungen
Zugehöriger DataStage -Ablauf Der DataStage -Ablauf, der die Bindungen für die Regel bereitstellt. Regel mit externen Bindungen
Datenqualitätsdefinitionen Die Datenqualitätsdefinitionen, die die Regelausdrücke bereitstellen. Einfache Regel
Regel mit externen Bindungen
Governance-Artefakte Optional. Die Geschäftsbegriffe und Governance-Regeln, die Benutzer dem Asset zugeordnet haben. Einfache Regel
Regel mit externen Bindungen
SQL-basierte Regeln
Beziehungen Beziehungen werden im Abschnitt Zugehörige Objekte angezeigt. Kann sich zwischen der Datenqualitätsregel und Assets oder Spalten in demselben Projekt oder zwischen der Regel und einem Artefakt befinden.
Die folgenden Beziehungen werden automatisch erstellt:
Für alle Regeltypen wird eine Implementierung durch -Beziehung mit dem zugehörigen DataStage -Ablauf nach der ersten Ausführung der Regel
Für Regeln mit extern verwalteten Bindungen Wird durch eine -Beziehung mit dem zugehörigen untergeordneten DataStage -Fluss implementiert.
Bei einfachen Regeln wird eine Beziehung Validiert die Datenqualität von mit jeder gebundenen Spalte und mit dem Asset, das die Spalte enthält, überprüft.
Für einfache Regeln und Regeln mit extern verwalteten Bindungen: Eine Beziehung Implementiert für jede referenzierte Datenqualitätsdefinition

Fügen Sie nach Bedarf zugehörige Objekte hinzu. Auf der Seite Datenqualität werden aggregierte Informationen für jedes zugehörige Asset oder jede zugehörige Spalte angezeigt, das bzw. die hier mit einer Beziehung Validiert die Datenqualität aufgelistet ist.
Einfache Regel
Regel mit externen Bindungen
SQL-basierte Regeln
Ausgewählte Ausgabe Optional. Falls konfiguriert, die Spalten der Regelausgabetabelle Einfache Regel
Regel mit externen Bindungen
SQL-basierte Regeln

Weitere Informationen

Übergeordnetes Thema: Datenqualität verwalten

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen