Datenqualitätsassets

Letzte Aktualisierung: 27. März 2025
Datenqualitätsassets

Entwerfen Sie Datenqualitätsassets für die Analyse und Überwachung der Datenqualität in einem Projekt.

Ihr Projekt kann die folgenden Datenqualitätsassets enthalten:

Bevor Sie mit der Erstellung von Datenqualitätsdefinitionen und -regeln beginnen, sollten Sie sich die folgenden Themen vorstellen:

  • Was möchten Sie analysieren und überwachen?
  • Welche Elemente müssen Sie bewerten?
  • Was ist das Ziel der Analyse, wie z. B. die Überprüfung auf Vollständigkeit, Gültigkeit usw.
Erforderliche Berechtigungen
Zum Erstellen, Bearbeiten oder Löschen von Datenqualitätsassets benötigen Sie die Benutzerberechtigung Datenqualitätsassets verwalten und die Rolle Administrator oder die Rolle Editor im Projekt.

Datenqualitätsdefinitionen

Eine Datenqualitätsdefinition stellt eine generische Form einer Datenqualitätsregel dar. Sie beschreibt die Regelauswertung oder -bedingung mithilfe logischer Variablen, die nicht an tatsächliche Daten gebunden sind. Sie kann daher in einer beliebigen Anzahl von Datenqualitätsregelnverwendet werden. Wenn Sie die Datenqualitätsdefinition ändern, ändern Sie auch die Validierungslogik für alle von der Definition abgeleiteten Regeln.

Sie erstellen und verwalten Datenqualitätsdefinitionen in Projekten. Um eine Datenqualitätsdefinition für die Wiederverwendung in anderen Projekten verfügbar zu machen, können Sie sie in einem Katalog veröffentlichen.

Eigenschaften für Datenqualitätsdefinitionen

Neben den allgemeinen Asseteigenschaften haben Datenqualitätsdefinitionen die folgenden Eigenschaften in Projekten. Benutzer mit den entsprechenden Berechtigungen können alle Eigenschaften bearbeiten.

Weitere Informationen zu den allgemeinen Eigenschaften finden Sie unter Allgemeine Eigenschaften für Assets.

Eigenschaften für Datenqualitätsdefinitionen in Projekten
Eigenschaft Beschreibung
Regelausdruck Die definierte Regellogik. Änderungen am Regelausdruck wirken sich auf alle Regeln aus, die von dieser Datenqualitätsdefinition abgeleitet werden.
Datenqualitätsdimension Optional. Die primäre Datenqualitätsmetrik für die Regellogik. Die ausgewählte Dimension kann als Berichtskategorie, zum Filtern oder zum Visualisieren ausgewählter Daten verwendet werden.
Governance-Artefakte Optional. Die Geschäftsbegriffe und Governance-Regeln, die Benutzer dem Asset zugeordnet haben.

Datenqualitätsregeln

Eine Datenqualitätsregel verknüpft oder bindet logische Variablen zur Auswertung an tatsächliche Daten. Eine Regel wird für physische Daten ausgeführt, um die Qualität Ihrer Daten zu bewerten, indem bestimmte Bedingungen ausgewertet und validiert werden. Jede Regelausführung stellt Statistikdaten und Informationen zu potenziellen Ausnahmen bereit, die für die Ausgabetabelle der Regel definiert sind.

Sie erstellen, verwalten und führen Datenqualitätsregeln in Projekten aus.

Sie können Regeln aus einer oder mehreren Datenqualitätsdefinitionen oder Datenqualitätsregeln mit SQL-Anweisungen erstellen. Regeln, die aus Datenqualitätsdefinitionen erstellt werden, erfassen, welche Spalten den Regelbedingungen entsprechen und welche nicht. SQL-basierte Regeln eignen sich besser für die Überprüfung auf nicht konforme Datensätze.

Beispiel: Sie möchten Steuerkennungen validieren. Ihre Konzepte könnten also TaxID exists und Validate TaxIDsein.

Jetzt haben Sie die folgenden Optionen:

  • Regeln aus Datenqualitätsdefinitionen erstellen. Für beide Konzepte können Sie eine Datenqualitätsdefinition mit Auswertungslogik für die logische Variable tax_iderstellen. Die erste Bedingung ist, dass die Steuerkennung (oder TaxID) vorhanden sein muss und die zweite Bedingung ist, dass die Steuerkennung ein definiertes Format erfüllen muss.

    Definition der Datenqualität TaxID existiert : tax_id exists
    Definition der Datenqualität Validate TaxID : tax_id matches_format 'AA99-A999-9999'

    Wählen Sie anschließend eine der folgenden Optionen aus:

    • Definieren Sie für jede Spalte, die eine zu validierende Steuerkennung enthält, zwei Datenqualitätsregeln. Die erste Regel bindet die logische Variable tax_id der Definition TaxID exists an die Spalte. Die zweite Regel bindet die logische Variable tax_id der Definition Validate TaxID an die Spalte.
    • Definieren Sie für jede Spalte, die eine zu validierende Steuerkennung enthält, eine Datenqualitätsregel und verwenden Sie beide Datenqualitätsdefinitionen in dieser Regel. Binden Sie die logische Variable tax_id in einer der Definitionen TaxID exists und Validate TaxID an die Spalte.
    • Definieren Sie eine Datenqualitätsregel und verwenden Sie beide Datenqualitätsdefinitionen in dieser Regel. Binden Sie die logische Variable tax_id in einer der Definitionen TaxID exists und Validate TaxID an einen Parametersatz des Typs Parameter from column. Fügen Sie alle Spalten, die eine zu validierende Steuer-ID enthalten, zu diesem Parametersatz hinzu.
  • Erstellen Sie eine SQL-basierte Regel: select tax_id from taxschema.taxtable where tax_id is null or not regexp_like(tax_id, '^[a-zA-Z]{2}[0-9]{2}-[a-zA-Z][0-9]{3}-[0-9]{4}$')

Eigenschaften für Datenqualitätsregeln

Neben den allgemeinen Asseteigenschaften haben Datenqualitätsregeln die folgenden Eigenschaften in Projekten. Benutzer mit den entsprechenden Berechtigungen können alle Eigenschaften bearbeiten.

Weitere Informationen zu den allgemeinen Eigenschaften finden Sie unter Allgemeine Eigenschaften für Assets.

Eigenschaften für Datenqualitätsregeln in Projekten
Eigenschaft Beschreibung Regeltyp
Gebundene Ausdrücke Die Liste der Regelausdrücke. Sie können Informationen zu einem Bindungsziel anzeigen, indem Sie den Mauszeiger über das Tag im gebundenen Ausdruck bewegen. Einfache Regel
Regelausdrücke Die Liste der Regelausdrücke. Regel mit externen Bindungen
SQL-Verbindung Die Verbindung zu der Datenquelle, auf die die Regel angewendet wird. SQL-basierte Regel
SQL-Anweisungen Die SQL-Abfrage, die die Regel bildet. SQL-basierte Regel
Datenqualitätsdimension Optional. Die primäre Datenqualitätsmetrik, zu der die Datenqualitätsregel beiträgt. Einfache Regel
Regel mit externen Bindungen
Zugehöriger DataStage -Ablauf Der DataStage -Ablauf, der die Bindungen für die Regel bereitstellt. Regel mit externen Bindungen
Datenqualitätsdefinitionen Die Datenqualitätsdefinitionen, die die Regelausdrücke bereitstellen. Einfache Regel
Regel mit externen Bindungen
Governance-Artefakte Optional. Die Geschäftsbegriffe und Governance-Regeln, die Benutzer dem Asset zugeordnet haben. Einfache Regel
Regel mit externen Bindungen
SQL-basierte Regeln
Beziehungen Beziehungen werden im Abschnitt Zugehörige Objekte angezeigt. Kann zwischen der Datenqualitätsregel und Assets oder Spalten im selben Projekt oder zwischen der Regel und einem Artefakt liegen.
Die folgenden Beziehungen werden automatisch erstellt:
• Für alle Regeltypen eine "Wird implementiert von"-Beziehung mit dem zugehörigen DataStage -Fluss nach dem ersten Durchlauf der Regel
• Für Regeln mit extern verwalteten Bindungen eine "Wird implementiert von"-Beziehung mit dem zugehörigen DataStage -Unterfluss
• Für einfache Regeln eine "Validiert die Datenqualität von"-Beziehung mit jeder gebundenen Spalte.
• Für einfache Regeln und Regeln mit extern verwalteten Bindungen: Eine Beziehung Implementiert für jede referenzierte Datenqualitätsdefinition

Fügen Sie nach Bedarf zugehörige Objekte hinzu. Die Seite "Datenqualität" zeigt aggregierte Informationen für jede Spalte, die hier mit einer Validierung der Datenqualität der Beziehung aufgeführt ist.
Einfache Regel
Regel mit externen Bindungen
SQL-basierte Regeln
Ausgewählte Ausgabe Optional. Falls konfiguriert, die Spalten der Regelausgabetabelle Einfache Regel
Regel mit externen Bindungen
SQL-basierte Regeln

Portierung von Datenqualitätsbeständen zwischen Projekten

Sie können Datenqualitäts-Assets aus einem Projekt exportieren und in ein anderes Projekt importieren, wie unter Exportieren von Projekt-Assets beschrieben. Zusätzlich zu den Datenqualitätsdefinitionen und -regeln können Sie die folgenden, mit den Datenqualitätsregeln verbundenen Elemente auswählen, die in den Projektexport aufgenommen werden sollen:

  • Verbindungen
  • Datenbestände, die in Datenbindungen verwendet werden
  • DataStage ströme und Teilströme
  • Jobs
  • Datenbestände, die für Regelausgabetabellen erstellt wurden

Die folgenden Elemente werden nicht exportiert:

  • Regellauf-Historie
  • Alle Governance-Artefakte, die mit einem Datenqualitäts-Asset verbunden sind
  • Ausgabeeinstellungen auf Projektebene
  • Regelmäßig generierte Datenqualitätsinformationen

Weitere Informationen

Übergeordnetes Thema: Datenqualität verwalten