Entwerfen Sie Datenqualitätsassets für die Analyse und Überwachung der Datenqualität in einem Projekt.
Ihr Projekt kann die folgenden Datenqualitätsassets enthalten:
Bevor Sie mit der Erstellung von Datenqualitätsdefinitionen und -regeln beginnen, sollten Sie sich die folgenden Themen vorstellen:
- Was möchten Sie analysieren und überwachen?
- Welche Elemente müssen Sie bewerten?
- Was ist das Ziel der Analyse, wie z. B. die Überprüfung auf Vollständigkeit, Gültigkeit usw.
- Erforderliche Berechtigungen
- Zum Erstellen, Bearbeiten oder Löschen von Datenqualitätsassets benötigen Sie die Benutzerberechtigung Datenqualitätsassets verwalten und die Rolle Administrator oder die Rolle Editor im Projekt.
Datenqualitätsdefinitionen
Eine Datenqualitätsdefinition stellt eine generische Form einer Datenqualitätsregel dar. Sie beschreibt die Regelauswertung oder -bedingung mithilfe logischer Variablen, die nicht an tatsächliche Daten gebunden sind. Sie kann daher in einer beliebigen Anzahl von Datenqualitätsregelnverwendet werden. Wenn Sie die Datenqualitätsdefinition ändern, ändern Sie auch die Validierungslogik für alle von der Definition abgeleiteten Regeln.
Sie erstellen und verwalten Datenqualitätsdefinitionen in Projekten. Um eine Datenqualitätsdefinition für die Wiederverwendung in anderen Projekten verfügbar zu machen, können Sie sie in einem Katalog veröffentlichen.
Eigenschaften für Datenqualitätsdefinitionen
Neben den allgemeinen Asseteigenschaften haben Datenqualitätsdefinitionen die folgenden Eigenschaften in Projekten. Benutzer mit den entsprechenden Berechtigungen können alle Eigenschaften bearbeiten.
Weitere Informationen zu den allgemeinen Eigenschaften finden Sie unter Allgemeine Eigenschaften für Assets.
Eigenschaft | Beschreibung |
---|---|
Regelausdruck | Die definierte Regellogik. Änderungen am Regelausdruck wirken sich auf alle Regeln aus, die von dieser Datenqualitätsdefinition abgeleitet werden. |
Datenqualitätsdimension | Optional. Die primäre Datenqualitätsmetrik für die Regellogik. Die ausgewählte Dimension kann als Berichtskategorie, zum Filtern oder zum Visualisieren ausgewählter Daten verwendet werden. |
Governance-Artefakte | Optional. Die Geschäftsbegriffe und Governance-Regeln, die Benutzer dem Asset zugeordnet haben. |
Datenqualitätsregeln
Eine Datenqualitätsregel verknüpft oder bindet logische Variablen zur Auswertung an tatsächliche Daten. Eine Regel wird für physische Daten ausgeführt, um die Qualität Ihrer Daten zu bewerten, indem bestimmte Bedingungen ausgewertet und validiert werden. Jede Regelausführung stellt Statistikdaten und Informationen zu potenziellen Ausnahmen bereit, die für die Ausgabetabelle der Regel definiert sind.
Sie erstellen, verwalten und führen Datenqualitätsregeln in Projekten aus.
Sie können Regeln aus einer oder mehreren Datenqualitätsdefinitionen oder Datenqualitätsregeln mit SQL-Anweisungen erstellen. Regeln, die aus Datenqualitätsdefinitionen erstellt werden, erfassen, welche Spalten den Regelbedingungen entsprechen und welche nicht. SQL-basierte Regeln eignen sich besser für die Überprüfung auf nicht konforme Datensätze.
Beispiel: Sie möchten Steuerkennungen validieren. Ihre Konzepte könnten also TaxID exists und Validate TaxIDsein.
Jetzt haben Sie die folgenden Optionen:
Regeln aus Datenqualitätsdefinitionen erstellen. Für beide Konzepte können Sie eine Datenqualitätsdefinition mit Auswertungslogik für die logische Variable
tax_id
erstellen. Die erste Bedingung ist, dass die Steuerkennung (oder TaxID) vorhanden sein muss und die zweite Bedingung ist, dass die Steuerkennung ein definiertes Format erfüllen muss.Datenqualitätsdefinition TaxID exists:
tax_id exists
Datenqualitätsdefinition TaxID:tax_id matches_format 'AA99-A999-9999'
Wählen Sie anschließend eine der folgenden Optionen aus:
- Definieren Sie für jede Spalte, die eine zu validierende Steuerkennung enthält, zwei Datenqualitätsregeln. Die erste Regel bindet die logische Variable
tax_id
der Definition TaxID exists an die Spalte. Die zweite Regel bindet die logische Variabletax_id
der Definition Validate TaxID an die Spalte. - Definieren Sie für jede Spalte, die eine zu validierende Steuerkennung enthält, eine Datenqualitätsregel und verwenden Sie beide Datenqualitätsdefinitionen in dieser Regel. Binden Sie die logische Variable
tax_id
in einer der Definitionen TaxID exists und Validate TaxID an die Spalte. - Definieren Sie eine Datenqualitätsregel und verwenden Sie beide Datenqualitätsdefinitionen in dieser Regel. Binden Sie die logische Variable
tax_id
in einer der Definitionen TaxID exists und Validate TaxID an einen Parametersatz des Typs Parameter from column. Fügen Sie alle Spalten, die eine zu validierende Steuer-ID enthalten, zu diesem Parametersatz hinzu.
- Definieren Sie für jede Spalte, die eine zu validierende Steuerkennung enthält, zwei Datenqualitätsregeln. Die erste Regel bindet die logische Variable
Erstellen Sie eine SQL-basierte Regel:
select tax_id from taxschema.taxtable where tax_id is null or not regexp_like(tax_id, '^[a-zA-Z]{2}[0-9]{2}-[a-zA-Z][0-9]{3}-[0-9]{4}$')
Eigenschaften für Datenqualitätsregeln
Neben den allgemeinen Asseteigenschaften haben Datenqualitätsregeln die folgenden Eigenschaften in Projekten. Benutzer mit den entsprechenden Berechtigungen können alle Eigenschaften bearbeiten.
Weitere Informationen zu den allgemeinen Eigenschaften finden Sie unter Allgemeine Eigenschaften für Assets.
Eigenschaft | Beschreibung | Regeltyp |
---|---|---|
Gebundene Ausdrücke | Die Liste der Regelausdrücke. Bei einfachen Regeln können Sie Informationen zu einem Bindungsziel anzeigen, indem Sie den Mauszeiger über den Tag im gebundenen Ausdruck bewegen. | Einfache Regel Regel mit externen Bindungen |
SQL-Verbindung | Die Verbindung zu der Datenquelle, auf die die Regel angewendet wird. | SQL-basierte Regel |
SQL-Anweisungen | Die SQL-Abfrage, die die Regel bildet. | SQL-basierte Regel |
Datenqualitätsdimension | Optional. Die primäre Datenqualitätsmetrik, zu der die Datenqualitätsregel beiträgt. | Einfache Regel Regel mit externen Bindungen |
Zugehöriger DataStage -Ablauf | Der DataStage -Ablauf, der die Bindungen für die Regel bereitstellt. | Regel mit externen Bindungen |
Datenqualitätsdefinitionen | Die Datenqualitätsdefinitionen, die die Regelausdrücke bereitstellen. | Einfache Regel Regel mit externen Bindungen |
Governance-Artefakte | Optional. Die Geschäftsbegriffe und Governance-Regeln, die Benutzer dem Asset zugeordnet haben. | Einfache Regel Regel mit externen Bindungen SQL-basierte Regeln |
Beziehungen | Beziehungen werden im Abschnitt Zugehörige Objekte angezeigt. Kann sich zwischen der Datenqualitätsregel und Assets oder Spalten in demselben Projekt oder zwischen der Regel und einem Artefakt befinden. Die folgenden Beziehungen werden automatisch erstellt: Für alle Regeltypen wird eine Implementierung durch -Beziehung mit dem zugehörigen DataStage -Ablauf nach der ersten Ausführung der Regel Für Regeln mit extern verwalteten Bindungen Wird durch eine -Beziehung mit dem zugehörigen untergeordneten DataStage -Fluss implementiert. Bei einfachen Regeln wird eine Beziehung Validiert die Datenqualität von mit jeder gebundenen Spalte und mit dem Asset, das die Spalte enthält, überprüft. Für einfache Regeln und Regeln mit extern verwalteten Bindungen: Eine Beziehung Implementiert für jede referenzierte Datenqualitätsdefinition Fügen Sie nach Bedarf zugehörige Objekte hinzu. Auf der Seite Datenqualität werden aggregierte Informationen für jedes zugehörige Asset oder jede zugehörige Spalte angezeigt, das bzw. die hier mit einer Beziehung Validiert die Datenqualität aufgelistet ist. |
Einfache Regel Regel mit externen Bindungen SQL-basierte Regeln |
Ausgewählte Ausgabe | Optional. Falls konfiguriert, die Spalten der Regelausgabetabelle | Einfache Regel Regel mit externen Bindungen SQL-basierte Regeln |
Weitere Informationen
Übergeordnetes Thema: Datenqualität verwalten