Datenqualitätsassets
Entwerfen Sie Datenqualitätsassets für die Analyse und Überwachung der Datenqualität in einem Projekt.
Ihr Projekt kann die folgenden Datenqualitätsassets enthalten:
Bevor Sie mit der Erstellung von Datenqualitätsdefinitionen und -regeln beginnen, sollten Sie sich die folgenden Themen vorstellen:
- Was möchten Sie analysieren und überwachen?
- Welche Elemente müssen Sie bewerten?
- Was ist das Ziel der Analyse, wie z. B. die Überprüfung auf Vollständigkeit, Gültigkeit usw.
- Erforderliche Berechtigungen
- Zum Erstellen, Bearbeiten oder Löschen von Datenqualitätsassets benötigen Sie die Benutzerberechtigung Datenqualitätsassets verwalten und die Rolle Administrator oder die Rolle Editor im Projekt.
Datenqualitätsdefinitionen
Eine Datenqualitätsdefinition stellt eine generische Form einer Datenqualitätsregel dar. Sie beschreibt die Regelauswertung oder -bedingung mithilfe logischer Variablen, die nicht an tatsächliche Daten gebunden sind. Sie kann daher in einer beliebigen Anzahl von Datenqualitätsregelnverwendet werden. Wenn Sie die Datenqualitätsdefinition ändern, ändern Sie auch die Validierungslogik für alle von der Definition abgeleiteten Regeln.
Sie erstellen und verwalten Datenqualitätsdefinitionen in Projekten. Um eine Datenqualitätsdefinition für die Wiederverwendung in anderen Projekten verfügbar zu machen, können Sie sie in einem Katalog veröffentlichen.
Eigenschaften für Datenqualitätsdefinitionen
Neben den allgemeinen Asseteigenschaften haben Datenqualitätsdefinitionen die folgenden Eigenschaften in Projekten. Benutzer mit den entsprechenden Berechtigungen können alle Eigenschaften bearbeiten.
Weitere Informationen zu den allgemeinen Eigenschaften finden Sie unter Allgemeine Eigenschaften für Assets.
Eigenschaft | Beschreibung |
---|---|
Regelausdruck | Die definierte Regellogik. Änderungen am Regelausdruck wirken sich auf alle Regeln aus, die von dieser Datenqualitätsdefinition abgeleitet werden. |
Datenqualitätsdimension | Optional. Die primäre Datenqualitätsmetrik für die Regellogik. Die ausgewählte Dimension kann als Berichtskategorie, zum Filtern oder zum Visualisieren ausgewählter Daten verwendet werden. |
Governance-Artefakte | Optional. Die Geschäftsbegriffe und Governance-Regeln, die Benutzer dem Asset zugeordnet haben. |
Datenqualitätsregeln
Eine Datenqualitätsregel verknüpft oder bindet logische Variablen zur Auswertung an tatsächliche Daten. Eine Regel wird für physische Daten ausgeführt, um die Qualität Ihrer Daten zu bewerten, indem bestimmte Bedingungen ausgewertet und validiert werden. Jede Regelausführung stellt Statistikdaten und Informationen zu potenziellen Ausnahmen bereit, die für die Ausgabetabelle der Regel definiert sind.
Sie erstellen, verwalten und führen Datenqualitätsregeln in Projekten aus.
Sie können Regeln aus einer oder mehreren Datenqualitätsdefinitionen oder Datenqualitätsregeln mit SQL-Anweisungen erstellen. Regeln, die aus Datenqualitätsdefinitionen erstellt werden, erfassen, welche Spalten den Regelbedingungen entsprechen und welche nicht. SQL-basierte Regeln eignen sich besser für die Überprüfung auf nicht konforme Datensätze.
Beispiel: Sie möchten Steuerkennungen validieren. Ihre Konzepte könnten also TaxID exists und Validate TaxIDsein.
Jetzt haben Sie die folgenden Optionen:
Regeln aus Datenqualitätsdefinitionen erstellen. Für beide Konzepte können Sie eine Datenqualitätsdefinition mit Auswertungslogik für die logische Variable
erstellen. Die erste Bedingung ist, dass die Steuerkennung (oder TaxID) vorhanden sein muss und die zweite Bedingung ist, dass die Steuerkennung ein definiertes Format erfüllen muss.tax_id
Definition der Datenqualität TaxID existiert :
tax_id exists
Definition der Datenqualität Validate TaxID :tax_id matches_format 'AA99-A999-9999'
Wählen Sie anschließend eine der folgenden Optionen aus:
- Definieren Sie für jede Spalte, die eine zu validierende Steuerkennung enthält, zwei Datenqualitätsregeln. Die erste Regel bindet die logische Variable
der Definition TaxID exists an die Spalte. Die zweite Regel bindet die logische Variabletax_id
der Definition Validate TaxID an die Spalte.tax_id
- Definieren Sie für jede Spalte, die eine zu validierende Steuerkennung enthält, eine Datenqualitätsregel und verwenden Sie beide Datenqualitätsdefinitionen in dieser Regel. Binden Sie die logische Variable
in einer der Definitionen TaxID exists und Validate TaxID an die Spalte.tax_id
- Definieren Sie eine Datenqualitätsregel und verwenden Sie beide Datenqualitätsdefinitionen in dieser Regel. Binden Sie die logische Variable
in einer der Definitionen TaxID exists und Validate TaxID an einen Parametersatz des Typs Parameter from column. Fügen Sie alle Spalten, die eine zu validierende Steuer-ID enthalten, zu diesem Parametersatz hinzu.tax_id
- Definieren Sie für jede Spalte, die eine zu validierende Steuerkennung enthält, zwei Datenqualitätsregeln. Die erste Regel bindet die logische Variable
Erstellen Sie eine SQL-basierte Regel:
select tax_id from taxschema.taxtable where tax_id is null or not regexp_like(tax_id, '^[a-zA-Z]{2}[0-9]{2}-[a-zA-Z][0-9]{3}-[0-9]{4}$')
Eigenschaften für Datenqualitätsregeln
Neben den allgemeinen Asseteigenschaften haben Datenqualitätsregeln die folgenden Eigenschaften in Projekten. Benutzer mit den entsprechenden Berechtigungen können alle Eigenschaften bearbeiten.
Weitere Informationen zu den allgemeinen Eigenschaften finden Sie unter Allgemeine Eigenschaften für Assets.
Eigenschaft | Beschreibung | Regeltyp |
---|---|---|
Gebundene Ausdrücke | Die Liste der Regelausdrücke. Sie können Informationen zu einem Bindungsziel anzeigen, indem Sie den Mauszeiger über das Tag im gebundenen Ausdruck bewegen. | Einfache Regel |
Regelausdrücke | Die Liste der Regelausdrücke. | Regel mit externen Bindungen |
SQL-Verbindung | Die Verbindung zu der Datenquelle, auf die die Regel angewendet wird. | SQL-basierte Regel |
SQL-Anweisungen | Die SQL-Abfrage, die die Regel bildet. | SQL-basierte Regel |
Datenqualitätsdimension | Optional. Die primäre Datenqualitätsmetrik, zu der die Datenqualitätsregel beiträgt. | Einfache Regel Regel mit externen Bindungen |
Zugehöriger DataStage -Ablauf | Der DataStage -Ablauf, der die Bindungen für die Regel bereitstellt. | Regel mit externen Bindungen |
Datenqualitätsdefinitionen | Die Datenqualitätsdefinitionen, die die Regelausdrücke bereitstellen. | Einfache Regel Regel mit externen Bindungen |
Governance-Artefakte | Optional. Die Geschäftsbegriffe und Governance-Regeln, die Benutzer dem Asset zugeordnet haben. | Einfache Regel Regel mit externen Bindungen SQL-basierte Regeln |
Beziehungen | Beziehungen werden im Abschnitt Zugehörige Objekte angezeigt. Kann zwischen der Datenqualitätsregel und Assets oder Spalten im selben Projekt oder zwischen der Regel und einem Artefakt liegen. Die folgenden Beziehungen werden automatisch erstellt: • Für alle Regeltypen eine "Wird implementiert von"-Beziehung mit dem zugehörigen DataStage -Fluss nach dem ersten Durchlauf der Regel • Für Regeln mit extern verwalteten Bindungen eine "Wird implementiert von"-Beziehung mit dem zugehörigen DataStage -Unterfluss • Für einfache Regeln eine "Validiert die Datenqualität von"-Beziehung mit jeder gebundenen Spalte. • Für einfache Regeln und Regeln mit extern verwalteten Bindungen: Eine Beziehung Implementiert für jede referenzierte Datenqualitätsdefinition Fügen Sie nach Bedarf zugehörige Objekte hinzu. Die Seite "Datenqualität" zeigt aggregierte Informationen für jede Spalte, die hier mit einer Validierung der Datenqualität der Beziehung aufgeführt ist. |
Einfache Regel Regel mit externen Bindungen SQL-basierte Regeln |
Ausgewählte Ausgabe | Optional. Falls konfiguriert, die Spalten der Regelausgabetabelle | Einfache Regel Regel mit externen Bindungen SQL-basierte Regeln |
Portierung von Datenqualitätsbeständen zwischen Projekten
Sie können Datenqualitäts-Assets aus einem Projekt exportieren und in ein anderes Projekt importieren, wie unter Exportieren von Projekt-Assets beschrieben. Zusätzlich zu den Datenqualitätsdefinitionen und -regeln können Sie die folgenden, mit den Datenqualitätsregeln verbundenen Elemente auswählen, die in den Projektexport aufgenommen werden sollen:
- Verbindungen
- Datenbestände, die in Datenbindungen verwendet werden
- DataStage ströme und Teilströme
- Jobs
- Datenbestände, die für Regelausgabetabellen erstellt wurden
Die folgenden Elemente werden nicht exportiert:
- Regellauf-Historie
- Alle Governance-Artefakte, die mit einem Datenqualitäts-Asset verbunden sind
- Ausgabeeinstellungen auf Projektebene
- Regelmäßig generierte Datenqualitätsinformationen
Weitere Informationen
Übergeordnetes Thema: Datenqualität verwalten