Concevez des actifs de qualité de données pour analyser et surveiller la qualité des données dans un projet.
Vous pouvez disposer des actifs de qualité de données suivants dans votre projet:
Avant de commencer à créer des définitions et des règles de qualité de données, réfléchissez aux sujets suivants:
- Que souhaitez-vous analyser et surveiller?
- Quels éléments avez-vous besoin d'évaluer?
- Quel est l'objectif de l'analyse, comme la vérification de l'exhaustivité, de la validité, etc.?
- Autorisations requises
- Pour créer, éditer ou supprimer des actifs de qualité de données, vous devez disposer des droits utilisateur Gérer les actifs de qualité de données et du rôle Admin ou Editeur dans le projet.
Définitions de qualité des données
Une définition de qualité de données représente une forme générique d'une règle de qualité de données. Il décrit l'évaluation de la règle ou la condition à l'aide de variables logiques qui ne sont liées à aucune donnée réelle. Ainsi, il peut être utilisé dans un nombre quelconque de règles de qualité de données. Si vous modifiez la définition de qualité de données, vous modifiez également la logique de validation de toutes les règles dérivées de la définition.
Vous créez et gérez des définitions de qualité de données dans des projets. Pour rendre une définition de qualité de données disponible en vue de sa réutilisation dans d'autres projets, vous pouvez la publier dans un catalogue.
Propriétés des définitions de qualité de données
Outre les propriétés d'actif communes, les définitions de qualité de données possèdent les propriétés suivantes dans les projets. Les utilisateurs disposant des droits appropriés peuvent éditer toutes les propriétés.
Pour plus d'informations sur les propriétés communes, voir Propriétés communes des actifs.
Propriété | Descriptif |
---|---|
Expression de règle | Logique de règle définie. Les modifications apportées à l'expression de règle affectent toutes les règles dérivées de cette définition de qualité de données. |
Dimension de qualité des données | Facultatif. Métrique de qualité de données principale pour la logique de règle. La dimension sélectionnée peut être utilisée comme catégorie de rapport, pour le filtrage ou pour la visualisation des données sélectionnées. |
Artefacts de gouvernance | Facultatif. Termes métier et règles de gouvernance que les utilisateurs ont affectés à l'actif. |
Règles de qualité des données
Une règle de qualité de données lie ou lie des variables logiques à des données réelles à des fins d'évaluation. Une règle est exécutée sur des données physiques pour évaluer la qualité de vos données en évaluant et en validant des conditions spécifiques. Chaque exécution de règle fournit des statistiques et des informations sur les exceptions potentielles définies pour la table de sortie de la règle.
Vous créez, gérez et exécutez des règles de qualité de données dans des projets.
Vous pouvez créer des règles à partir d'une ou de plusieurs définitions de qualité de données ou vous pouvez créer des règles de qualité de données avec des instructions SQL. Les règles générées à partir de définitions de qualité de données capturent les colonnes qui sont conformes aux conditions de règle et celles qui ne le sont pas. Les règles SQL sont mieux adaptées pour vérifier les enregistrements non conformes.
Par exemple, vous souhaitez valider les identificateurs de taxe. Par conséquent, vos concepts peuvent être TaxID existe et Valider TaxID.
Vous disposez maintenant des options suivantes:
Créez des règles à partir de définitions de qualité de données. Quel que soit le concept, vous pouvez créer une définition de qualité de données avec une logique d'évaluation pour la variable logique
tax_id
. La première condition est que l'identificateur de taxe (ou TaxID) doit exister et la deuxième condition est que l'identificateur de taxe doit respecter un format défini.La définition de qualité de données TaxID existe:
tax_id exists
Définition de qualité de données Valider TaxID:tax_id matches_format 'AA99-A999-9999'
Sélectionnez ensuite l'une des options suivantes:
- Pour chaque colonne contenant un identificateur de taxe à valider, définissez deux règles de qualité de données. La première règle lie la variable logique
tax_id
de la définition TaxID existe à la colonne. La deuxième règle lie la variable logiquetax_id
de la définition Validate TaxID à la colonne. - Pour chaque colonne contenant un identificateur de taxe à valider, définissez une règle de qualité de données et utilisez les deux définitions de qualité de données dans cette règle. Liez la variable logique
tax_id
dans l'une des définitions TaxID existe et Validez TaxID dans la colonne. - Définissez une règle de qualité de données et utilisez les deux définitions de qualité de données dans cette règle. Liez la variable logique
tax_id
dans l'une des définitions TaxID existe et Validez TaxID à un ensemble de paramètres de type Paramètre de la colonne. Ajoutez toutes les colonnes contenant un identificateur de taxe à valider dans cet ensemble de paramètres.
- Pour chaque colonne contenant un identificateur de taxe à valider, définissez deux règles de qualité de données. La première règle lie la variable logique
Créez une règle SQL:
select tax_id from taxschema.taxtable where tax_id is null or not regexp_like(tax_id, '^[a-zA-Z]{2}[0-9]{2}-[a-zA-Z][0-9]{3}-[0-9]{4}$')
Propriétés des règles de qualité des données
En plus des propriétés d'actif communes, les règles de qualité de données possèdent les propriétés suivantes dans les projets. Les utilisateurs disposant des droits appropriés peuvent éditer toutes les propriétés.
Pour plus d'informations sur les propriétés communes, voir Propriétés communes des actifs.
Propriété | Descriptif | Type de règle |
---|---|---|
Expressions liées | Liste des expressions de règle. Pour les règles simples, vous pouvez afficher des informations sur une cible de liaison en survolant la balise dans l'expression liée. | Règle simple Règle avec liaisons externes |
connexion SQL | Connexion à la source de données dans laquelle la règle sera appliquée. | Règle basée sur SQL |
Instructions SQL | Requête SQL qui constitue la règle. | Règle basée sur SQL |
Dimension de qualité des données | Facultatif. Métrique de qualité de données principale à laquelle la règle de qualité de données contribue. | Règle simple Règle avec liaisons externes |
Flux DataStage associé | Flux DataStage qui fournit les liaisons pour la règle. | Règle avec liaisons externes |
Définitions de qualité des données | Définitions de qualité de données qui fournissent les expressions de règle. | Règle simple Règle avec liaisons externes |
Artefacts de gouvernance | Facultatif. Termes métier et règles de gouvernance que les utilisateurs ont affectés à l'actif. | Règle simple Règle avec liaisons externes Règles basées sur SQL |
Relations | Les relations apparaissent dans la section Objets associés . Peut être entre la règle de qualité de données et des actifs ou des colonnes dans le même projet, ou entre la règle et un artefact. Les relations suivantes sont automatiquement créées: Pour tous les types de règle, une relation Est implémentée par avec le flux DataStage associé après la première exécution de la règle Pour les règles avec des liaisons gérées en externe, Une relation Est implémentée par avec le DataStage associé Pour des règles simples, une relation Valide la qualité de données de avec chaque colonne liée et avec l'actif qui contient la colonne. Pour les règles simples et les règles avec des liaisons gérées en externe, une relation Implémente pour chacune des définitions de qualité de données référencées Ajoutez des objets associés selon les besoins. La page Qualité de données affiche des informations agrégées pour chaque actif ou colonne associé répertorié ici avec une relation Valide la qualité de données de la relation . |
Règle simple Règle avec liaisons externes Règles basées sur SQL |
Sortie sélectionnée | Facultatif. Si elles sont configurées, les colonnes de la table de sortie des règles. | Règle simple Règle avec liaisons externes Règles basées sur SQL |
En savoir plus
Rubrique parent: Gestion de la qualité des données