Actifs de qualité de données

Dernière mise à jour : 08 avr. 2025
Actifs de qualité de données

Concevez des actifs de qualité de données pour analyser et surveiller la qualité des données dans un projet.

Vous pouvez disposer des actifs de qualité de données suivants dans votre projet:

Avant de commencer à créer des définitions et des règles de qualité de données, réfléchissez aux sujets suivants:

  • Que souhaitez-vous analyser et surveiller?
  • Quels éléments avez-vous besoin d'évaluer?
  • Quel est l'objectif de l'analyse, comme la vérification de l'exhaustivité, de la validité, etc.?
Autorisations requises
Pour créer, modifier ou supprimer des ressources de qualité des données, vous devez disposer du droit d'utilisateur Gérer les ressources de qualité des données et avoir le rôle d' administrateur ou d' éditeur dans le projet.

Définitions de qualité des données

Une définition de qualité de données représente une forme générique d'une règle de qualité de données. Il décrit l'évaluation de la règle ou la condition à l'aide de variables logiques qui ne sont liées à aucune donnée réelle. Ainsi, il peut être utilisé dans un nombre quelconque de règles de qualité de données. Si vous modifiez la définition de qualité de données, vous modifiez également la logique de validation de toutes les règles dérivées de la définition.

Vous créez et gérez des définitions de qualité de données dans des projets. Pour rendre une définition de qualité de données disponible en vue de sa réutilisation dans d'autres projets, vous pouvez la publier dans un catalogue.

Propriétés des définitions de qualité de données

Outre les propriétés d'actif communes, les définitions de qualité de données possèdent les propriétés suivantes dans les projets. Les utilisateurs disposant des droits appropriés peuvent éditer toutes les propriétés.

Pour plus d'informations sur les propriétés communes, voir Propriétés communes des actifs.

Propriétés des définitions de qualité de données dans les projets
Propriété Descriptif
Expression de règle Logique de règle définie. Les modifications apportées à l'expression de règle affectent toutes les règles dérivées de cette définition de qualité de données.
Dimension de qualité des données Facultatif. Métrique de qualité de données principale pour la logique de règle. La dimension sélectionnée peut être utilisée comme catégorie de rapport, pour le filtrage ou pour la visualisation des données sélectionnées.
Artefacts de gouvernance Facultatif. Termes métier et règles de gouvernance que les utilisateurs ont affectés à l'actif.

Règles de qualité des données

Une règle de qualité de données lie ou lie des variables logiques à des données réelles à des fins d'évaluation. Une règle est exécutée sur des données physiques pour évaluer la qualité de vos données en évaluant et en validant des conditions spécifiques. Chaque exécution de règle fournit des statistiques et des informations sur les exceptions potentielles définies pour la table de sortie de la règle.

Vous créez, gérez et exécutez des règles de qualité de données dans des projets.

Vous pouvez créer des règles à partir d'une ou de plusieurs définitions de qualité de données ou vous pouvez créer des règles de qualité de données avec des instructions SQL. Les règles générées à partir de définitions de qualité de données capturent les colonnes qui sont conformes aux conditions de règle et celles qui ne le sont pas. Les règles SQL sont mieux adaptées pour vérifier les enregistrements non conformes.

Par exemple, vous souhaitez valider les identificateurs de taxe. Par conséquent, vos concepts peuvent être TaxID existe et Valider TaxID.

Vous disposez maintenant des options suivantes:

  • Créez des règles à partir de définitions de qualité de données. Quel que soit le concept, vous pouvez créer une définition de qualité de données avec une logique d'évaluation pour la variable logique tax_id. La première condition est que l'identificateur de taxe (ou TaxID) doit exister et la deuxième condition est que l'identificateur de taxe doit respecter un format défini.

    Définition de la qualité des données TaxID existe : tax_id exists
    Définition de la qualité des données Valider TaxID : tax_id matches_format 'AA99-A999-9999'

    Sélectionnez ensuite l'une des options suivantes:

    • Pour chaque colonne contenant un identificateur de taxe à valider, définissez deux règles de qualité de données. La première règle lie la variable logique tax_id de la définition TaxID existe à la colonne. La deuxième règle lie la variable logique tax_id de la définition Validate TaxID à la colonne.
    • Pour chaque colonne contenant un identificateur de taxe à valider, définissez une règle de qualité de données et utilisez les deux définitions de qualité de données dans cette règle. Liez la variable logique tax_id dans l'une des définitions TaxID existe et Validez TaxID dans la colonne.
    • Définissez une règle de qualité de données et utilisez les deux définitions de qualité de données dans cette règle. Liez la variable logique tax_id dans l'une des définitions TaxID existe et Validez TaxID à un ensemble de paramètres de type Paramètre de la colonne. Ajoutez toutes les colonnes contenant un identificateur de taxe à valider dans cet ensemble de paramètres.
  • Créez une règle SQL: select tax_id from taxschema.taxtable where tax_id is null or not regexp_like(tax_id, '^[a-zA-Z]{2}[0-9]{2}-[a-zA-Z][0-9]{3}-[0-9]{4}$')

Propriétés des règles de qualité des données

En plus des propriétés d'actif communes, les règles de qualité de données possèdent les propriétés suivantes dans les projets. Les utilisateurs disposant des droits appropriés peuvent éditer toutes les propriétés.

Pour plus d'informations sur les propriétés communes, voir Propriétés communes des actifs.

Propriétés des règles de qualité des données dans les projets
Propriété Descriptif Type de règle
Expressions liées Liste des expressions de règle. Vous pouvez voir les informations relatives à une cible de liaison en survolant la balise dans l'expression liée. Règle simple
Expressions de règle Liste des expressions de règle. Règle avec liaisons externes
connexion SQL Connexion à la source de données dans laquelle la règle sera appliquée. Règle basée sur SQL
Instructions SQL Requête SQL qui constitue la règle. Règle basée sur SQL
Dimension de qualité des données Facultatif. Métrique de qualité de données principale à laquelle la règle de qualité de données contribue. Règle simple
Règle avec liaisons externes
Flux DataStage associé Flux DataStage qui fournit les liaisons pour la règle. Règle avec liaisons externes
Définitions de qualité des données Définitions de qualité de données qui fournissent les expressions de règle. Règle simple
Règle avec liaisons externes
Artefacts de gouvernance Facultatif. Termes métier et règles de gouvernance que les utilisateurs ont affectés à l'actif. Règle simple
Règle avec liaisons externes
Règles basées sur SQL
Relations Les relations apparaissent dans la section Objets associés . Peut se trouver entre la règle de qualité des données et les ressources ou les colonnes d'un même projet, ou entre la règle et un artefact.
Les relations suivantes sont automatiquement créées :
• Pour tous les types de règles, une relation Is implemented by avec le flux associé DataStage après la première exécution de la règle
• Pour les règles avec des liaisons gérées en externe, une relation Is implemented by avec le sous-flux associé DataStage
• Pour les règles simples, une relation Validates data quality avec chaque colonne liée.
• Pour les règles simples et les règles avec des liaisons gérées en externe, une relation Implémente pour chacune des définitions de qualité de données référencées

Ajoutez des objets associés selon les besoins. La page Qualité des données affiche des informations agrégées pour chaque colonne répertoriée ici avec une relation Valide la qualité des données.
Règle simple
Règle avec liaisons externes
Règles basées sur SQL
Sortie sélectionnée Facultatif. Si elles sont configurées, les colonnes de la table de sortie des règles. Règle simple
Règle avec liaisons externes
Règles basées sur SQL

Portage des actifs de qualité des données entre les projets

Vous pouvez exporter des données de qualité d'un projet et les importer dans un autre projet, comme décrit dans la section Exportation de données de projet. En plus des définitions et des règles de qualité des données, vous pouvez sélectionner les éléments suivants associés aux règles de qualité des données à inclure dans l'exportation du projet :

  • Connexions
  • Actifs de données utilisés dans les liaisons
  • DataStage flux et sous-flux
  • Travaux
  • Actifs de données créés pour les tables d'édition de règles

Les éléments suivants ne sont pas exportés :

  • Historique de l'exécution des règles
  • Tout artefact de gouvernance associé à un actif de qualité des données
  • Paramètres de sortie au niveau du projet
  • Informations sur la qualité des données générées par les règles

En savoir plus

Rubrique parent: Gestion de la qualité des données