0 / 0
Retourner à la version anglaise de la documentation

Création de règles à partir de définitions de qualité de données

Dernière mise à jour : 21 mars 2025
Création de règles à partir de définitions de qualité de données

Vous pouvez créer des règles de qualité de données à partir de définitions de qualité de données dans votre projet.

Vous pouvez appliquer plusieurs définitions de qualité de données à une table ou lier la même définition à plusieurs colonnes d'une même table dans une même règle de qualité de données.

Au moins une définition de qualité de données doit exister dans le projet. Voir Gestion des définitions de qualité de données.

Pour créer une règle de qualité de données à partir de définitions de qualité de données:

  1. Ouvrez un projet, cliquez sur Nouvel actif > Mesurer et surveiller la qualité des données .

    Vous pouvez également créer une règle directement à partir d'une définition de qualité de données.

  2. Définissez les détails :

    • Indiquez un nom pour la règle de qualité de données.

    • Facultatif : fournissez une description.

    • Sélectionnez les dimensions de qualité de données auxquelles cette règle de qualité de données contribue. Les dimensions de qualité de données décrivent les métriques de qualité de données pour la logique de règle dans cet actif. Les dimensions sélectionnées peuvent être utilisées comme catégorie de rapport, pour le filtrage ou pour la visualisation des données sélectionnées.

      Vous pouvez choisir entre les options suivantes:

      Appliquer toutes les dimensions prédéfinies
      La règle contribue aux scores de toutes les dimensions qui sont définies sur les définitions de qualité de données utilisées. Il s'agit du paramètre par défaut.
      Appliquer uniquement cette dimension
      La règle contribue uniquement au score de la dimension sélectionnée. Les paramètres de dimension des définitions de qualité de données utilisées dans cette règle sont ignorés. Si vous sélectionnez cette option mais que vous ne définissez pas de dimension de qualité de données, les scores de qualité de données des vérifications individuelles de la règle sont capturés dans la dimension Aucun .
    • Facultatif: modifiez le type de règle que vous souhaitez créer en une règle basée sur SQL. Dans ce cas, suivez les instructions de la rubrique Création d'une règle SQL.

  3. Ajoutez au moins une définition de qualité de données. Si vous créez la règle à partir d'une définition de qualité de données directement, cette définition est déjà présélectionnée. Toutefois, vous pouvez supprimer cette définition de qualité de données présélectionnée et en sélectionner d'autres.

    Pour ajouter des définitions de qualité de données, cliquez sur Ajouter et sélectionnez toutes les définitions de qualité de données que vous souhaitez utiliser pour créer plusieurs vérifications dans la même règle. Le bouton Ajouter est disponible uniquement lorsqu'aucune définition de qualité de données n'est sélectionnée. Après avoir ajouté au moins une définition, vous pouvez ajouter d'autres définitions à l'aide de l'icône plus.

    Pour toute définition de qualité de données dans la boîte de dialogue Sélectionner une définition de qualité de données , l'expression de règle configurée s'affiche dans le panneau latéral pour vous aider à choisir la définition la plus appropriée à votre objectif.

    Si vous souhaitez appliquer la même définition à différentes colonnes d'une table, vous pouvez dupliquer la définition de qualité de données sélectionnée autant de fois que nécessaire.

    Notez qu'une entrée distincte est créée dans la table de sortie pour chaque vérification ayant abouti ou échoué, en fonction de la configuration de la sortie.

  4. Configurez les liaisons.

    Pour chaque définition de qualité de données, liez les données à toutes les variables de l'expression de règle. Vous pouvez lier des données de colonne, des valeurs littérales ou des paramètres de travail à une variable. En fonction des liaisons configurées, vous devrez peut-être créer des jointures comme décrit à l'étape suivante.

    Pour terminer vos liaisons, vous pouvez vous déplacer entre les définitions de qualité de données à l'aide des flèches Précédent et Suivant ou de la liste déroulante. Le tableau des liaisons affiche toutes les variables ainsi que leur type de données. Pour chaque variable, sélectionnez un type de liaison et les données à utiliser pour la liaison de la variable.

    Lorsque vous liez directement des données de colonne à une variable dans la règle, vous pouvez utiliser les données de tous les actifs de données du projet provenant de l'une des connexions prises en charge. Voir Connecteurs pris en charge pour la curation et la qualité des données. Si vous souhaitez lier des données à partir d'une connexion créée avec des données d'identification personnelles, vous devez d'abord déverrouiller la connexion. Outre les actifs de données d'une connexion, vous pouvez utiliser des actifs de données à partir de fichiers au format CSV téléchargés à partir du système de fichiers local ou à partir de connexions basées sur des fichiers aux sources de données.

    Toutefois, les liaisons peuvent nécessiter un prétraitement des données ou vous pouvez souhaiter inclure des informations supplémentaires dans votre table de sortie. Dans ce cas, activez l'option Gérer les liaisons en externe et activez DataStage. Toutes les liaisons existantes sont supprimées et un flux DataStage est créé. Par défaut, le flux DataStage est nommé <rule_name>_DataStage_flow, mais vous modifiez ce nom. Configurez le flux DataStage une fois la configuration de la règle terminée. Lorsque vous créez de telles règles complexes et que vous gérez des liaisons en externe, vous pouvez utiliser tous les actifs de données provenant de connexions prises en charge par DataStage. Voir ConnecteursDataStage.

    Pour qu'une règle de qualité des données avec des liaisons externes contribue au score de qualité des données d'un actif ou d'une colonne, ajoutez cet actif ou cette colonne en tant qu'élément associé à la règle correspondante. Utilisez l'option Valide la qualité de données du type de relation . Le même score et les mêmes problèmes sont signalés pour tous les actifs et les colonnes liés à ce type de relation.

    En plus de lier une variable de règle à une seule valeur littérale ou colonne, vous pouvez utiliser des paramètres de travail au niveau du projet.

    Vous pouvez utiliser l'option Paramètre pour littéral pour lier vos variables de règle à des valeurs littérales qui sont gérées de manière centralisée et qui peuvent être modifiées lors de l'exécution. De tels paramètres représentent généralement un fait ou une donnée spécifique. En utilisant un paramètre à la place de la valeur réelle dans une règle, vous vous assurez que la règle utilise toujours la valeur la plus récente si la valeur change.

    Avant de pouvoir lier des variables de règle à des paramètres de travail, vous devez créer un ensemble de paramètres DataStage réutilisable:

    1. Dans votre projet, cliquez sur Nouvel actif > Définir des ensembles de paramètres réutilisables .
    2. Définissez des paramètres avec des valeurs par défaut ou des ensembles de valeurs. Pour une utilisation dans des règles, vous pouvez définir des paramètres de type date, integer, string, float, time ou timestamp. Les types chiffré, liste et chemin ne sont pas pris en charge. Voir Création et utilisation de paramètres et d'ensembles de paramètres.

    Lorsque vous utilisez des ensembles de valeurs, vous pouvez modifier la valeur de la variable pour chaque exécution de travail. Modifiez les valeurs des paramètres d'exécution et réexécutez le travail.

    Vous pouvez également définir des colonnes à utiliser dans les liaisons en tant que paramètres de travail au niveau du projet pour faciliter la maintenance. Les paramètres de colonne se composent d'un ID d'actif et d'un nom de colonne et sont également stockés dans des ensembles de paramètres DataStage . Vous pouvez créer un nouvel ensemble de paramètres ou ajouter des paramètres de colonne à un ensemble de paramètres existant. Dans ce cas, vous devez créer un paramètre de type chaîne et entrer manuellement l'ID d'actif et le nom de colonne requis comme valeur par défaut. La méthode la plus simple consiste à ajouter ce paramètre à l'étape de liaison lorsque vous créez une règle.

    1. En tant que Type de liaison, sélectionnez Paramètre de la colonne. Cliquez ensuite sur Sélectionner un paramètre.
    2. Tous les ensembles de paramètres disponibles sont répertoriés. Développez celui que vous souhaitez utiliser.
    3. Pour ajouter un paramètre, cliquez sur l'icône plus.
    4. Indiquez le nom du paramètre. Ignorez la zone Invite . Il n'est pas utilisé pour les paramètres de colonne.
    5. Sélectionnez un actif de données et une colonne. Votre sélection est définie comme valeur par défaut du paramètre.

    Notez que les ensembles de valeurs ne peuvent pas être utilisés avec des paramètres de colonne. En outre, vous ne pouvez pas modifier les paramètres de colonne lors de l'exécution.

    Si vous mettez à jour un paramètre de colonne utilisé dans plusieurs règles, vous devez réexécuter chacune de ces règles de qualité de données en l'ouvrant et en cliquant sur Exécuter la règle.

  5. Créer des jointures. Si vos liaisons ne nécessitent pas de jointure, vous pouvez passer à l'étape suivante. Mais si vous souhaitez utiliser des données de plusieurs tables dans la table de sortie, vous devez créer des jointures sur ces tables. Si vous gérez des liaisons en externe, vous ne pouvez pas créer de jointures dans la configuration de règle. Les jointures doivent également être définies dans le flux DataStage .

    Si vos liaisons nécessitent des jointures, les tables sont répertoriées. Une coche apparaît dans la colonne Join complete une fois que vous avez configuré une jointure. Dans la table Clés de jointure , procédez comme suit pour chaque jointure que vous souhaitez définir:

    1. Cliquez sur Ajouter une paire de clés.

    2. Cliquez sur Clé 1. Sélectionnez ensuite le premier élément à utiliser dans la jointure.

    3. Cliquez sur Clé 2 et sélectionnez le deuxième élément.

    4. Sélectionnez le type de jointure:

      Jointure interne
      Les enregistrements dans lesquels les colonnes sélectionnées contiennent des valeurs égales sont transférés dans le jeu de données de sortie.
      Jointure externe gauche
      Tous les enregistrements de la colonne sélectionnée pour la clé 1 sont transférés dans la table de sortie. Les enregistrements de la colonne sélectionnée pour la clé 2 sont transférés uniquement lorsque les valeurs correspondent.
      jointure externe droite
      Tous les enregistrements de la colonne sélectionnée pour la clé 2 sont transférés dans la table de sortie. Les enregistrements de la colonne sélectionnée pour la clé 1 sont transférés uniquement lorsque les valeurs correspondent.
      Jointure externe complète
      Tous les enregistrements des deux tables sont transférés vers la table de sortie.

    Vous pouvez modifier le type de jointure à tout moment. Toutefois, si vous souhaitez modifier votre sélection pour la clé 1 ou la clé 2, vous devez supprimer la paire de clés existante et en créer une nouvelle.

  6. Facultatif: configurez l'échantillonnage.

    Si vous ne souhaitez pas ou n'avez pas besoin d'évaluer toutes les lignes d'un actif de données, activez l'échantillonnage de données. Ainsi, vous pouvez générer des résultats en fonction d'une fraction de vos données.

    Pour les actifs de données régulièrement connectés, l'échantillonnage est effectué au niveau de la source de données. Dans la plupart des bases de données, l'ordre des enregistrements n'est pas déterministe. Par conséquent, les enregistrements inclus dans l'exemple peuvent varier d'une exécution à l'autre, ce qui signifie que les résultats et le contenu de la table de sortie (s'ils sont configurés) peuvent également changer au fil du temps.

    Pour les actifs de données connectés basés sur des requêtes, l'échantillonnage n'est pas effectué au niveau de la source de données mais dans l'étape Sample du flux DataStage associé à la règle.

    1. Définissez la taille maximale de l'échantillon. Sélectionnez le nombre maximal d'enregistrements que vous souhaitez inclure dans votre échantillon de données. La valeur par défaut est 1 000 enregistrements.

    2. Sélectionnez une méthode d'échantillonnage:

      Séquentiel
      L'exemple inclut les x premiers enregistrements de l'actif de données. En fonction de la taille de l'actif de données, le nombre x peut atteindre la valeur que vous avez spécifiée comme taille d'échantillon maximale autorisée. Par exemple, si vous avez 1 000 000 enregistrements et que vous spécifiez une taille d'échantillon maximale de 2 000, l'échantillon inclut les 2 000 premiers enregistrements.
      Interval
      L'échantillon inclut tous les nenregistrements jusqu'à ce que la taille d'échantillon maximale autorisée soit atteinte. Par exemple, si vous disposez de 1 000 000 enregistrements et d'un échantillon de 2 000 enregistrements avec un intervalle de 10, un maximum de 20 000 enregistrements sont lus (2 000*10) avec chaque 10ème enregistrement sélectionné pour extraire la taille de l'échantillon de 2 000.
      Aléatoire
      L'échantillon comprend des enregistrements sélectionnés de manière aléatoire jusqu'à la taille d'échantillon maximale autorisée. La formule utilisée pour sélectionner les enregistrements est (100/sample_percent)*sample_size*2. Le nombre 2 est utilisé dans la formule pour faire en sorte que suffisamment d'enregistrements soient lus afin de produire une taille d'échantillon aléatoire valide. Par exemple, si vous avez 1 000 000 enregistrements et que vous spécifiez une taille d'échantillon de 2 000 et un pourcentage de 5, l'échantillon inclut 2 000 enregistrements. Pour créer l'exemple, au maximum 80 000 enregistrements ((100/ 5) * 2 000 * 2 = 80 000) sont lus.
      Dans la zone Pourcentage , indiquez le pourcentage que vous souhaitez utiliser pour créer l'échantillon. Indiquez une valeur supérieure à 0 et inférieure ou égale à 100.
  7. Configurez les paramètres de sortie et le contenu.

    Indiquez si vous souhaitez que l'édition des règles soit enregistrée dans une base de données. Si ce n'est pas le cas, seules quelques informations statistiques sont fournies dans l'historique d'exécution de la règle. Pour plus d'informations, voir Configuration des paramètres de sortie pour les règles de qualité des données.

  8. Vérifiez votre configuration. Pour vous assurer que votre règle est correctement configurée, vous pouvez la tester avant de l'enregistrer dans le projet. La sortie du test de règle est directement affichée et correspond à ce que vous avez configuré dans les paramètres de sortie.

    Pour modifier la configuration, cliquez sur l'icône Modifier Icône d'édition sur la tuile et mettez à jour les paramètres.

    Une fois votre revue terminée, cliquez sur Créer. La règle et son flux DataStage associé sont ajoutés au projet. Le nom par défaut du flux DataStage est DataStage flow of data rule <rulename>. Ne modifiez pas ce type de flux.

    Si votre règle est configurée avec des liaisons gérées en externe, la règle et le flux DataStage et ses flux secondaires sont ajoutés au projet lorsque vous cliquez sur Créer. Toutefois, votre règle n'est pas prête à être exécutée. Avant de pouvoir exécuter la règle, vous devez éditer le flux DataStage . Vous pouvez également sélectionner Créer et éditer le flux DataStage. Dans ce cas, la règle et le flux DataStage et ses flux secondaires sont également ajoutés au projet, mais vous êtes directement dirigé vers la configuration de flux DataStage . La désignation de ces flux DataStage suit le modèle <rule-name>_Datastage_flow et DataStage subflow of data rule <rulename>. Pour plus d'informations sur la configuration du flux, voir FluxDataStage.

Si votre règle est configurée correctement sans aucune information manquante, son statut est Prêt. Ce statut signifie que la règle peut être exécutée. Le statut de règle Non prêt indique que la règle ne peut pas être exécutée car certaines dépendances ont été modifiées. Par exemple, la définition de qualité de données a été mise à jour ou une table utilisée dans les liaisons de la règle a été supprimée. Le statut Non prêt est également affiché pour les règles avec des liaisons gérées en externe si le flux DataStage associé n'est pas configuré. Après avoir configuré le flux, vous pouvez valider la règle en sélectionnant Valider dans le menu déroulant dynamique. Si la validation aboutit, le statut est défini sur Prêtet vous pouvez exécuter la règle.

Il se peut qu'une règle ne soit plus valide après des modifications apportées à l'actif de données que la règle analyse. Par conséquent, vous souhaiterez peut-être valider le statut de la règle dans tous les cas avant d'exécuter une règle manuellement.

En savoir plus

Etapes suivantes

Rubrique parent: Gestion des règles de qualité des données