0 / 0

Configuration des paramètres de sortie pour les règles de qualité des données

Dernière mise à jour : 08 avr. 2025
Configuration des paramètres de sortie pour les règles de qualité des données

Pour capturer plus d'informations sur les règles que sur les statistiques, configurez un emplacement de sortie externe et le contenu que vous voulez écrire à cet emplacement.

Vous pouvez choisir d'écrire la sortie de la règle dans une table de base de données. Si les liaisons d'une règle basée sur une définition sont gérées en externe, vous avez également la possibilité de créer jusqu'à 4 liens de sortie DataStage.

Pour générer une table de base de données ou des liens de sortie :

  1. Activez l'option Sortie externe et développez la section.

    Si vous avez défini une configuration de table de sortie dans les paramètres du projet, vous pouvez choisir d'hériter de cette configuration et de passer directement à la configuration du contenu de sortie. Une configuration héritée est représentée par Current.

  2. Si vous ne souhaitez pas utiliser la table configurée dans les paramètres du projet, sélectionnez le type de sortie que vous souhaitez générer :

    • Inscrire le résultat dans une table de base de données nouvelle ou existante.

      Sélectionnez une connexion. En fonction de la connexion sélectionnée, sélectionnez un schéma, ou sélectionnez un catalogue et un schéma. Pour une nouvelle table, saisissez le nom de la table de sortie à créer. Sinon, sélectionnez une table existante. Dans ce cas, la section Contenu de sortie est remplie avec les colonnes de ce tableau et vous pouvez associer le contenu à ces colonnes.

      Vous pouvez choisir si la table de sortie doit être ajoutée à votre projet en tant que ressource de données lorsque vous exécutez la règle.

      Pour les types de bases de données pris en charge, voir Connecteurs pris en charge pour la curation et la qualité des données.

      Lorsque vous définissez une nouvelle table, le nom de la table peut être un nom défini par l'utilisateur, un paramètre pour la création dynamique d'un nom, une combinaison d'un nom défini par l'utilisateur et d'un paramètre, ou une combinaison de paramètres.

      Les noms de tables définis par l'utilisateur doivent respecter cette convention :

      • Le premier caractère du nom doit être un caractère alphabétique.
      • Le reste du nom peut être composé de caractères alphabétiques, de caractères numériques ou de traits de soulignement.
      • Le nom ne doit pas contenir d'espaces.

      Pour la création de noms dynamiques, vous pouvez utiliser ces paramètres :

      • #execution_id#
      • #rule_id#
      • #rule_name#
      • #project_id#
      • #job_id#
      • #rule_id#
      • #job_run_id#
      • #rule_id#

      Pour les paramètres dont les valeurs changent, un nouveau tableau peut être créé :

      • Pour #job_run_id# , pour chaque règle, exécuter
      • Pour #execution_id# si la règle est exécutée à partir de l'interface utilisateur des règles de qualité des données ou via un appel API

      En outre, vous pouvez sélectionner les options suivantes :

      • Créer une table uniquement lorsque des problèmes sont détectés Cette option permet d'éviter la création de tables vides dans les cas où une règle ne produit pas d'enregistrements en sortie. Toutefois, si une table portant ce nom existe déjà parce qu'elle a été générée lors de l'exécution d'une règle antérieure, elle reste inchangée.
      • Importer la table de sortie générée en tant que ressource du projet Pour faciliter l'accès à la sortie des règles, ajoutez au projet de nouvelles tables de sortie des règles en tant que ressources de données. Au lieu d'exécuter une requête dans la base de données, vous pouvez afficher les données en ouvrant la ressource de données à partir de la page Ressources de votre projet ou de l' historique d'exécution de la règle. Cette option est activée par défaut.

      Configurez également les paramètres suivants :

      • Enregistrements de sortie : Indiquez si vous souhaitez inclure tous les enregistrements dans vos résultats, uniquement les enregistrements qui ne répondent pas aux conditions de la règle (paramètre par défaut) ou uniquement les enregistrements qui répondent aux conditions de la règle.
      • Nombre maximum d'enregistrements de sortie d'exception : Vous pouvez inclure tous les enregistrements ou définir un nombre maximum.
      • Méthode de mise à jour : Les nouveaux enregistrements de sortie peuvent être ajoutés au contenu existant de la table de sortie. Si vous souhaitez conserver uniquement les résultats de la dernière exécution, sélectionnez l'option d'écrasement des enregistrements existants. Pour la méthode de mise à jour Append, le schéma de la table ne peut pas être modifié, c'est-à-dire que vous ne pouvez pas renommer, ajouter ou supprimer des colonnes. Si vous souhaitez modifier le contenu de sortie d'une règle de qualité des données et écrire dans une table de sortie existante, assurez-vous d'utiliser la méthode de mise à jour Écraser pour remplacer les colonnes de la table de sortie par les colonnes de sortie nouvellement définies.

    • Pour créer des liens de sortie si les liaisons sont gérées dans un flux DataStage, sélectionnez DataStage output links. Configurer jusqu'à 4 liens de sortie. Sélectionnez la sortie à acheminer vers un lien spécifique : tous les enregistrements, uniquement les enregistrements qui ne remplissent pas les conditions de la règle, uniquement les enregistrements qui remplissent les conditions de la règle, ou toutes les conditions de la règle violées. Définissez également le nombre maximum d'enregistrements de sortie à écrire par lien. Le contenu des enregistrements de sortie est déterminé par ce que vous configurez à l'étape suivante. Pour les conditions de règles violées, 0 ou plusieurs enregistrements de sortie peuvent être renvoyés en fonction du nombre de définitions de la qualité des données dans la règle. Chaque enregistrement de sortie contient les informations suivantes :

      • L'ID de l'enregistrement. Cette métrique est automatiquement définie comme une colonne de sortie.
      • L'ID de la définition de l'une des définitions que l'enregistrement d'entrée n'a pas passé
      • Le numéro qui identifie de manière unique la définition défaillante dans le cas de définitions dupliquées

      Pour faire correspondre l'ID de la définition à une définition de la qualité des données dans votre projet, utilisez l'API IBM Knowledge Catalog :

      Les nœuds cibles de ces liens de sortie doivent être configurés dans le flux DataStage.

    Vous pouvez modifier le type de sortie à tout moment. En fonction de votre nouvelle sélection, tous les paramètres configurés sont réinitialisés ou écrasés. Lorsque vous avez terminé, réduisez la section et passez à la configuration du contenu de sortie.

  3. Configurez le contenu de votre table de sortie.

    1. Si les liaisons sont gérées en externe, vous pouvez inclure dans la table de sortie toutes les colonnes supplémentaires fournies par le lien d'entrée DataStage. Ces colonnes ne sont pas répertoriées dans la configuration de la table de sortie. Vous ne pouvez pas inclure de variables utilisées dans les liaisons de règles.
    2. Cliquez sur Ajouter un contenu de sortie et sélectionnez l'une de ces options :
      • Columns

        Sélectionnez les colonnes que vous souhaitez voir apparaître dans votre tableau de sortie. Pour les règles basées sur SQL, vous pouvez sélectionner toutes les colonnes que la requête SQL renvoie. L'option Colonnes n'est pas disponible si vous créez une règle basée sur une définition avec des liaisons gérées en externe.

      • Statistiques et attributs

        Sélectionnez les attributs ou statistiques supplémentaires que vous souhaitez inclure dans votre tableau de sortie. Les mesures disponibles dépendent du type de règle de qualité des données.

        • Lié à l'ID de l'actif

          Liste l'ID de la ressource de données à laquelle la règle est liée. Si cette métrique est sélectionnée, un enregistrement de sortie est écrit pour chaque ressource de données dans une règle de qualité des données. Ainsi, plus d'un enregistrement de sortie peut être écrit pour un enregistrement d'entrée individuel. Le contenu des enregistrements de sortie pour différents actifs de la même règle de qualité des données varie uniquement pour ces mesures pour chaque enregistrement d'entrée individuel : Définition de la qualité des données, ID de définition de la qualité des données, Lié à l'ID d'actif et éventuellement Règles de réussite, Règles d'échec, Pourcentage de règles de réussite et Pourcentage de règles d'échec

          Vous ne pouvez utiliser cette métrique qu'en combinaison avec la métrique Définition de la qualité des données ou ID de la définition de la qualité des données. Si la règle est associée à plus d'une définition de la qualité des données, le désambiguïsateur métrique est automatiquement inclus dans la sortie.

          Cette mesure n'est pas disponible pour les règles basées sur des définitions avec des liens gérés en externe ou des règles basées sur SQL.

        • Lié à la colonne

          Liste le nom de chaque colonne liée. Si cette métrique est sélectionnée, un enregistrement de sortie est écrit pour chaque colonne d'une définition de la qualité des données. Ainsi, plus d'un enregistrement de sortie peut être écrit pour un enregistrement d'entrée individuel. Le contenu des enregistrements de sortie pour différentes colonnes de la même définition de la qualité des données ne varie que pour ces métriques pour chaque enregistrement d'entrée individuel : Définition de la qualité des données, ID de la définition de la qualité des données, Lié à la colonne, et peut-être Règles de réussite, Règles d'échec, Pourcentage de règles de réussite et Pourcentage de règles d'échec

          Vous ne pouvez utiliser cette métrique qu'en combinaison avec la métrique Définition de la qualité des données ou ID de la définition de la qualité des données. Si la règle est associée à plus d'une définition de la qualité des données, le désambiguïsateur métrique est automatiquement inclus dans la sortie.

          Cette mesure n'est pas disponible pour les règles basées sur des définitions avec des liens gérés en externe ou des règles basées sur SQL.

        • Définition de qualité des données

          Liste le nom de la définition de la qualité des données appliquée. Si cette métrique est sélectionnée, plusieurs enregistrements de sortie peuvent être écrits en fonction du nombre de définitions de la qualité des données que la règle contient.

          Cette mesure n'est pas disponible pour les règles basées sur SQL.

        • ID de définition de la qualité des données

          Contient une clé unique qui identifie la définition de la qualité des données appliquée. Si cette métrique est sélectionnée, plusieurs enregistrements de sortie peuvent être écrits en fonction du nombre de définitions de la qualité des données que la règle contient.

          Cette mesure n'est pas disponible pour les règles basées sur SQL.

        • Désambiguïsateur

          Contient un nombre pour désambiguïser les définitions de la qualité des données utilisées dans la règle, principalement si une définition de la qualité des données est utilisée plusieurs fois. La numérotation commence à 0.

          Cette mesure n'est pas disponible pour les règles basées sur SQL.

        • Règles ayant échoué

          Indique le nombre de conditions de la règle que l'enregistrement n'a pas respectées.

        • ID de travail

          Contient une clé unique qui identifie le travail associé au flux DataStage pour la règle.

        • ID d'exécution de travail

          Contient une clé unique qui identifie une exécution individuelle du travail associé au flux DataStage pour la règle.

        • Règles ayant abouti

          Indique le nombre de conditions de la règle auxquelles l'enregistrement a satisfait.

        • Pourcentage de règles ayant abouti

          Indique le pourcentage des conditions de la règle qui ont été remplies.

        • Pourcentage de règles ayant échoué

          Indique le pourcentage des conditions de la règle qui n'ont pas été remplies.

        • ID de projet

          Contient une clé unique qui identifie le projet dans lequel se trouve la règle.

        • ID enregistrement

          Contient une clé unique qui identifie un enregistrement dans la sortie. Cette mesure est automatiquement incluse dans les liens de sortie lorsque les conditions de la règle ne sont pas respectées.

        • ID de règle

          Contient une clé unique qui identifie la règle de qualité des données.

        • Nom de règle

          Contient le nom de la règle de qualité des données.

        • Date système

          Indique la date système à laquelle la règle a été exécutée. La date du système est la date du fuseau horaire défini sur le serveur.

        • Heure système

          Affiche la date et l'heure système auxquelles la règle a été exécutée. La date et l'heure du système correspondent à la date et à l'heure du fuseau horaire défini sur le serveur.

      • Variables

        Sélectionnez les variables de la logique des règles que vous souhaitez inclure dans votre tableau de sortie.

      • Expressions

        Ajouter une expression qui définit le contenu d'une colonne de sortie. Vous pouvez donner à cette colonne un nom descriptif dans l'aperçu du contenu de l'édition. Vous pouvez utiliser des éléments de bloc pour construire votre expression. Sélectionner et combiner les éléments selon les besoins. Pour plus d'informations sur l'utilisation des éléments de bloc, voir Gestion des définitions de la qualité des données. Vous pouvez également utiliser l'éditeur de formulaire libre pour construire votre expression. Voir Blocs de construction pour la logique des règles ou l'édition des règles.

En savoir plus

Sujet parent : Gestion des règles de qualité des données