0 / 0
Retourner à la version anglaise de la documentation
Scores de qualité des données
Dernière mise à jour : 13 déc. 2024
Scores de qualité des données

Un score de qualité des données est affiché pour l'ensemble de l'actif de données analysé ainsi que pour toutes les colonnes qu'il contient. Les scores de qualité de données sont calculés en fonction des résultats des contrôles de qualité de données exécutés sur l'ensemble de l'actif et ses colonnes.

Les types de contrôle de la qualité des données suivants fournissent des scores de qualité des données:

  • Contrôles de qualité des données prédéfinis

    Ces vérifications sont exécutées lorsque vous exécutez une analyse de qualité dans le cadre de l'enrichissement des métadonnées. Chaque vérification est exécutée sur l'ensemble de l'actif mais peut ne pas renvoyer de résultats pour toutes ses colonnes, en fonction du type de vérification.

    Chaque contrôle de qualité de données prédéfini est associé à une dimension de qualité de données.

  • Règles de qualité des données (Gestion des règles de qualité des données)

    Les règles de qualité des données valident des conditions spécifiques dans votre source de données. Ils peuvent être exécutés manuellement ou automatiquement selon une planification.

    Une règle de qualité de données peut contribuer à plusieurs dimensions en fonction de la configuration de la règle. Si aucune dimension n'est définie pour une règle, ses résultats sont capturés en tant que score de dimension Aucun.

  • IBM Match 360

Pour chaque vérification, vous pouvez déterminer si ses résultats contribuent au score global de qualité des données. Voir Résultats de l'analyse de la qualité des données.

Vous pouvez également récupérer les scores de qualité des données pour des actifs individuels en utilisant l'API IBM Knowledge Catalog

Mode de calcul des scores de qualité des données

Le score de colonne est calculé en tant que moyenne pondérée des scores de dimension disponibles pour la colonne, c'est-à-dire les scores de toutes les dimensions pour lesquelles au moins un contrôle de qualité des données a été exécuté et a renvoyé un résultat.

Un score de dimension, à l'exception de la dimension Entity confidence , est calculé en multipliant les numéros de probabilité de tous les problèmes pour lesquels les contrôles de qualité des données ont recherché cette dimension, où le numéro de probabilité d'un problème est (1-fréquence). Par exemple, supposons qu'une colonne comporte 2 problèmes de qualité différents qui sont signalés pour la même dimension. Le problème 1 se produit avec une fréquence de 10% et le problème 2 avec une fréquence de 20%. Par conséquent, la probabilité qu'une valeur de cette colonne n'ait pas de problème 1 est de 90%. Pour le numéro 2, il est de 80%. Par conséquent, la probabilité que la colonne ait un problème de qualité dans cette dimension est de 72%, ce qui est calculé comme suit:

(1.0 - 0.1) × (1.0 - 0.2) = 0.9 × 0.8 = 0.72

Pour la dimension Confiance d'entité , le score de dimension représente le pourcentage d'entités du type d'entité particulier qui n'ont pas d'enregistrements avec des problèmes de correspondance potentiels en tant que membres.

Les scores d'actif (le score global ou les scores de dimension) sont calculés en tant que moyenne pondérée des scores correspondants de ses colonnes.

Dans les projets, vous pouvez modifier ce qui est pris en compte pour le calcul des scores en modifiant le paramètre Contribue au score global . Ce paramètre est activé par défaut. Vous pouvez exclure les résultats de colonnes entières et les résultats de certaines vérifications au niveau de la colonne ou au niveau de l'actif.

Dans les projets, les scores de qualité sont recalculés dans les cas suivants:

  • L'analyse de la qualité des données est exécutée dans le contexte de l'enrichissement des métadonnées.
  • Les règles de qualité de données existantes ou nouvelles sont exécutées sur l'actif.
  • Une règle de qualité de données ayant contribué aux scores est supprimée.
  • Un paramètre Contribue au score global a été modifié.
  • Un actif de données d'entité IBM Match 360 est mis à jour.

Dans les catalogues, les scores de qualité changent lorsque l'actif est à nouveau publié.

Exemple de calcul de score

Supposons qu'un actif de données possède l'ID de colonne, NAME, EMAIL, PHONE et SALARY. Toutes les colonnes et tous les types de problèmes contribuent aux scores globaux (paramètre par défaut).

Au départ, aucun score de qualité de données n'est disponible car aucun contrôle de qualité de données n'a été exécuté sur l'actif. Pour générer des informations sur la qualité des données:

  1. L'analyse IBM Match 360 s'exécute sur l'actif de données et identifie les problèmes suivants:

    • 10% d'entités correspondantes pour l'actif de données. Ces informations sont prises en compte pour la dimension de qualité de données Entity confidence.

      Les scores suivants au niveau de l'actif sont calculés:

      • Score de dimension
        Confiance de l'entité: (1- 0.1) = 90%

      • Score global: 90%

  2. Exécutez l'analyse de la qualité des données dans le cadre de l'enrichissement des métadonnées. L'analyse de la qualité identifie les problèmes suivants:

    • Valeurs manquantes, qui sont prises en compte pour la dimension de qualité de données Intégralité:
      • 3% des valeurs de la colonne NOM
      • 5% des valeurs de la colonne EMAIL
      • 3% des valeurs de la colonne PHONE
    • Violations de classe de données, qui sont prises en compte pour la dimension de qualité de données Validité:
      • 10% des valeurs de la colonne EMAIL
      • 6% des valeurs de la colonne PHONE
    • Valeurs extrêmes ou suspectes, qui sont prises en compte pour la dimension de qualité de données Cohérence:
      • 4% des valeurs de la colonne NOM
      • 1% des valeurs de la colonne SALAIRE

    Ces résultats génèrent les scores suivants pour les colonnes individuelles:

    • ID de colonne
      • Scores de dimension
        Confiance de l'entité: 90% (inchangé)
        Intégrité: 100% (la vérification Valeurs manquantes inattendues n'a pas trouvé de problème.)
        Validité: 100% (aucune des vérifications Validité prédéfinies n'a détecté de problème.)
        Cohérence: 100% (Les vérifications Cohérence prédéfinies ont détecté des problèmes.)
      • Score global de la colonne: (90% + 100% + 100% + 100%) /4 = 97.5%
    • Nom de colonne
      • Scores de dimension
        Confiance de l'entité: 90% (inchangé)
        Intégrité: 100%-3% = 97%
        Validité: 100%
        Cohérence: 100%-4% = 96%
      • Score global de la colonne: (90% + 97% + 100% + 96%) /4 = 95.75%
    • Colonne EMAIL
      • Scores de dimension
        Confiance de l'entité: 90% (inchangé)
        Intégrité: 100%-5% = 95%
        Validité: 100%-10% = 90%
        Cohérence: 100%
      • Score global de la colonne: (90% + 95% + 90% + 100%) /4 = 93.75%
    • Colonne PHONE
      • Scores de dimension
        Confiance de l'entité: 90% (inchangé)
        Intégrité: 100%-3% = 97%
        Validité: 100%-6% = 94%
        Cohérence: 100%
      • Score global de la colonne: (90% + 97% + 94% + 100%) /4 = 95.25%
    • Colonne SALAIRE
      • Scores de dimension
        Confiance de l'entité: 90% (inchangé)
        Intégrité: 100%
        Validité: 100%
        Cohérence: 100%-1% = 99%
      • Score global de la colonne: (90% + 100% + 100% + 99%) /4 = 97.25%

    A partir de ces scores, les scores au niveau de l'actif sont calculés:

    • Scores de dimension
      Confiance de l'entité: (90% + 90% + 90% + 90% + 90%) /5 = 90%
      Intégrité: (100% + 97% + 95% + 97% + 100%) /5 = 97.8%
      Validité: (100% + 100% + 90% + 94% + 100%) /5 = 96.8%
      Cohérence: (100% + 96% + 100% + 100% + 99%) /5 = 99%

    • Score global: (97.5% + 95.75% + 93.75% + 95.25% + 97.25%) /5 = 95.9%

  3. Exécutez la règle de qualité de données Name_Complete, qui est appliquée à la colonne NAME pour vérifier qu'elle contient un prénom et un nom de famille. La règle est liée à la dimension de qualité de données Intégralité. Cette règle signale 1% de violations dans la colonne NOM.

    Les scores de la colonne NAME changent comme suit. Les scores des autres colonnes restent inchangés.

    • Scores de dimension
      Confiance de l'entité: 90% (inchangé)
      Intégrité: (1-0.03) × (1-0.01) = 0.9603 = 96.03%
      Validité: 100% (inchangé)
      Cohérence: 96% (inchangé)
    • Score global: (90% + 96.03% + 100% + 96%) /4 = 95.5%

    Ces modifications modifient également les scores d'actif.

    • Scores de dimension
      Confiance de l'entité: 90% (inchangé)
      Intégrité: (100% + 96% + 95% + 97% + 100%) /5 = 97.6%
      Validité: 96.8% (inchangé)
      Cohérence: 99% (inchangé)
    • Score global: (97.5% + 95.5% + 93.75% + 95.25% + 97.25%) /5 = 95.85%
  4. Exécutez une règle de qualité de données supplémentaire Phone_Valid, qui est appliquée à la colonne PHONE pour vérifier que le numéro de téléphone possède le code pays et le préfixe qui correspondent à l'adresse. La règle est liée à la dimension de qualité de données Validité. Cette règle signale 2% de violations dans la colonne PHONE.

    Les scores de la colonne PHONE changent comme suit. Les scores des autres colonnes restent inchangés.

    • Scores de dimension
      Confiance de l'entité: 90% (inchangé)
      Intégrité: 97% (inchangé)
      Validité: (1.0-0.06) × (1.0-0.02) = 0.9212 = 92.12%
      Cohérence: 100%
    • Score global: (90% + 97% + 92.12% + 100%) /4 = 94.78%

    Ces modifications entraînent également des modifications des scores d'actif.

    • Scores de dimension
      Confiance de l'entité: 90% (inchangé)
      Intégrité: 97.6% (inchangé)
      Validité: (100% + 100% + 90% + 92.12% + 100%) /5 = 96.42%
      Cohérence: 99% (inchangé)
    • Score global: = (97.5% + 95.5% + 93.75% + 94.78% + 97.25%) /5 = 95.76%
  5. Définissez toutes les vérifications de la dimension Cohérence à ignorer pour le calcul du score. Le score de la dimension Cohérence n'est plus affiché. Tous les autres scores de dimension restent inchangés. La colonne globale et les scores d'actif sont recalculés.

    • Column scores
      xx Column ID: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 100%)/(1 + 1 + 1 + 0) = 96.67%
      Column NAME: (1 × 90% + 1 × 96.03% + 1 × 100% + 0 × 96%)/(1 + 1 + 1 + 0) = 95.34%
      Column EMAIL: (1 × 90% + 1 × 95% + 1 × 90% + 0 × 100%)/(1 + 1 + 1 + 0) = 91.67%
      Column PHONE: (1 × 90% + 1 × 97% + 1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 0) = 94.78%
      Column SALARY: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 99%)/(1 + 1 + 1 + 0) = 96.67%

    • Score global de l'actif: (96.67 + 95.34% + 91.67% + 93.04% + 96.67)/5 = 94.68%

  6. Excluez les résultats de la colonne SALARY du calcul du score. Les scores des colonnes ne changent pas. Les scores globaux et de dimension de l'actif sont recalculés comme suit:

    • Dimension scores
      Confiance de l'entité: (1 × 90% + 1 × 90% + 1 × 90% + 1 × 90% + 0 × 90%)/(1 + 1+ 1 + 1 + 0) = 90%
      Complétude: (1 × 100% + 1 × 96.03% + 1 × 95% + 1 × 97% + 0 × 100%)/(1 + 1+ 1 + 1 + 0) = 97%
      Validité: (1 × 100% + 1 × 100% +1 × 90% +1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 1 + 0) = 95.53%
      Cohérence: not shown
    • Score global de l'actif = (100% + 98.02% + 92.5% + 92.74% + 0%) / (1 + 1 + 1 + 1 + 0) = 95.82%

En savoir plus

Rubrique parent: Résultats de l'analyse de la qualité des données

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus