0 / 0
Retourner à la version anglaise de la documentation
Contrôles de qualité des données prédéfinis
Dernière mise à jour : 10 sept. 2024
Contrôles de qualité des données prédéfinis

Les contrôles de qualité de données prédéfinis sont automatiquement exécutés lorsque vous exécutez une analyse de qualité de données de base dans le cadre de l'enrichissement des métadonnées. Ces contrôles de qualité des données identifient des problèmes de qualité de base avec vos données, tant au niveau de l'actif de données qu'au niveau de la colonne.

Les contrôles de qualité de données suivants génèrent des scores de qualité individuels et contribuent au score de qualité global d'un actif de données ou d'une colonne:

De plus, chaque contrôle de qualité de données est associé à une dimension de qualité de données. Voir Dimensions de la qualité des données.

Les résultats de ces vérifications sont affichés dans le cadre des informations de qualité de données d'un actif de données ou d'une colonne. Voir Résultats de l'analyse de la qualité des données. Cependant, toutes les vérifications ne sont pas appliquées à toutes les colonnes d'un actif de données. Les vérifications à exécuter dépendent du type de données de la colonne et des données qu'elle contient.

Les vérifications prédéfinies valident les valeurs individuelles (vérificationsbasées sur les valeurs ) dans une colonne ou les métadonnées de colonne trouvées lors du profilage (vérificationsbasées sur les métadonnées ).

Violations de classe de données

Une classe de données est le type de données détectées pour une colonne particulière. Exemples de classe de données pouvant inclure le code postal, le pays ou le numéro de carte de crédit. Cette vérification compte le nombre de valeurs d'une colonne qui ne correspondent pas à la classe de données détectée de cette colonne. Chaque valeur qui enfreint la classe est identifiée. Le score de qualité est basé sur le pourcentage de valeurs identifiées soustraites d'un pourcentage de 100.

Par exemple, une colonne possède une classe de données 'numéro de carte de crédit' affectée. La valeur attendue pour cette classe de données est une chaîne numérique de 16 caractères. Si cette colonne contient la valeur 'MA', cette valeur est identifiée comme une violation de la classe de données. Si cette colonne a 100 valeurs, 40 valeurs ne correspondent pas à la classe, la colonne a un score de qualité de 60% pour cette vérification car 40% des valeurs violent la classe de données de la colonne.

Type de vérification: vérification basée sur la valeur

Dimension: Validité

Violations de type de données

Un type de données définit le format valide des données dans une colonne particulière. Des exemples de type de données peuvent inclure du texte, des valeurs numériques ou des dates. Cette métrique compte le nombre de valeurs dans une colonne qui ne correspondent pas au type de données détecté ou affecté d'une colonne. Chaque valeur qui ne correspond pas au type de données induit en longueur, précision ou échelle, ou qui enfreint le type de données spécifié est identifiée. Le score de qualité est basé sur le pourcentage de valeurs identifiées soustraites d'un pourcentage de 100.

Par exemple, une colonne a un type de données DECIMAL (4,2) spécifié. Ce type de données définit le format de la colonne sous la forme d'une valeur numérique d'une longueur totale de 4 chiffres avec 2 chiffres après le séparateur décimal. Si cette colonne contient une valeur numérique comportant trop de chiffres, cette valeur est identifiée comme une violation du type de données. Si cette colonne a 100 valeurs, 40 valeurs ne correspondent pas au type, la colonne a un score de qualité de 60% pour cette vérification car 40% des valeurs violent le type de données de la colonne.

Type de vérification: vérification basée sur la valeur

Dimension: Validité

Violations de format

Actuellement, il n'est pas évalué dans le cadre de l'enrichissement des métadonnées. Par conséquent, un score de qualité de données de 100% est toujours affiché.

Type de vérification: vérification basée sur la valeur

Dimension: Validité

Capitalisation incohérente

Ce contrôle permet de vérifier si la capitalisation des valeurs dans une colonne est cohérente. Dans les colonnes de type de données Chaîne, les valeurs peuvent avoir n'importe quelle casse, casse de titre, casse de phrase, ou peuvent être en majuscules ou en minuscules. Si le contrôle détecte que la plupart (plus de 95 %) des valeurs ont une capitalisation spécifique, les autres valeurs sont marquées comme des problèmes de qualité.

Par exemple, une colonne a 100 valeurs. Parmi ces valeurs, 90 sont des minuscules et 10 des majuscules. Par conséquent, la vérification définit le score de qualité de la colonne à 90% car 10% des valeurs sont dans un cas différent de celui de la majorité.

Traitement des violations de capitalisation incohérente : vous pouvez rechercher la ou les colonnes identifiées pour obtenir plus d'informations et déterminer la meilleure réponse. Par exemple, dans certains cas, il peut être nécessaire de créer une note pour suggérer la normalisation d'une colonne.

Type de vérification: vérification basée sur la valeur

Dimension: Cohérence

Représentation incohérente des valeurs manquantes

Il est courant pour les actifs de données de contenir différentes représentations de données manquantes. Une colonne d'un actif de données peut contenir plusieurs valeurs NULL, plusieurs autres marquées NA, et d'autres où le champ est vide. Toutes ces valeurs peuvent suggérer des informations manquantes, mais elles sont interprétées différemment et peuvent entraîner une analyse inexacte. La représentation incohérente des valeurs manquantes est détectée en identifiant les colonnes avec des valeurs NULL et des valeurs vides. Une colonne contenant à la fois des valeurs NULL et des valeurs vides suggère qu'il n'existe pas de méthode normalisée pour représenter les valeurs manquantes. Souvent, lorsqu'une colonne contient des valeurs NULL, les valeurs vides doivent également être représentées comme nulles.

Chaque valeur correspondant aux critères dans une colonne est identifiée. Le score de qualité est basé sur le pourcentage de valeurs identifiées soustraites d'un pourcentage de 100.

Traitement des violations de représentation des valeurs manquantes : vous pouvez rechercher la ou les colonnes identifiées pour obtenir plus d'informations et déterminer la meilleure réponse. Par exemple, dans certains cas, il peut être nécessaire de créer une note pour suggérer la normalisation d'une colonne.

Type de vérification: vérification basée sur la valeur

Dimension: Cohérence

Valeurs suspectes

Cette vérification recherche les valeurs suspectes qui ne semblent pas correspondre à la majorité des autres valeurs de la colonne car leurs caractéristiques sont différentes. Il identifie les valeurs extrêmes dans les colonnes numériques ou les colonnes de chaîne avec des données numériques. Les résultats des colonnes de chaîne avec des valeurs de chaîne sont ignorés. Le score de qualité est basé sur le pourcentage de valeurs identifiées soustraites d'un pourcentage de 100.

Par exemple, si une colonne contient 100 valeurs, dont 98 sont des chaînes numériques de 5 à 9 caractères de long, mais que deux sont des chaînes de texte de 30 à 45 caractères, ces deux valeurs seront identifiées comme suspectes car elles ne correspondent pas aux caractéristiques des autres valeurs. Pour cette vérification individuelle, la colonne a un score de qualité de 98% car 2% des valeurs sont suspectes.

Traitement des violations du type valeurs suspectes : vous pouvez rechercher la ou les colonnes identifiées pour obtenir plus d'informations et déterminer la meilleure réponse. Par exemple, dans certains cas, il peut être nécessaire de créer une note pour suggérer la normalisation d'une colonne.

Type de vérification: vérification basée sur la valeur

Dimension: Cohérence

Valeurs dupliquée inattendues

Cette vérification identifie les valeurs en double dans les colonnes où la plupart des valeurs sont uniques. Toutes les valeurs non uniques sont signalées comme des problèmes de qualité. Le seuil d'unicité est défini dans les paramètres d'enrichissement des métadonnées. Le paramétrage par défaut est 95 %. Voir Seuil d'unicité.

Le score de qualité est basé sur le pourcentage de valeurs identifiées soustraites d'un pourcentage de 100. Par exemple, un ensemble de données patient contient une colonne avec des numéros de sécurité sociale. La plupart des valeurs de la colonne n'apparaissent qu'une seule fois car chaque patient n'est associé qu'à un seul SSN. Chaque valeur en double dans cette colonne est identifiée. Si la colonne a 100 valeurs, 3 valeurs sont des doublons, la colonne a un score de qualité de 97% pour cette vérification car 3% des valeurs sont des doublons.

Type de vérification: vérification basée sur les métadonnées

Dimension: Unicité

Valeurs manquantes inattendues

Cette vérification recherche les valeurs manquantes inattendues dans les colonnes. Si une colonne est proche de ne pas avoir de valeurs nulles ou vides, les lignes contenant des valeurs manquantes sont considérées comme incomplètes. Le seuil null détermine quand les valeurs manquantes sont autorisées et quand les valeurs manquantes sont considérées comme inattendues. Ce seuil est défini dans les paramètres d'enrichissement de métadonnées. La valeur par défaut est 5%, ce qui signifie que les valeurs manquantes dans 5% ou moins des lignes d'une colonne sont considérées comme des valeurs manquantes inattendues. Voir Nullability.

Le score de qualité est basé sur le pourcentage de valeurs de cette colonne qui sont terminées. Par exemple, avec le paramètre par défaut, si une colonne comporte 100 valeurs et que 4 valeurs sont manquantes, le score de qualité pour cette vérification est de 96%. Si 9 valeurs sont manquantes, le score de qualité est de 100% car ce nombre de valeurs manquantes est supérieur au seuil défini et les valeurs manquantes ne sont pas considérées comme inattendues.

Type de vérification: vérification basée sur la valeur

Dimension: Intégralité

Valeurs hors de la plage

Actuellement, il n'est pas évalué dans le cadre de l'enrichissement des métadonnées. Par conséquent, un score de qualité de données de 100% est toujours affiché.

Type de vérification: vérification basée sur la valeur

Dimension: Validité

En savoir plus

Rubrique parent: Gestion de la qualité des données

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus