Les dimensions de qualité des données décrivent une caractéristique mesurable des données et aident à définir les exigences de qualité des données. Utilisez les dimensions de la qualité des données pour déterminer les résultats attendus de l'évaluation de la qualité des données, qu'il s'agisse d'une évaluation initiale ou d'une surveillance continue.
L'état dans lequel vous souhaitez que vos données soient généralement peut être défini comme adapté à l'utilisation, sans incident, correspond à la spécificationou répondant aux attentes et aux exigences. Lorsque vous mesurez la qualité des données, vous comparez l'état réel de vos données à cet état souhaité. Les normes, les attentes et les exigences qui sont importantes pour vos processus métier sont exprimées en tant que caractéristiques ou dimensions des données.
L'association Data Management (DAMA) International a publié un article décrivant 6 dimensions de base de la qualité des données:
Dimension | Descriptif | Contrôles de qualité des données prédéfinis qui identifient les problèmes associés à cette dimension |
---|---|---|
exactitude | Les valeurs de données sont aussi proches que possible des valeurs réelles. | Néant. |
Exhaustivité | Toutes les valeurs de données requises sont présentes. | Valeurs manquantes inattendues |
Cohérence | Les valeurs de données d'une colonne sont conformes à une règle. | Capitalisation incohérente Représentation incohérente des valeurs manquantes Valeurs suspectes |
Ponctualité | Les données représentent la réalité à partir d'un point dans le temps requis. | Néant. |
Unicité | Les valeurs distinctes n'apparaissent qu'une seule fois. | Valeurs dupliquée inattendues |
Validité | Les données sont conformes au format, au type ou à la plage de sa définition. | Violations de classe de données Violations de type de données Violations de format Valeurs hors plage |
Vous pouvez créer vos propres dimensions de qualité des données en utilisant l'API IBM Knowledge Catalog Create a data quality dimension.
L'état dans lequel vous souhaitez que vos données soient généralement peut être défini comme adapté à l'utilisation, sans incident, correspond à la spécificationou répondant aux attentes et aux exigences. Lorsque vous mesurez la qualité des données, vous comparez l'état réel de vos données à cet état souhaité. Les normes, les attentes et les exigences qui sont importantes pour vos processus métier sont exprimées en tant que caractéristiques ou dimensions des données.
L'association Data Management (DAMA ) International a publié un document qui décrit six dimensions essentielles de la qualité des données : Exactitude, exhaustivité, cohérence, actualité, unicité, validité
En outre, IBM Knowledge Catalog fournit la dimension Homogénéité.
Toutes ces dimensions peuvent être évaluées en effectuant des contrôles de qualité des données dans le cadre de l'enrichissement des métadonnées ou en appliquant des règles individuelles de qualité des données.
Le tableau suivant décrit les dimensions de la qualité des données et énumère les contrôles de la qualité des données dans l'enrichissement des métadonnées qui peuvent identifier les problèmes associés à une dimension spécifique :
| Dimension | Description | Contrôles de qualité des données prédéfinis
| Types de contrôles de qualité des données
| | ----- | ----- | ----- | | Précision | Les valeurs de données sont aussi proches que possible des valeurs réelles. | Aucune. | Aucune. | | Exhaustivité | Toutes les valeurs de données requises sont présentes. | Valeurs manquantes inattendues | Vérification d'exhaustivité | | Cohérence | Les valeurs de données dans une colonne sont conformes à une règle. | Capitalisation incohérente
Représentation incohérente des valeurs manquantes
Valeurs suspectes | Vérification du style de majuscules
Vérification de la représentation des valeurs manquantes
Vérification de l'intégrité référentielle ( IBM Knowledge Catalog Premium )
Vérification des valeurs suspectes | | Homogénéité
IBM Knowledge Catalog Premium | Les données sont similaires et cohérentes dans le temps. | Aucune. | Stabilité historique | | Actualité | Les données représentent la réalité à un moment donné. | Aucune. | Aucune. | | Unicité | Les valeurs distinctes n'apparaissent qu'une seule fois. | Valeurs dupliquées inattendues | Vérification d'unicité | | Validité | Les données sont conformes au format, au type ou à la plage de leur définition. | Violations de classe de données
Violations de type de données
Violations de format
Valeurs hors limites | Vérification de la classe de données
Vérification du type de données
Vérification du format
Vérification de la longueur
Vérification des valeurs possibles
Vérification de la portée
Vérification des expressions régulières |
En savoir plus
- Résultats de l'analyse de la qualité des données
- Contrôles de qualité des données prédéfinis
- Configuration des flux de travaux de données maître
- IBM Knowledge Catalog API : Liste de toutes les dimensions de la qualité des données
- IBM Knowledge Catalog API : Créer une dimension de qualité des données
Rubrique parent: Gestion de la qualité des données