Lorsque l'analyse d'un actif de données aboutit, les résultats s'affichent à la fois au niveau de l'actif de données et au niveau de la colonne. Les résultats d'analyse incluent des informations sur le contenu et la structure de votre actif de données, ainsi que des métriques sur la qualité globale de vos données.
Les résultats de l'analyse de la qualité des données sont disponibles sur la page Qualité des données de l'actif dans un projet ou un catalogue. Vous pouvez également y accéder à partir d'un enrichissement de métadonnées en cliquant sur le score de qualité d'un actif ou d'une colonne.
- Droits requis
- Pour afficher les résultats de l'analyse, vous devez être un collaborateur dans l'espace de travail.
Pour modifier le mode de calcul des scores, vous devez disposer du rôle Admin ou Editeur dans le projet.
Pour créer de nouveaux contrôles de qualité de données, vous devez disposer du rôle Admin ou Editeur dans le projet et du droit Gérer les actifs de qualité de données .
Pour visualiser les données qui ont causé des problèmes de qualité des données (la table de sortie) à partir de l'historique de l'exécution de la règle ou de la page Qualité des données, vous devez disposer de l'autorisation Accéder aux détails du problème. Cependant, la ressource de données dans le projet qui est créé pour la table de sortie est accessible à toute personne qui peut accéder à la connexion. Pour limiter l'accès à ces données, la connexion à la source de données où la table de sortie est stockée doit être configurée avec des informations d'identification personnelles.
Les informations sur la qualité des données deviennent disponibles dans un projet ou un catalogue comme suit:
Dans un projet, après l'exécution du premier contrôle de qualité de données sur l'actif de données de l'une des manières suivantes ou lors de l'ajout d'un actif de données d'entité IBM Match 360 connecté:
- L'analyse de la qualité des données s'exécute sur l'actif dans le cadre de l'enrichissement des métadonnées.
- Une règle de qualité de données s'exécute sur l'actif.
Dans un catalogue:
- Un actif de données avec des informations de qualité de données est publié dans le catalogue.
Les scores de qualité sont recalculés et les données sont actualisées comme suit:
Dans un projet, chaque fois qu'un contrôle de qualité de données est exécuté sur l'actif ou lorsqu'un actif de données d'entité IBM Match 360 est mis à jour:
- Une analyse de la qualité des données s'exécute dans le contexte de l'enrichissement des métadonnées.
- Une règle de qualité de données est exécutée sur l'actif.
- L'algorithme de correspondance IBM Match 360 est modifié ou les problèmes de correspondance potentiels sont résolus.
Dans un catalogue:
- Un actif est publié à partir d'un projet.
Vous pouvez immédiatement voir quand les scores de qualité ont été mis à jour pour la dernière fois.
- Informations sur la qualité des données pour un actif
- Informations sur la qualité des données pour une colonne
Informations sur la qualité des données pour un actif
Lorsque vous accédez aux informations de qualité de données d'un actif, vous voyez les scores de qualité de données globaux et les résultats des contrôles de qualité de données qui ont été exécutés sur l'actif. En outre, vous avez accès aux résultats d'analyse pour les colonnes d'actif.
Si les règles SLA relatives à la qualité des données sont évaluées dans le cadre de l'enrichissement des métadonnées, les actifs soumis à une règle SLA relative à la qualité des données disposeront également d'informations sur le respect des SLA.
Scores globaux au niveau de l'actif
Une représentation graphique des scores de qualité vous donne une vue d'ensemble de la qualité globale de l'actif et du niveau de qualité concernant les dimensions appliquées à l'actif. Pour ces scores, les informations de tendance montrent comment la qualité globale ou le score de qualité d'une dimension a changé au fil du temps. Vous pouvez choisir d'afficher la tendance pour une période de 30, 90 ou 180 jours. Une dimension n'affiche pas d'informations de tendance si aucune vérification n'a été apportée à cette dimension auparavant.
Le score d'actif global est la moyenne pondérée des scores fournis par les colonnes d'actif. Chaque score de dimension correspond à la moyenne pondérée des scores de dimension correspondants qui sont fournis par les vérifications individuelles.
Les scores globaux, les scores de dimension et les informations de tendance sont recalculés pour ces changements:
- Une vérification de la qualité des données est exécutée sur l'actif.
- Le paramètre Contribue au score global pour une vérification ou une colonne est modifié.
- Une règle de qualité de données qui a été appliquée à l'actif est supprimée.
- Le profil d'actif est supprimé sur la page Profil de l'actif.
- L'actif est mis à jour dans IBM Match 360.
Pour plus d'informations, voir Scores de qualité de données.
Respect des règles de qualité des données (SLA)
Pour un bien soumis à une ou plusieurs règles SLA de qualité des données, les règles SLA appliquées sont répertoriées avec leurs résultats, ainsi que la date et l'heure de la dernière évaluation. Pour une règle SLA violée, le nombre de violations, qui peuvent être sur des tables, des colonnes ou les deux en fonction des conditions de la règle, est affiché et si une action a été configurée pour la règle. Si un workflow de remédiation de la qualité des données est lié à la règle SLA de qualité des données violée, vous pouvez également voir l'état des tâches de remédiation qui ont été lancées.
Vous pouvez approfondir les résultats de chaque règle SLA de qualité des données. Pour obtenir des détails sur les violations et les contrôles qui ont contribué à l'obtention d'un score de dimension dans les critères de qualité de la règle SLA, cliquez sur le nom de la règle SLA. La section Violations fournit des informations sur l'élément pour lequel la violation a été constatée, le critère de qualité qui a été défini, le score de qualité réel de l'élément et l'écart en points de pourcentage (pp). Vous pouvez également afficher les détails de la règle ou modifier la règle SLA si vous disposez des autorisations nécessaires.
Pour les actifs qui ne sont soumis à aucune règle de qualité des données, cette section est vide.
Les informations relatives au respect des règles SLA de qualité des données ou aux tâches de remédiation ne sont pas disponibles dans les catalogues.
Résultats du contrôle de la qualité des données au niveau de l'actif
Ici, vous pouvez voir quelles vérifications ont été exécutées sur l'actif et quels ont été les résultats. La liste est triée par date avec les vérifications les plus récentes en haut.
- Nom et logique
Nom d'une règle de qualité de données et nom de la définition de qualité de données qui contient la logique de règle ou nom d'un contrôle de qualité de données prédéfini.
Les règles de qualité des données avec des liaisons gérées en externe ou des règles de qualité des données basées sur SQL contribuent aux scores de qualité des données d'un actif si cet actif est ajouté en tant qu'élément associé à la règle correspondante avec l'attribut Valide la qualité des données de relation. Le même score et les mêmes problèmes sont signalés pour tous les actifs et les colonnes liés à ce type de relation.
Les contrôles de qualité de données prédéfinis sont exécutés sur l'ensemble de l'actif. Cependant, ils ne renvoient pas tous des résultats pour toutes les colonnes. Par exemple, la vérification Suspect values identifie les valeurs extrêmes dans les colonnes numériques ou les colonnes de chaîne avec des données numériques, mais ne renvoie pas de résultats pour les colonnes de chaîne avec des valeurs de chaîne. Par conséquent, la liste des contrôles de qualité de données prédéfinis peut être plus courte pour les colonnes individuelles.
Dans un projet, vous pouvez cliquer sur le nom d'un contrôle de qualité de données pour plus de détails. Pour les contrôles de qualité de données prédéfinis, affichez des informations sur les constatations: les colonnes qui présentent des problèmes et le nombre et le pourcentage de valeurs dans les colonnes qui ont été identifiées comme problèmes de qualité. Si une table de sortie est configurée pour ces problèmes, un utilisateur disposant des droits appropriés peut afficher les lignes réelles où les données entraînent des problèmes de qualité. Pour les règles de qualité de données, vous pouvez voir la configuration générale de la règle et avoir accès à la table de sortie de la règle si celle-ci est configurée. Si vous souhaitez mettre à jour la configuration de la règle et disposer des droits requis, vous pouvez accéder directement à l'actif en cliquant sur Afficher la règle de qualité de données.
Pour les actifs de données d'entité IBM Match 360 connectés, Correspondances potentielles est affiché ici pour la mise en correspondance. Aucune information supplémentaire n'est fournie pour ce type de vérification.
- Type
Type de vérification, qui peut être Data quality rule, Matchingou Profiling. Correspondance s'affiche pour les résultats IBM Match 360 . Profilage s'affiche pour les contrôles de qualité de données prédéfinis qui ont été exécutés dans le contexte de l'enrichissement des métadonnées. Voir Contrôles de qualité des données prédéfinis.
- Dimension
Dimension de qualité de données à laquelle cette vérification est liée. Les contrôles de qualité de données prédéfinis qui sont exécutés lors du profilage ou dans le cadre de l'enrichissement des métadonnées ont des dimensions par défaut affectées. Pour les règles de qualité de données, vous affectez des dimensions selon les besoins.
Pour les actifs de données d'entité IBM Match 360 connectés, la dimension Entity confidence est affichée.
Si aucune dimension n'est définie, la zone affiche Aucun. Pour plus d'informations, voir Dimensions de qualité de données et Scores de qualité de données.
- Mise en évidence et pourcentage des données présentant des problèmes
Selon le type de vérification, la mise en évidence peut être une ou plusieurs colonnes ou une table entière. Pour les contrôles de qualité de données prédéfinis, la mise en évidence est toujours la totalité de la table. Pourcentage de données avec des problèmes indique la quantité de données qui ne répond pas aux critères de qualité définis dans le contrôle.
- Données vérifiées et problèmes détectés
Nombre d'enregistrements vérifiés et nombre de problèmes de qualité détectés. Ces problèmes peuvent se trouver dans les mêmes enregistrements ou dans des enregistrements différents.
- Echantillonnage
Type d'échantillonnage appliqué lors de la dernière exécution de la vérification. Pour les règles de qualité de données, cette colonne affiche un tiret (-) si aucun échantillonnage n'est configuré. Pour la mise en correspondance, la colonne affiche toujours un tiret. Pour les contrôles de qualité de données prédéfinis, la colonne a toujours une valeur.
- Score
Score de qualité renvoyé par la vérification pour l'actif.
- Contribue au score global
Ce paramètre détermine si ce score de qualité spécifique est pris en compte dans le calcul des scores globaux. Vous ne pouvez modifier ce paramètre que dans un projet. Pour ce faire, vous devez être un administrateur de projet ou un éditeur. Dans un catalogue, le paramètre est verrouillé. Voir Scores de qualité de données.
- Dernière vérification
Date et heure de la dernière exécution de la vérification.
Vous pouvez passer à la présentation des colonnes en cliquant sur Colonnes.
Dans un projet, vous avez également la possibilité de créer de nouvelles définitions de qualité des données ou règles de qualité des données si le composant de qualité des données deIBM Knowledge Catalog est autorisé. Vous devez être un administrateur ou un éditeur de projet et disposer du droit Gérer les actifs de qualité de données .
Présentation des colonnes
Affichez les informations de qualité de données pour les colonnes individuelles:
- Nom de la colonne.
- Score global de qualité des données de la colonne.
- Score de qualité de la colonne pour toutes les dimensions applicables à l'actif. Un tiret (-) est affiché si aucune des vérifications appliquées à cette colonne n'a contribué à la dimension.
- Nombre de vérifications exécutées sur une colonne.
- Indique si le score de qualité des données de la colonne est pris en compte dans le calcul du score d'actif global et des scores de dimension. En tant qu'administrateur de projet ou éditeur, vous pouvez modifier ce paramètre.
- Date de la dernière vérification de la colonne.
Vous pouvez ensuite explorer en aval les détails de la qualité des données pour chaque colonne. Voir Informations sur la qualité des données pour une colonne.
Vous pouvez revenir à la liste des contrôles de qualité des données en cliquant sur Vérifications.
Informations sur la qualité des données pour une colonne
Lorsque vous accédez aux informations de qualité de données d'une colonne, vous voyez une section qui affiche les scores de qualité de données globaux et vous avez accès aux résultats des contrôles de qualité de données qui ont été exécutés sur la colonne. La mise en correspondance ne contribue pas aux données de niveau colonne.
Outre les informations de qualité, vous pouvez voir quelle classe de données et quels termes métier sont affectés à la colonne.
Scores globaux au niveau de la colonne
Une représentation graphique des scores de qualité vous donne une vue d'ensemble de la qualité globale d'une colonne et du niveau de qualité en ce qui concerne les dimensions appliquées à la colonne. Pour ces scores, les informations de tendance montrent comment la qualité globale ou le score de qualité d'une dimension a changé au fil du temps. Vous pouvez choisir d'afficher la tendance pour une période de 30, 90 ou 180 jours.
Le score global de la colonne ou d'une dimension correspond à la moyenne pondérée des scores fournis par les contrôles de qualité des données appliqués à la colonne.
Dans un projet, les scores globaux, les scores de dimension et les informations de tendance sont recalculés chaque fois qu'une vérification de la qualité des données qui affecte la colonne est exécutée sur l'actif. Le score est également recalculé lorsque vous modifiez le paramètre Contribue au score global pour une vérification qui affecte la colonne, ou lorsque des règles de qualité de données ou le profil d'actif sont supprimés.
Dans un catalogue, les scores globaux et de dimension et les informations de tendance sont mis à jour lorsqu'un actif est publié à partir d'un projet.
Pour plus d'informations, voir Scores de qualité de données.
Résultats du contrôle de la qualité des données au niveau de la colonne
Vous pouvez voir ici quelles vérifications ont été appliquées à la colonne et quels ont été les résultats. La liste est triée par date avec les vérifications les plus récentes en haut.
- Nom et logique
Nom d'une règle de qualité de données et nom de la définition de qualité de données qui contient la logique de règle ou nom d'un contrôle de qualité de données prédéfini.
Les règles de qualité des données avec des liaisons gérées en externe ou des règles de qualité des données basées sur SQL contribuent aux scores de qualité des données d'une colonne si cette colonne est ajoutée en tant qu'élément associé à la règle correspondante avec l'attribut Valide la qualité des données de relation. Le même score et les mêmes problèmes sont signalés pour tous les actifs et les colonnes liés à ce type de relation.
Dans un projet, vous pouvez cliquer sur le nom d'une règle de qualité de données pour voir la configuration générale de la règle et la table de sortie de la règle si elle est configurée. Si vous souhaitez mettre à jour la configuration de la règle et disposer des droits requis, vous pouvez accéder directement à l'actif en cliquant sur Afficher la règle de qualité de données.
- Type
Type de vérification, qui peut être Règle de qualité de données ou Profilage. Profilage s'affiche pour les contrôles de qualité de données prédéfinis qui ont été exécutés dans le contexte de l'enrichissement des métadonnées. Voir Contrôles de qualité des données prédéfinis.
- Dimension
Dimension de qualité de données à laquelle cette vérification est liée. Les contrôles de qualité de données prédéfinis qui sont exécutés lors du profilage ou dans le cadre de l'enrichissement des métadonnées ont des dimensions par défaut affectées. Pour les règles de qualité de données, vous pouvez affecter des dimensions selon les besoins. Si aucune dimension n'est définie, la zone affiche Autre. Pour plus d'informations, voir Dimensions de qualité de données et Scores de qualité de données.
- Pourcentage de données présentant des problèmes
Cette valeur indique la quantité de données qui ne répond pas aux critères de qualité définis dans le contrôle.
- Données vérifiées et problèmes détectés
Nombre d'enregistrements vérifiés et nombre de problèmes de qualité détectés. Ces problèmes peuvent se trouver dans les mêmes enregistrements ou dans des enregistrements différents.
- Echantillonnage
Type d'échantillonnage appliqué lors de la dernière exécution de la vérification. Pour les règles de qualité de données, cette colonne affiche un tiret (-) si aucun échantillonnage n'est configuré. Pour les contrôles de qualité de données prédéfinis, la colonne a toujours une valeur.
- Score
Score de qualité renvoyé par la vérification pour la colonne.
- Contribue au score global
Ce paramètre détermine si ce score de qualité spécifique est pris en compte dans le calcul des scores globaux. Vous ne pouvez modifier ce paramètre que dans un projet. Pour ce faire, vous devez être un administrateur de projet ou un éditeur. Dans un catalogue, le paramètre est verrouillé. Voir Scores de qualité de données.
- Dernière vérification
Date et heure de la dernière exécution de la vérification.
IBM Knowledge Catalog API pour la qualité des données
Vous pouvez utiliser une collection d'API REST pour générer et extraire des informations sur la qualité des données.
- Méthodes d'actifs de qualité de données
Les actifs de qualité de données sont des actifs de données soumis à des contrôles de qualité de données. Exemple d'API : Obtenir des actifs de qualité des données - Contrôles de qualité des données
Les contrôles de qualité des données peuvent être, par exemple, des règles de qualité des données ou des vérifications exécutées dans le cadre de l'enrichissement des métadonnées. Exemple d'API : Obtenir des contrôles de qualité des données - Dimensions de qualité des données
Un ensemble de dimensions de qualité des données standard est fourni avec le produit, mais vous pouvez créer des dimensions personnalisées. Exemple d'API : Obtenir une liste des dimensions de la qualité des données - Problèmes de qualité des données
Les problèmes de qualité des données sont les problèmes détectés par les contrôles de qualité des données pour un actif de données. Exemple d'API : Obtenir une liste des problèmes de qualité des données - Scores de qualité des données
Pour chaque actif de données, différents types de scores de qualité sont générés, tels que le score global ou les scores de dimension. Exemple d'API : Obtenir une liste de scores de qualité des données pour un actif donné
En savoir plus
Rubrique parent: Gestion de la qualité des données