0 / 0
Retourner à la version anglaise de la documentation
Informations sur la qualité des données pour les actifs de données

Informations sur la qualité des données pour les actifs de données

Les données ne sont utiles que si leur qualité est reconnue et évaluée en permanence. Vous pouvez surveiller la qualité de données d'un actif de données sur sa page Qualité de données .

Les mêmes informations que celles de l'onglet Qualité de données sont disponibles lorsque vous cliquez sur un score de qualité de données dans un actif d'enrichissement de métadonnées.

Exigences et restrictions

Vous pouvez afficher des informations sur la qualité des données pour les actifs dans les cas suivants.

Services requis

La qualité des données requiert le service IBM Knowledge Catalog . Toutefois, la sortie de la qualité des données à partir des règles de qualité des données n'est disponible que dans les régions de Dallas et de Francfort. Voir Limitations régionales pour Cloud Pak for Data as a Service.

Droits requis

Vos rôles déterminent comment vous pouvez interagir avec la qualité des données:

  • Pour afficher la page Qualité de données , vous pouvez avoir n'importe quel rôle de collaborateur dans l'espace de travail.
  • Pour modifier le mode de calcul des scores, vous devez disposer du rôle Admin ou Editeur dans le projet.
  • Pour créer de nouveaux contrôles de qualité de données, vous devez disposer du rôle Admin ou Editeur dans le projet et du droit Gérer les actifs de qualité de données .
  • Pour afficher les tables de sortie des règles de qualité de données, vous pouvez avoir n'importe quel rôle de collaborateur dans l'espace de travail.
  • Pour afficher les lignes de données dans lesquelles les valeurs ont provoqué des problèmes de qualité de données, vous devez disposer du droit Passer au niveau inférieur pour afficher les détails . Vous pouvez avoir n'importe quel rôle de collaborateur dans l'espace de travail.
  • L'accès aux tables de sortie peut être bloqué par les règles de protection des données. Voir Application des règles de protection des données.

Espaces de travail

Vous pouvez afficher des informations sur la qualité des données dans les espaces de travail suivants:

  • Projets
  • Catalogues

Types d'actifs

Ces types d'actifs comportent des informations sur la qualité des données:

  • Actifs de données provenant de bases de données relationnelles ou non relationnelles à partir d'une connexion aux sources de données
  • Actifs de données à partir de fichiers partitionnés, dans lesquels un fichier partitionné est constitué de plusieurs fichiers et est représenté par un dossier unique téléchargé à partir du système de fichiers local ou à partir de connexions basées sur des fichiers aux sources de données
  • Les ressources de données des fichiers téléchargés à partir du système de fichiers local ou à partir de connexions basées sur des fichiers vers les sources de données, avec ces formats :
    • CSV
    • XLS, XLSM, XLSX (seulement la première feuille d'un classeur.)
    • TSV
    • Avro
    • rapport de surcapacité
    • Parquet
  • IBM Match 360 -Actifs de données d'entité

Présentation

Sur la page Qualité de données , vous trouverez des informations sur la qualité d'un actif de données:

Affiche les informations de qualité de données pour un actif de données dans un projet

  1. Score global de qualité des données de l'actif. Il s'agit de la moyenne pondérée des scores fournis par ses colonnes. Pour plus d'informations, voir Scores de qualité de données.
  2. Scores des dimensions individuelles. Pour chaque dimension, il s'agit de la moyenne pondérée des scores de dimension correspondants fournis par les vérifications individuelles. Les dimensions par défaut sont affectées aux contrôles de qualité de données prédéfinis qui sont exécutés dans le cadre de l'enrichissement de métadonnées. Voir Contrôles de qualité des données prédéfinis. Pour les règles de qualité de données, vous affectez des dimensions selon les besoins. Pour plus d'informations, voir Dimensions de qualité de données et Scores de qualité de données.
  3. Informations sur la tendance indiquant comment la qualité globale ou le score de qualité d'une dimension a changé sur une période de 30, 90 ou 180 jours. Pour plus d'informations, voir Résultats de l'analyse de la qualité des données.
  4. Liste des contrôles de qualité de données qui ont été appliqués à l'actif et leurs résultats. Pour plus d'informations, voir Résultats de l'analyse de la qualité des données.
  5. Informations sur la qualité des données pour les colonnes individuelles. Pour plus d'informations, voir Résultats de l'analyse de la qualité des données.

La page Qualité des données dans les projets

La page Qualité de données est remplie après la première vérification de la qualité de données sur l'actif de données de l'une des manières suivantes:

  • L'analyse de la qualité des données s'exécute sur l'actif dans le cadre de l'enrichissement des métadonnées.
  • Une règle de qualité de données s'exécute sur l'actif.
  • Un actif de données d'entité IBM Match 360 connecté est ajouté.

Lorsqu'un actif est importé à partir d'un catalogue, seules les informations de profil sont copiées dans le projet. Les informations sur la qualité des données ne sont pas copiées.

Les scores de qualité sont recalculés et les données de cette page sont actualisées dans les cas suivants:

  • L'analyse de la qualité des données est exécutée dans le contexte de l'enrichissement des métadonnées.
  • Les règles de qualité de données sont exécutées sur l'actif.
  • Une règle de qualité de données ayant contribué aux scores est supprimée. Tous les problèmes renvoyés par cette règle de qualité de données sont supprimés.
  • Le profil d'actif est supprimé sur la page Profil de l'actif. Tous les problèmes renvoyés par les contrôles de qualité de données prédéfinis sont supprimés.

Les scores globaux et de dimension sont également mis à jour chaque fois que vous modifiez le paramètre Contribue au score global pour une vérification ou une colonne. Pour plus d'informations, voir Scores de qualité de données.

Vous pouvez immédiatement voir quand les scores de qualité ont été mis à jour pour la dernière fois.

Dans la section Contrôles de qualité des données , vous pouvez voir les informations suivantes:

  • Les vérifications qui ont été effectuées sur l'actif, triées par date avec les vérifications les plus récentes en haut
  • Dimension à laquelle chaque chèque est lié
  • Indique si une vérification a été appliquée à l'ensemble de l'actif ou aux colonnes de l'actif
  • Informations sur le nombre de problèmes détectés
  • Quel type d'échantillonnage a été appliqué le cas échéant
  • Score de qualité de données généré par une vérification
  • Indique si le score de qualité de données d'une vérification est pris en compte dans le calcul du score d'actif global et des scores de dimension
  • Date de la dernière exécution de la vérification

Vous pouvez explorer en aval les résultats de chaque vérification, à l'exception de la correspondance IBM Match 360 . En tant qu'administrateur de projet ou éditeur, vous pouvez changer pour chaque vérification si elle contribue au score global de qualité des données et vous pouvez créer de nouveaux contrôles de qualité des données. Pour plus d'informations, voir Résultats de l'analyse de la qualité des données.

Vous pouvez passer de la vue Vérifications à la vue Colonnes . La section Column overview affiche les informations suivantes pour chaque colonne qui a fait l'objet de l'un des contrôles de qualité de données:

  • Nom de la colonne
  • Score de qualité de la colonne pour l'une des dimensions applicables à l'actif
  • Nombre de vérifications exécutées sur une colonne
  • Indique si le score de qualité des données de la colonne est pris en compte dans le calcul du score d'actif global et des scores de dimension
  • Date de la dernière vérification de la colonne

Vous pouvez ensuite explorer en aval les détails de la qualité des données pour chaque colonne. En tant qu'administrateur de projet ou éditeur, vous pouvez également modifier pour chaque colonne si son score de qualité contribue au score global de qualité des données. Pour plus d'informations, voir Résultats de l'analyse de la qualité des données.

Page Qualité des données dans les catalogues

La page Qualité de données est initialement remplie lorsqu'un actif de données contenant des informations sur la qualité de données est publié dans le catalogue. La page est vide pour tout actif que vous ajoutez directement en tant qu'actif connecté ou que vous téléchargez depuis votre système de fichiers local. Pour générer des informations de qualité de données pour ces actifs, ajoutez-les à un projet et exécutez des règles d'enrichissement de métadonnées ou de qualité de données sur les actifs. Ensuite, publiez-les dans le catalogue.

Les scores de qualité sont mis à jour et les données de cette page sont actualisées chaque fois que l'actif est publié à partir d'un projet avec de nouvelles informations de qualité de données.

Vous pouvez immédiatement voir quand les scores de qualité ont été mis à jour pour la dernière fois.

Les sections Contrôles de qualité des données et Présentation des colonnes fournissent les mêmes informations que l'onglet Qualité des données du projet. Toutefois, vous ne pouvez pas explorer en aval les détails de la vérification ou de la colonne.

En savoir plus

Rubrique parent: Types d'actif et propriétés

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus