Evaluation de la qualité des données | IBM Cloud Pak for Data as a Service

Retourner à la version anglaise de la documentation

Evaluation de la qualité des données

Dernière mise à jour : 13 déc. 2024

Evaluation de la qualité des données

Pour déterminer si vos données sont de bonne qualité, vérifiez dans quelle mesure elles répondent à vos attentes et identifiez les anomalies dans les données. L'évaluation de la qualité des données permet également de comprendre la structure et le contenu de vos données.

Exécutez des règles de qualité de données pour évaluer les données en fonction des conditions définies. Le type de règle détermine d'où les données peuvent provenir.

Règles créées à partir de définitions de qualité de données

Vous pouvez exécuter des règles complexes avec des liaisons gérées en externe sur des actifs de données à partir de n'importe quel connecteur pris en charge par DataStage. Voir ConnecteursDataStage.

Pour les règles simples dans lesquelles vous liez les données directement, les connexions répertoriées dans Connecteurs pris en charge sont prises en charge.

En outre, vous pouvez utiliser des actifs de données à partir de fichiers au format CSV téléchargés à partir du système de fichiers local ou à partir de connexions basées sur des fichiers aux sources de données.
Règles SQL

Pour connaître les types de base de données pris en charge, voir Connecteurs pris en charge.

Pour qu'une règle de qualité des données avec des liens externes ou une règle de qualité des données basée sur SQL contribue aux scores de qualité des données d'une ressource ou d'une colonne, ajoutez cette ressource ou cette colonne en tant qu'élément lié à la règle correspondante. Utilisez le type de relation Valide la qualité des données.

Services requis

IBM Knowledge Catalog
DataStage ou DataStage as a Service Anywhere '
Avec DataStage, vous pouvez exécuter des règles de qualité des données dans les régions prises en charge. Avec DataStage as a Service Anywhere, vous pouvez exécuter des règles de qualité des données en dehors d'IBM Cloud en utilisant des moteurs distants. Pour plus d'informations sur la configuration des moteurs distants, consultez la documentationDataStage as a Service Anywhere.

Autorisations requises

Pour exécuter des règles de qualité de données, vous devez disposer du rôle Admin ou Editeur dans le projet. En outre, vous devez disposer du Exécuter les règles de qualité de données droit d'utilisateur . Vous devez également être autorisé à accéder aux connexions aux sources de données des actifs de données à vérifier.

Pour visualiser les données qui ont causé des problèmes de qualité des données (la table de sortie) à partir de l'historique de l'exécution de la règle ou de la page Qualité des données, vous devez disposer de l'autorisation Accéder aux détails du problème de l'utilisateur. Cependant, la ressource de données dans le projet qui est créé pour la table de sortie est accessible à toute personne qui peut accéder à la connexion. Pour limiter l'accès à ces données, la connexion à la source de données où la table de sortie est stockée doit être configurée avec des informations d'identification personnelles.

Vous pouvez également effectuer les tâches suivantes avec des API au lieu de l'interface utilisateur. Les liens vers ces API sont répertoriés dans la section En savoir plus .

Exécution de règles de qualité de données

L'exécution d'une règle de qualité de données requiert un flux DataStage , puis un travail DataStage . Le travail avec les paramètres de travail par défaut est créé automatiquement lorsque vous exécutez la règle pour la première fois à partir de l'actif. Un travail DataStage portant le nom par défaut DataStage flow of data rule <rulename>.DataStage job est ajouté au projet.

Après l'exécution initiale, vous pouvez modifier les paramètres du travail en fonction des besoins, par exemple, pour configurer des exécutions planifiées. Vous pouvez également ajuster le nombre d'avertissements acceptables avant la fin du travail, qui est de 100 par défaut. Pour modifier les paramètres du travail, accédez à la page des détails du travail et cliquez sur l'icône en forme de crayon dans la barre d'outils. Vous pouvez accéder à la page des détails du travail en cliquant sur le nom du travail dans l'historique d'exécution de la règle ou sur la page Travaux du projet.

Vous pouvez également créer des travaux DataStage supplémentaires pour votre règle manuellement, soit à partir du menu déroulant dynamique de la règle dans le projet, soit, lorsque vous ouvrez l'actif, à partir du menu déroulant dynamique en regard du nom de l'actif. Voir Création de travaux pour l'exécution de règles de qualité de données.

Pour confirmer qu'une règle est toujours valide avant de l'exécuter manuellement, vous pouvez vérifier son statut en sélectionnant Valider dans le menu déroulant dynamique.

Vous pouvez exécuter une règle de l'une des manières suivantes:

Ouvrez la règle de qualité de données et cliquez sur Exécuter la règle. Utilisez cette option pour l'exécution initiale de la règle afin de créer le travail DataStage associé.
Sélectionnez Exécuter dans le menu de débordement des règles du projet.
Accédez à la page " Jobs" du projet, ouvrez les détails du job et exécutez le job en cliquant sur l'icône Run " dans la barre d'action.

Vous pouvez également automatiser les contrôles de qualité en configurant des travaux avec une planification répétitive pour l'exécution d'une règle.

Les règles sont exécutées avec les données d'identification IBM Cloud . En règle générale, votre clé d'API IBM Cloud personnelle est utilisée pour exécuter ces opérations de longue durée sans interruption. Si les données d'identification ne sont pas disponibles lorsque vous créez le travail, vous êtes invité à créer une clé d'API. Cette clé d'API est ensuite sauvegardée en tant que données d'identification de la tâche.

Règles de regroupement

Vous pouvez regrouper certaines règles de qualité des données dans un seul flux DataStage pour l'exécution :

Les règles de qualité des données doivent être créées à partir des définitions de la qualité des données.
Les variables de la règle doivent être liées à une seule ressource de données dans le projet :
- Un fichier unique provenant de l'un de ces connecteurs de stockage de fichiers : Amazon S3, Apache HDFS, Azure Data Lake Storage ou Google Cloud Storage
- Un fichier qui a été téléchargé à partir du système de fichiers local
- Une seule base de données relationnelle

Selon la configuration des règles de qualité des données individuelles que vous avez regroupées, l'exécution des règles peut nécessiter plusieurs passages sur les données.

Vous ne pouvez pas regrouper les règles de qualité des données qui sont liées à plusieurs ressources de données.

Vous pouvez utiliser l'appel API suivant pour regrouper les règles à exécuter :

POST /data_quality/v3/projects/{project_id}/execute_rules

Cet appel API nécessite les paramètres suivants :

project_id

L'ID du projet qui contient les règles

Corps de demande

La charge utile au format suivant :

{
  "rules": [
    {
      "id": "<rule1_id>"
    },
    {
      "id": "<rule2_id>"
    }
  ]
}

Pushdown du traitement dans les règles de qualité des données

Certains aspects du traitement des règles de qualité des données peuvent être transférés vers la source de données afin de réduire la quantité de données transférées hors de la source et d'accélérer le traitement. La sélection de colonnes, la création de jointures entre différentes ressources de données et l'échantillonnage sont transmis aux sources de données dotées d'un système de gestion de base de données relationnelle (SGBDR), ce qui signifie qu'elles prennent en charge les requêtes SQL. pour les sources de données basées sur des fichiers, aucun traitement n'est supprimé. Les règles de qualité des données basées sur SQL sont toujours exécutées au niveau de la source de données.

Avec DataStage as a Service Anywhere, vous pouvez exécuter des règles de qualité des données en dehors d'IBM Cloud en utilisant des moteurs distants. Pour plus d'informations sur la configuration des moteurs distants, consultez la documentationDataStage as a Service Anywhere.

Sélection de colonne

Pour les sources de données SGBDR, une instruction SQL SELECT telle queselect colA, colB from schema1.table1 est exécuté sur la source de données pour récupérer uniquement les colonnes requises d'une table. De telles requêtes ne peuvent pas être exécutées sur des ressources de données à partir de connexions de stockage de fichiers. Pour de tels fichiers, toutes les colonnes sont récupérées et le DataStage L'étape de modification est utilisée pour filtrer les colonnes.

Jointures

Si une règle de qualité des données comporte au moins deux variables liées à plusieurs ressources de données, ces ressources de données doivent être jointes sur certaines colonnes.

Pour les sources de données SGBDR, une instruction SQL SELECT avec une clause JOIN telle queSELECT col1, col2 FROM schema1.table1 INNER JOIN schema1.table2 ON table1.id = table2.id est exécuté sur la source de données. Avec cette requête, la jointure des actifs de données se fait au niveau de la source de données. Certaines sources de données SGBDR ne prennent pas du tout en charge le traitement JOIN ou ne prennent en charge que certains types de clauses JOIN. Par exemple, Google BigQuery ne prend pas du tout en charge les clauses JOIN.

Les résultats des règles de qualité des données avec les jointures dépendent également de la façon dont les valeurs telles que null et les chaînes vides sont traitées par la source de données du SGBDR pendant le traitement de la jointure.

Pour un actif de données provenant d'une connexion de stockage de fichiers, tous les enregistrements de chaque actif de données individuel sont récupérés et le DataStage L’étape de jointure est utilisée pour joindre les actifs de données.

Echantillonnage

Pour les sources de données SGBDR, un échantillonnage aléatoire et séquentiel est effectué au niveau de la source de données. Pour l'échantillonnage séquentiel, une clause spécifique au SGBDR permettant de sélectionner les enregistrements est ajoutée à l'instruction SQL, par exemple FETCH FIRST ou LIMIT.

Pour un actif de données provenant d'une connexion de stockage de fichiers, tous les enregistrements sont récupérés et le DataStage L'étape d'échantillonnage est utilisée pour créer l'échantillon.

Vérification de l'historique d'exécution

Chaque fois que vous exécutez une règle de données, un enregistrement d'exécution est créé. Ces enregistrements d'exécution sont répertoriés dans l'historique d'exécution d'une règle afin que vous puissiez voir comment les résultats ont été modifiés à chaque exécution. Pour afficher les enregistrements d'exécution, ouvrez la règle de qualité de données et accédez à l'onglet Historique d'exécution . Chaque enregistrement d'exécution fournit les informations suivantes:

Heure de début de l'exécution de la règle en tant qu'hyperlien. Cliquez sur le lien pour accéder aux ressources de l'exécution de travail.
Nom du travail DataStage correspondant sous forme d'hyperlien. Cliquez sur le lien pour accéder aux détails du travail.
Statut de l'exécution.
Pour les règles créées à partir de définitions de qualité de données:
- Nombre d'enregistrements qui ont été testés.
- Nombre d'enregistrements et pourcentage d'enregistrements testés qui répondent à la règle.
- Nombre d'enregistrements et pourcentage d'enregistrements testés qui ne respectaient pas la règle.
Pour les règles SQL:
- Nombre d'enregistrements renvoyés par l'instruction SELECT dans la colonne Règle non satisfaite .

Tous les enregistrements d'exécution sont sauvegardés et stockés jusqu'à ce que vous les supprimiez. Envisagez de nettoyer l'historique d'exécution régulièrement pour économiser de l'espace. Vous pouvez supprimer les enregistrements d'exécution sélectionnés ou tous les enregistrements d'exécution à la fois. Lorsque vous supprimez un enregistrement d'exécution, les détails d'exécution de travail correspondants sont également supprimés.

Vérification de la table de sortie des règles

Si une table de sortie est définie pour la règle, la sortie de la règle est écrite dans une table de base de données telle que configurée. Voir l'étape de configuration des paramètres de sortie dans Création de règles à partir de définitions de qualité de données ou Création de règles SQL.

La table de sortie est également ajoutée au projet en tant qu'actif de données. Vous pouvez accéder à la table de sortie de l'une des manières suivantes:

Accédez à l'historique d'exécution de la règle et cliquez sur Afficher la table de sortie. Vous pouvez télécharger la sortie de règle sous forme de fichier CSV, par exemple, pour l'utiliser dans une feuille de calcul si vous souhaitez rechercher ou filtrer la sortie qui contient un grand nombre d'enregistrements. La page de sortie fournit également un lien vers l'actif de données correspondant dans le projet.
Ouvrez la table de sortie dans le projet. Recherchez un actif de données portant le même nom que la table de sortie définie dans la règle.
Accédez à la table dans la base de données à l'aide de requêtes de base de données natives.

En savoir plus

Rubrique parent: Gestion de la qualité des données