Profils des actifs de données | IBM Cloud Pak for Data as a Service

Rubrique traduite automatiquement Vous pouvez passer à la version anglaise

Pour obtenir la version la plus précise et la plus à jour de cette documentation, voir la version anglaise (originale). IBM n'est pas responsable des dommages ou pertes résultant de l'utilisation du contenu traduit automatiquement (machine).

Retourner à la version anglaise de la documentation

Profils des actifs de données

Un profil d'actif inclut des métadonnées et des statistiques générées sur le contenu de l'actif et vous aide à comprendre les actions à entreprendre pour améliorer la qualité des données. Vous pouvez voir le profil sur la page Profil d'un actif.

Des profils peuvent être créés pour les actifs de données qui contiennent des données relationnelles ou structurées.

Exigences et restrictions
Modes de création d'un profil
Qu'est-ce qui est analysé lors du profilage?
Informations de profil

Exigences et restrictions

Vous pouvez afficher le profil des actifs dans les circonstances suivantes.

service requis

Le profilage requiert le service IBM Knowledge Catalog .

Droits requis

Vos rôles déterminent la façon dont vous pouvez interagir avec les profils:

Pour afficher cette page, vous pouvez avoir n'importe quel rôle dans un projet ou un catalogue.
Pour créer ou mettre à jour un profil ou pour exécuter un enrichissement de métadonnées dans un projet, vous devez disposer du rôle Admin ou Editeur dans le projet.
Pour créer ou mettre à jour un profil dans un catalogue, vous devez disposer du rôle Administrateur dans le catalogue ou du rôle Editeur et être un propriétaire d'actif ou un membre d'actif.

Espaces de travail

Vous pouvez afficher le profil d'actif dans les espaces de travail suivants:

Projets
Catalogues

Types d'actifs

Ces types d'actifs ont un profil:

Actifs de données provenant de bases de données relationnelles ou non relationnelles à partir d'une connexion aux sources de données, à l'exception de Cloudant
Actifs de données à partir de fichiers partitionnés, dans lesquels un fichier partitionné est constitué de plusieurs fichiers et est représenté par un dossier unique téléchargé à partir du système de fichiers local ou à partir de connexions basées sur des fichiers aux sources de données
Les ressources de données des fichiers téléchargés à partir du système de fichiers local ou à partir de connexions basées sur des fichiers vers les sources de données, avec ces formats :
- CSV
- XLS, XLSM, XLSX (Seule la première feuille d'un classeur est profilée.)
- TSV
- Avro
- Parquet
Toutefois, les fichiers de données structurées ne sont pas profilés lorsque les actifs de données n'y font pas explicitement référence, comme dans les cas suivants :
- Les fichiers se trouvent dans un actif de dossier connecté. Les fichiers accessibles à partir d'un actif de dossier connecté ne sont pas traités comme des actifs et ne sont pas profilés.
- Les fichiers se trouvent dans un fichier archive, par exemple un fichier .zip. Le fichier archive est référencé par l'actif de données et les fichiers compressés ne sont pas profilés.

Modes de création d'un profil

Les profils d'actif peuvent être créés de différentes manières:

Dans les catalogues gouvernés, les profils des actifs de données individuels sont créés automatiquement lorsque les actifs de données sont ajoutés au catalogue avec les exceptions suivantes:
- Vous avez désactivé le profilage automatique pour le catalogue.
- L'actif provient d'une connexion configurée pour utiliser des données d'identification personnelles.
- L'actif a été profilé via l'enrichissement de métadonnées avant d'être publié. Ces actifs ont déjà un profil ajouté au catalogue avec l'actif.
Dans les projets et dans les catalogues sans application des règles de protection des données, vous pouvez créer manuellement des profils pour des actifs de données individuels. Vous pouvez également créer un profil manuellement dans un catalogue gouverné si l'actif n'a pas été profilé auparavant.
Dans les projets, vous pouvez créer et exécuter un actif d'enrichissement de métadonnées pour profiler de grands ensembles d'actifs de données en une seule fois. Ces profils d'actif sont disponibles dans le projet. Vous pouvez publier les actifs enrichis avec leurs profils dans n'importe quel type de catalogue. Voir Gestion de l'enrichissement des métadonnées.

Dans un compte, les résultats de profilage sont copiés avec l'actif de données lorsque vous publiez un actif d'un projet dans un catalogue ou que vous l'ajoutez d'un catalogue à un projet. Toutefois, si le catalogue et le projet appartiennent à des comptes différents, les profils ne sont pas copiés car l'ensemble des classes de données disponibles peut être différent.

Vous pouvez mettre à jour un profil d'actif individuel à partir de la page Profil de l'actif dans un projet ou un catalogue. Si vous mettez à jour manuellement un profil d'un actif de données inclus dans un enrichissement de métadonnées, les informations de profil et d'analyse sont également reflétées dans les résultats d'enrichissement respectifs. Les profils sont également mis à jour lorsque de nouveaux résultats d'enrichissement sont publiés.

Lorsque vous mettez à jour un profil existant, vous pouvez modifier les classes de données à inclure dans le profil. Si vous excluez une classe de données précédemment affectée à une colonne, le profil mis à jour affiche Classe exclue (du profil) pour la colonne correspondante, sauf si une autre classe de données a été affectée. Vous verrez également Classe exclue (du profil) pour les colonnes dans lesquelles vous n'avez pas accès à la classe de données affectée.

Qu'est-ce qui est analysé lors du profilage?

Si vous créez ou mettez à jour un profil d'actif à partir de la page Profil d'un projet ou d'un catalogue, les colonnes sont analysées.

Lorsqu'un actif unique est profilé dans un projet ou un catalogue, le profil est créé par défaut en fonction des 5 000 premières lignes de données. Si l'actif de données comporte plus de 250 colonnes, le profil est créé en fonction des 1 000 premières lignes de données. Si le profil est créé via l'enrichissement des métadonnées, l'échantillonnage est déterminé par les paramètres d'enrichissement des métadonnées.

Pour identifier la structure et le contenu de vos données et les classer, l'analyse inclut les tâches suivantes:

Calcul des statistiques concernant les données de chaque colonne analysée.
Calcul des types de données pour la répartition des colonnes et des types de données.
Calcule les formats de données pour la répartition des colonnes et des formats.
Classification des données et calcul des candidats de la classe de données pour les colonnes.
Capture des répartitions de fréquences.

Informations de profil

Le profil d'un actif de données affiche des informations sur chaque colonne de l'actif de données.

L'onglet Profil fournit des informations générales et une présentation des résultats d'analyse:

Date de création ou de dernière mise à jour du profil.
Nombre de colonnes et de lignes analysées.
La classe de données déduite pour chaque colonne et le score de confiance pour cette classe de données. Classes de données décrit le contenu des données de la colonne : par exemple, ville, numéro de compte ou numéro de carte de crédit. Les classes de données peuvent être utilisées pour masquer les données ou pour restreindre l'accès aux actifs de données à l'aide de règles de protection des données. Les classes de données s'affichent pour chaque colonne de la page Aperçu de l'actif et sur la page Profil.

Le niveau de fiabilité d'une classe de données est le pourcentage de valeurs non nulles qui correspondent à la classe de données.

Plusieurs classes de données sont des identificateurs plus génériques qui sont détectés et attribués au niveau de la colonne. Ces classes de données sont affectées lorsqu'une classe de données plus spécifique n'a pas pu être identifiée au niveau de la valeur. Les identificateurs génériques ont toujours une fiabilité de 100 % et incluent les classes de données suivantes : code, date, identificateur, indicateur, quantité et texte.
Pourcentage de correspondance, de non-concordance ou de données manquantes pour chaque colonne.
La distribution de fréquences pour toutes les valeurs identifiées dans une colonne.
Statistiques sur les données de chaque colonne, telles que le nombre de valeurs distinctes, le pourcentage de valeurs uniques, le minimum, le maximum ou la moyenne, et parfois l'écart type dans cette colonne. Le nombre de valeurs distinctes indique le nombre de valeurs différentes existant dans les données échantillonnées pour la colonne. Le pourcentage de valeurs uniques indique le pourcentage de valeurs distinctes qui apparaissent une seule fois dans la colonne.

En fonction du format de données d'une colonne, les statistiques varient légèrement. Par exemple, les statistiques d'une colonne de type entier de données ont des valeurs minimale, maximale et moyenne et une valeur d'écart type, tandis que les statistiques d'une colonne de type chaîne de données ont des valeurs de longueur minimale, maximale et moyenne.

Des informations plus détaillées sur les données de colonne sont disponibles lorsque vous cliquez sur le nom de la colonne. Voir Résultats de profilage détaillés.

Le dernier profil d'actif est conservé et affiché lorsque l'actif de données existe dans le catalogue ou dans le projet, même si les données d'origine de la source de données sont temporairement ou définitivement indisponibles. Pour supprimer les informations de profil, vous disposez des options suivantes:

Vous pouvez supprimer manuellement le profil sur la page Profil . Cette option n'est pas disponible si l'actif est soumis à des règles de protection des données.
Vous pouvez supprimer manuellement l'actif de données du projet ou du catalogue.
Si l'actif a été ajouté via l'importation de métadonnées, vous pouvez réexécuter l'importation de métadonnées avec le jeu d'options Supprimer lors de la réimportation approprié.

En savoir plus

Rubrique parent: Types d'actif et propriétés