Profils des actifs de données
Un profil d'actif inclut des métadonnées et des statistiques générées sur le contenu de l'actif et vous aide à comprendre les actions à entreprendre pour améliorer la qualité des données. Vous pouvez voir le profil sur la page Profil d'un actif.
Des profils peuvent être créés pour les actifs de données qui contiennent des données relationnelles ou structurées.
- Exigences et restrictions
- Modes de création d'un profil
- Qu'est-ce qui est analysé lors du profilage?
- Informations de profil
Exigences et restrictions
Vous pouvez afficher le profil des actifs dans les circonstances suivantes.
- Service requis
- Service Watson Knowledge Catalog .
- Droits requis
- Pour afficher cette page, vous pouvez avoir n'importe quel rôle dans un projet ou un catalogue.
- Pour créer ou mettre à jour un profil ou pour exécuter un enrichissement de métadonnées dans un projet, vous devez disposer du rôle Admin ou Editeur dans le projet.
- Pour créer ou mettre à jour un profil dans un catalogue, vous devez disposer du rôle Administrateur dans le catalogue ou du rôle Editeur et être un propriétaire d'actif ou un membre d'actif.
- Espaces de travail
- Vous pouvez afficher le profil d'actif dans les espaces de travail suivants:
- Projets
- Catalogues
- Types d'actifs
- Ces types d'actifs ont un profil:
Actifs de données provenant de bases de données relationnelles ou non relationnelles à partir d'une connexion aux sources de données, à l'exception de Cloudant
Actifs de données à partir de fichiers partitionnés, dans lesquels un fichier partitionné est constitué de plusieurs fichiers et est représenté par un dossier unique téléchargé à partir du système de fichiers local ou à partir de connexions basées sur des fichiers aux sources de données
Les ressources de données des fichiers téléchargés à partir du système de fichiers local ou à partir de connexions basées sur des fichiers vers les sources de données, avec ces formats :
- CSV
- XLS, XLSM, XLSX (Seule la première feuille d'un classeur est profilée.)
- TSV
- Avro
- Parquet
Toutefois, les fichiers de données structurées ne sont pas profilés lorsque les actifs de données n'y font pas explicitement référence, comme dans les cas suivants :
- Les fichiers se trouvent dans un actif de dossier connecté. Les fichiers accessibles à partir d'un actif de dossier connecté ne sont pas traités comme des actifs et ne sont pas profilés.
- Les fichiers se trouvent dans un fichier archive. Le fichier archive est référencé par l'actif de données et les fichiers compressés ne sont pas profilés.
Actifs de données contenant des documents avec des données non structurées. Des documents d'une taille pouvant atteindre 100 Mo peuvent être profilés. Les documents dépassant cette taille ne sont pas profilés. Ces types de documents peuvent être profilés :
- Documents Microsoft Word avec les types MIME suivants :
- application/msword
- application/vnd.openxmlformats-officedocument.wordprocessingml.document
- Documents PDF avec le type MIME application/pdf
- Documents en texte brut avec le type MIME text/plain
- Documents HTML avec le type MIME text/html
- Documents Microsoft Word avec les types MIME suivants :
Modes de création d'un profil
Les profils des actifs de données avec des données relationnelles et structurées et les profils des actifs de données avec des données non structurées sont créés différemment.
Données relationnelles et structurées
Les profils des actifs de données qui contiennent des données structurées ou relationnelles peuvent être créés de différentes manières:
Dans les catalogues gouvernés, les profils des actifs de données individuels sont créés automatiquement lorsque les actifs de données sont ajoutés au catalogue avec les exceptions suivantes:
- Vous avez désactivé le profilage automatique pour le catalogue.
- L'actif provient d'une connexion configurée pour utiliser des données d'identification personnelles.
- L'actif a été profilé via l'enrichissement de métadonnées avant d'être publié. Ces actifs ont déjà un profil ajouté au catalogue avec l'actif.
Dans les projets et dans les catalogues sans application des règles de protection des données, vous pouvez créer manuellement des profils pour des actifs de données individuels. Vous pouvez également créer un profil manuellement dans un catalogue gouverné si l'actif n'a pas été profilé auparavant.
Dans les projets, vous pouvez créer et exécuter un actif d'enrichissement de métadonnées pour profiler de grands ensembles d'actifs de données en une seule fois. Ces profils d'actif sont disponibles dans le projet. Vous pouvez publier les actifs enrichis avec leurs profils dans n'importe quel type de catalogue. Voir Gestion de l'enrichissement des métadonnées.
Dans un compte, les résultats de profilage sont copiés avec l'actif de données lorsque vous publiez un actif d'un projet dans un catalogue ou que vous l'ajoutez d'un catalogue à un projet. Toutefois, si le catalogue et le projet appartiennent à des comptes différents, les profils ne sont pas copiés car l'ensemble des classes de données disponibles peut être différent.
Vous pouvez mettre à jour un profil d'actif individuel à partir de la page Profil de l'actif dans un projet ou un catalogue. Si vous mettez à jour manuellement un profil d'un actif de données inclus dans un enrichissement de métadonnées, les informations de profil et d'analyse sont également reflétées dans les résultats d'enrichissement respectifs. Les profils sont également mis à jour lorsque de nouveaux résultats d'enrichissement sont publiés.
Lorsque vous mettez à jour un profil existant, vous pouvez modifier les classes de données à inclure dans le profil. Si vous excluez une classe de données précédemment affectée à une colonne, le profil mis à jour affiche Classe exclue (du profil) pour la colonne correspondante, sauf si une autre classe de données a été affectée. Vous verrez également Classe exclue (du profil) pour les colonnes dans lesquelles vous n'avez pas accès à la classe de données affectée.
Données non structurées
Les profils des actifs de données non structurées sont toujours créés automatiquement. En revanche, les actifs de données proprement dits doivent être remontés directement vers le projet ou le catalogue. Les documents non structurés qui sont ajoutés en tant qu'actifs connectés ne sont pas profilés.
Qu'est-ce qui est analysé lors du profilage?
L'analyse des actifs de données avec des données relationnelles et structurées et des profils d'actifs de données avec des données non structurées est effectuée différemment.
Données relationnelles et structurées
Si vous créez ou mettez à jour un profil pour un actif de données avec des données structurées ou relationnelles à partir de la page Profil d'un projet ou d'un catalogue, les colonnes sont analysées.
Lorsqu'un actif unique est profilé dans un projet ou un catalogue, le profil est créé par défaut en fonction des 5 000 premières lignes de données. Si l'actif de données comporte plus de 250 colonnes, le profil est créé en fonction des 1 000 premières lignes de données. Si le profil est créé via l'enrichissement des métadonnées, l'échantillonnage est déterminé par les paramètres d'enrichissement des métadonnées.
Pour identifier la structure et le contenu de vos données et les classer, l'analyse inclut les tâches suivantes:
- Calcul des statistiques concernant les données de chaque colonne analysée.
- Calcul des types de données pour la répartition des colonnes et des types de données.
- Calcule les formats de données pour la répartition des colonnes et des formats.
- Classification des données et calcul des candidats de la classe de données pour les colonnes.
- Capture des répartitions de fréquences.
Données non structurées
Pour le profilage d'actifs de données non structurées, le texte brut est extrait du document et les cinq premiers Mo du texte extrait sont analysés. Lors du profilage, plusieurs motifs (patterns) sont appliqués au contenu extrait du document pour identifier certains types d'informations. Pour détecter de telles informations, il est tenu compte de la structure des informations, du contexte de proximité, de l'intégralité du contenu extrait et de la langue dans laquelle le document est écrit. Les résultats sont ensuite mappés sur Classes de données prédéfinies. Par exemple, si des numéros de compte bancaire sont détectés, la classe de données IBAN sera affectée au document. Si le document contient des noms de villes, la classe de données city lui sera affectée.
Il faut cependant garder à l'esprit qu'une logique de détection appliquée à des données non structurées ne peut jamais être exacte à 100 % et qu'il en résultera nécessairement des classifications erronées.
Les classes de données affectées ne peuvent pas servir à bloquer l'accès ou à masquer les données dans des actifs de données non structurées avec des stratégies.
Informations de profil
Le contenu du profil varie selon que l'actif de données contient des données relationnelles ou structurées ou des données non structurées.
Données relationnelles et structurées
Le profil d'un actif de données qui contient des données relationnelles ou structurées affiche des informations sur chaque colonne du jeu de données.
L'onglet Profil fournit des informations générales et une présentation des résultats d'analyse:
Date de création ou de dernière mise à jour du profil.
Nombre de colonnes et de lignes analysées.
La classe de données déduite pour chaque colonne et le score de confiance pour cette classe de données. Classes de données décrit le contenu des données de la colonne : par exemple, ville, numéro de compte ou numéro de carte de crédit. Les classes de données peuvent être utilisées pour masquer les données ou pour restreindre l'accès aux actifs de données à l'aide de règles de protection des données. Les classes de données s'affichent pour chaque colonne de la page Aperçu de l'actif et sur la page Profil.
Le niveau de fiabilité d'une classe de données est le pourcentage de valeurs non nulles qui correspondent à la classe de données.
Plusieurs classes de données sont des identificateurs plus génériques qui sont détectés et attribués au niveau de la colonne. Ces classes de données sont affectées lorsqu'une classe de données plus spécifique n'a pas pu être identifiée au niveau de la valeur. Les identificateurs génériques ont toujours une fiabilité de 100 % et incluent les classes de données suivantes : code, date, identificateur, indicateur, quantité et texte.
Pourcentage de correspondance, de non-concordance ou de données manquantes pour chaque colonne.
La distribution de fréquences pour toutes les valeurs identifiées dans une colonne.
Statistiques sur les données de chaque colonne, telles que le nombre de valeurs distinctes, le pourcentage de valeurs uniques, le minimum, le maximum ou la moyenne, et parfois l'écart type dans cette colonne. Le nombre de valeurs distinctes indique le nombre de valeurs différentes existant dans les données échantillonnées pour la colonne. Le pourcentage de valeurs uniques indique le pourcentage de valeurs distinctes qui apparaissent une seule fois dans la colonne.
En fonction du format de données d'une colonne, les statistiques varient légèrement. Par exemple, les statistiques d'une colonne de type entier de données ont des valeurs minimale, maximale et moyenne et une valeur d'écart type, tandis que les statistiques d'une colonne de type chaîne de données ont des valeurs de longueur minimale, maximale et moyenne.
Des informations plus détaillées sur les données de colonne sont disponibles lorsque vous cliquez sur le nom de la colonne. Voir Résultats de profilage détaillés.
Données non structurées
Pour un actif de données contenant un document avec des données non structurées, le profil présente des informations qui permettent d'évaluer le risque du contenu : classes de données affectées, statistiques sur les valeurs et métadonnées telles que la langue, la taille du fichier ou le nombre de mots.
En savoir plus
- Profilage d'un actif
- Gestion de l'enrichissement des métadonnées
- Classes de données prédéfinies
- Résultats de profilage détaillés
- Masquage des données
Rubrique parent: Types d'actif et propriétés