0 / 0
Retourner à la version anglaise de la documentation
Profils d'actifs
Profils d'actifs

Profils d'actifs

Le profil d'un actif de données inclut des métadonnées générées et des statistiques sur son contenu. Vous pouvez voir le profil sur la page Profil de l'actif dans un catalogue ou dans un projet. Tous les membres de catalogue ou de projet peuvent voir des profils d'actif de données.

Vous devez disposer de Watson Knowledge Catalog pour visualiser un profil lorsque vous affichez un actif de données.

Le contenu du profil dépend du type de données :

Dans un compte, les résultats de profilage sont copiés avec l'actif de données lorsque vous publiez un actif d'un projet vers un catalogue ou que vous l'ajoutez d'un catalogue à un projet. Toutefois, si le catalogue et le projet appartiennent à des comptes différents, les profils des actifs de données structurés ne sont pas copiés car l'ensemble des classes de données disponibles peut être différent. Si vous publiez un actif de données structuré dans un catalogue gouverné, un nouveau profil est automatiquement créé. Si vous publiez un actif de données structurées vers un catalogue non gouverné, vous devrez créer vous-même un nouveau profil.

Données relationnelles et structurées

Le profil d'un actif de données qui contient des données relationnelles ou structurées affiche des informations sur chaque colonne du jeu de données. Lorsqu'un actif unique est profilé dans un projet ou un catalogue, le profil est créé par défaut en fonction des 5 000 premières lignes de données. Si l'actif de données comporte plus de 250 colonnes, le profil est créé en fonction des 1 000 premières lignes de données. Si le profil est créé via l'enrichissement des métadonnées, l'échantillonnage est déterminé par les paramètres d'enrichissement des métadonnées. Lors du profilage, les colonnes et la qualité des données sont analysées.

Le profil montre les informations suivantes :

  • Le score de qualité générale pour l'actif de données et des scores de qualité individuels pour chacune de ses colonnes. Le score de qualité des données de chaque colonne de l'actif de données est calculé d'après les dimensions de qualité. Le score de qualité global pour la totalité de l'actif de données est la moyenne des scores pour toutes les colonnes. Un tiret (-) est affiché dans les profils générés par l'enrichissement des métadonnées sans analyse de la qualité des données.

  • La classe de données déduite pour chaque colonne et le score de confiance pour cette classe de données. Les classes de données décrivent le contenu des données dans la colonne, par exemple la ville, le numéro de compte ou le numéro de carte de crédit. Les classes de données peuvent être utilisées pour masquer les données ou pour restreindre l'accès aux actifs de données à l'aide de règles de protection des données. Les classes de données s'affichent pour chaque colonne de la page Aperçu de l'actif et sur la page Profil.

    Le niveau de fiabilité d'une classe de données est le pourcentage de valeurs non nulles qui correspondent à la classe de données.

    Plusieurs classes de données sont des identificateurs plus génériques qui sont détectés et attribués au niveau de la colonne. Ces classes de données sont affectées lorsqu'une classe de données plus spécifique n'a pas pu être identifiée au niveau de la valeur. Les identificateurs génériques ont toujours une fiabilité de 100 % et incluent les classes de données suivantes : code, date, identificateur, indicateur, quantité et texte.

  • Le pourcentage de données concordantes, non concordantes ou manquantes.

  • La distribution de fréquences pour toutes les valeurs identifiées dans une colonne.

  • Statistiques sur les données de chaque colonne, telles que la valeur minimum, la valeur maximum, la valeur moyenne et le nombre de valeurs uniques dans cette colonne. Les statistiques pour chacune des colonnes peut légèrement varier en fonction du type de données qu'elle contient. Par exemple, les statistiques d'une colonne de données de type entier contiennent des valeurs minimales, maximales et moyennes tandis que les statistiques d'une colonne de données de type chaîne contiennent des valeurs de longueur minimale, de longueur maximale et de longueur moyenne. Une valeur unique est une valeur qui n'apparaît qu'une seule fois dans la colonne.

Ces types de données relationnelles et structurées sont profilés par colonne :

  • Actifs de données des bases de données relationnelles d'une connexion aux sources de données, sauf Cloudant.
  • Actifs de données d'ensembles de données partitionnés, ce type d'ensemble consistant en plusieurs fichiers et étant représenté par un unique dossier remonté du système de fichiers local ou de connexions basées sur des fichiers vers les sources de données.
  • Actifs de données de fichiers remontés du système de fichiers local ou de connexions basées sur des fichiers vers les sources de données, avec les formats suivants :

    • CSV
    • XLS, XLSM, XLSX (seule la première feuille d'un classeur est profilée.)
    • TSV
    • Avro
    • Parquet

    Toutefois, les fichiers de données structurées ne sont pas profilés lorsque les actifs de données n'y font pas explicitement référence, comme dans les cas suivants :

    • Les fichiers se trouvent dans un actif de dossier. Les fichiers accessibles à partir d'un actif de dossier ne sont pas traités comme des actifs et ne sont pas profilés.
    • Les fichiers se trouvent dans un fichier archive. Le fichier archive est référencé par l'actif de données et les fichiers compressés ne sont pas profilés.

Dans les catalogues avec application des règles, les profils des actifs de données structurés sont créés automatiquement lorsque les actifs de données sont ajoutés au catalogue, à moins que les actifs de données ne soient publiés à partir d'un enrichissement de métadonnées. Ces actifs ont déjà un profil ajouté au catalogue avec l'actif. En outre, les actifs d'une connexion configurée pour utiliser des données d'identification personnelles ne sont pas automatiquement profilés.

Dans les projets et dans les catalogues sans application de règle de protection des données, vous pouvez Créer des profils pour les actifs de données structurés individuels manuellement.

Pour profiler de grands ensembles d'actifs de données en une seule opération, créez et exécutez un actif d'enrichissement de métadonnées. Voir Gestion de l'enrichissement des métadonnées.

Données non structurées

Pour un actif de données contenant un document avec des données non structurées, le profil présente des informations qui permettent d'évaluer le risque du contenu : classes de données affectées, statistiques sur les valeurs et métadonnées telles que la langue, la taille du fichier ou le nombre de mots.

Pour le profilage d'actifs de données non structurées, le texte brut est extrait du document et les cinq premiers Mo du texte extrait sont analysés. Lors du profilage, plusieurs motifs (patterns) sont appliqués au contenu extrait du document pour identifier certains types d'informations. Pour détecter de telles informations, il est tenu compte de la structure des informations, du contexte de proximité, de l'intégralité du contenu extrait et de la langue dans laquelle le document est écrit. Les résultats sont alors mappés aux classes de données prédéfinies. Par exemple, si des numéros de compte bancaire sont détectés, la classe de données IBAN sera affectée au document. Si le document contient des noms de villes, la classe de données city lui sera affectée.

Il faut cependant garder à l'esprit qu'une logique de détection appliquée à des données non structurées ne peut jamais être exacte à 100 % et qu'il en résultera nécessairement des classifications erronées.

Les classes de données affectées ne peuvent pas servir à bloquer l'accès ou à masquer les données dans des actifs de données non structurées avec des stratégies.

Des documents d'une taille pouvant atteindre 100 Mo peuvent être profilés. Les documents dépassant cette taille ne sont pas profilés.

Ces types de documents peuvent être profilés :

  • Documents Microsoft Word avec les types MIME suivants :
    • application/msword
    • application/vnd.openxmlformats-officedocument.wordprocessingml.document
  • Documents PDF avec le type MIME application/pdf
  • Documents en texte brut avec le type MIME text/plain
  • Documents HTML avec le type MIME text/html

Les profils des actifs de données non structurées sont toujours créés automatiquement. En revanche, les actifs de données proprement dits doivent être remontés directement vers le projet ou le catalogue. Les documents non structurés qui sont ajoutés en tant qu'actifs connectés ne sont pas profilés.

En savoir plus

Rubrique parent : Recherche et affichage d'un actif dans un catalogue