Lorsque vous exécutez un profilage avancé sur un actif de données, une distribution de fréquence détaillée est déterminée pour les valeurs distinctes dans chaque colonne de l'actif en fonction des données source.
Lorsque vous configurez les paramètres d'une exécution de profilage avancée, vous pouvez choisir d'écrire tout ou partie des informations de distribution de fréquence dans une table de base de données. Voir Profilage de données avancé. Vous pouvez accéder à cette table en utilisant des requêtes de base de données standard, l'API IBM Knowledge Catalog ou le profil de colonne détaillé. Toutefois, le profil de colonne n'affichera que les 100 premières valeurs distinctes, quel que soit le nombre de valeurs réellement stockées.
Pour chaque valeur distincte, la table contient les informations suivantes:
Nom de colonne | Descriptif |
---|---|
AssetId | ID de l'actif de données dans le projet. |
ChangeDate | Date à laquelle les informations ont été mises à jour. |
ColumnName | Nom de la colonne dans l'actif de données. |
DataClassification | Liste des ID des classes de données affectées à la colonne dans l'actif de données, séparés par une virgule (,). Si aucune classe de données n'est affectée à la colonne, la table affiche U . |
DistinctValue | Valeur de données réelle dans la colonne. La longueur maximale en octets est de 4096 ou 2 048 caractères pour Unicode. Toutes les valeurs sont stockées sous forme de chaînes de caractères, quel que soit le type de données. Ainsi, l'ordre de tri de la chaîne est appliqué lorsque vous triez les valeurs dans le profil de colonne détaillé. |
FrequencyCount | Fréquence à laquelle cette valeur se produit. |
GeneralFormat | Format représentant le modèle de caractères d'une valeur de données. Chaque caractère alphabétique est représenté par une majuscule ou une minuscule A, selon la casse du caractère. Chaque caractère numérique est représenté par le chiffre 9. Les espaces et les caractères spéciaux sont affichés tels qu'ils apparaissent. |
InferredDataType | Type de données déduit, tel qu'un entier, une chaîne ou une date. |
ProjectId | ID du projet dans lequel l'analyse a été exécutée. |
PropertyLength | Longueur d'une zone de chaîne. |
PropertyPrecision | Longueur totale d'une zone numérique. |
PropertyScale | L'échelle d'une valeur numérique correspond à la longueur totale du composant décimal d'une zone numérique. |
Ces colonnes supplémentaires sont réservées à l'usage interne et peuvent être modifiées sans préavis:
- Classe
- ChangedByUser
- DataClassificationStatusFlag
- DomainPattern
- DomainValueFlag
- DomainValueFlagDate
- DomainValueFlaggedByUser
- FieldNumber
- FormatFlag
- FormatFlagDate
- FormatFlaggedByUser
- InvalidReasonCode
- ODBCType
- SourceOfDistinctValue
- TypeCode
- TypeOfDomainValue
En savoir plus
- Profilage de données avancé
- Informations sur le profil au niveau de la colonne
- IBM Knowledge Catalog API : Filtrer les lignes à partir de la distribution de fréquence
Rubrique parent: Vérification des résultats de l'enrichissement des métadonnées