Chaque profil contient plusieurs niveaux d'informations.
Les informations sont regroupées comme suit:
Lorsque les résultats du profilage avancé sont écrits dans un tableau de sortie, les valeurs sont stockées sous forme de chaînes de caractères, quel que soit le type de données réel. Dans ce cas, l'ordre de tri des chaînes est appliqué lorsque vous triez les classes, les formats ou les types de données.
Statistiques
L'onglet Statistiques fournit un récapitulatif de la structure des données analysées dans une colonne et différents types de visualisation pour ces informations structurelles. Les informations affichées varient selon que la colonne contient des données continues (quantitatives) ou nominales (qualitatives).
Graphiques
En fonction du type de données d'une colonne, vous pouvez choisir entre différents types de visualisation:
Données nominales:
- Graphique à barres
- Graphique des proportions ou des secteurs
- graphique de Pareto
Données continues:
- Histogramme
- Graphique à surfaces
- Graphique à courbes quantile-quantile (Q-Q)
Un graphique de distribution est disponible pour tous les types de données. La table de distribution répertorie généralement au moins les valeurs (ou intervalles) les plus fréquentes dans la colonne et leurs comptages. Le tableau peut contenir d'autres informations, telles que les formats, les types ou les classes de données. Pour afficher les lignes individuelles contenant une certaine valeur, cliquez sur Afficher les lignes.
Les statistiques de distribution pour les valeurs non numériques telles que les valeurs de chaînes de caractères n'afficheront que les 100 premières valeurs distinctes, quel que soit le nombre de valeurs réellement stockées. Pour accéder à toutes les valeurs de la table de sortie, utilisez des requêtes de base de données standard ou la commande .
Dans les graphiques à barres ou les histogrammes, vous avez la possibilité de sélectionner une colonne de fond de page pour voir comment ses valeurs sont distribuées dans chaque valeur de la colonne que vous examinez. Par exemple, si vous avez une colonne avec des produits de boulangerie vendus et que vous sélectionnez une saison de colonne de superposition, vous pouvez voir comment les ventes d'un certain produit de boulangerie diffèrent par saison. Pour la colonne de superposition, vous pouvez effectuer une sélection dans toutes les colonnes de l'actif de données qui contiennent des données nominales.
Récapitulatif
La vignette Récapitulatif fournit des informations générales sur les données de la colonne sélectionnée:
- Type de données de la colonne tel que défini dans la source de données
- Type de données déduit par l'analyse
- Nombre de formats de données différents dans cette colonne
- Format déduit le plus fréquent pour cette colonne
- Classe de données affectée
- Type de mesure de données (
nominal
oucontinuous
) - Nombre de lignes (c'est-à-dire, le nombre de valeurs) qui ont été vérifiées
Statistiques de base
Les statistiques de base fournissent des informations générales sur la distribution et la dispersion des valeurs dans la colonne sélectionnée. En fonction du format de données d'une colonne, les statistiques varient légèrement. Par exemple, les statistiques d'une colonne de données de type entier contiennent des valeurs minimales, maximales et moyennes tandis que les statistiques d'une colonne de données de type chaîne contiennent des valeurs de longueur minimale, de longueur maximale et de longueur moyenne.
Mesure | Descriptif | Affiché pour ce type de données |
---|---|---|
Cardinalité | Pourcentage de valeurs distinctes uniques dans la colonne, y compris les blancs et les valeurs nulles. Elle est calculée en divisant le nombre total de valeurs distinctes dans une colonne par le nombre total de valeurs dans cette colonne. | Continu |
Distinguer | Nombre de valeurs différentes qui existent dans les données échantillonnées pour la colonne. | Continu |
L'entropie | Cette valeur quantifie la quantité d'informations contenues dans la colonne. Plus généralement, l' entropie peut être utilisée pour quantifier les informations dans un événement et une variable aléatoire. Ce montant est estimé non seulement en fonction du nombre de valeurs différentes présentes dans la variable, mais également en fonction du nombre de valeurs inattendues. | Nominal |
Gini | Degré de probabilité qu'un élément spécifique soit incorrectement classé lorsqu'il est choisi au hasard et variation du coefficient de Gini. L'index Gini peut varier de 0 à 1, où 0 indique que tous les éléments appartiennent à une certaine classe ou qu'une seule classe y existe. Un index Gini de 1 indique que tous les éléments sont répartis de manière aléatoire sur différentes classes. La valeur 0.5 indique que les éléments sont répartis uniformément sur certaines classes | Nominal |
Valeur maximale | Valeur la plus élevée d'une variable numérique | Continu |
Moyenne | La moyenne arithmétique, la somme divisée par le nombre de valeurs | Continu |
Médiane | Valeur au-dessus et au-dessous de laquelle se situe la moitié des valeurs. S'il existe un nombre pair de valeurs, la médiane est la moyenne des deux valeurs moyennes lorsqu'elles sont triées. La médiane n'est pas affectée par les valeurs extrêmes | Continu |
Minimum | Plus petite valeur d'une variable numérique | Continu |
Manquant | Nombre de lignes de l'échantillon qui n'ont pas de valeur. | Continu Nominal |
Mode | Valeur la plus fréquente dans la colonne. Si plusieurs valeurs se produisent avec la même fréquence, chacune d'elles est un mode. | Continu Nominal |
Valeurs extrêmes | Nombre de valeurs dans les données de colonne qui sont éloignées de la plupart des autres valeurs de la colonne. | Continu |
Intervalle | Différence entre les valeurs maximale et minimale de la colonne. | Continu |
Somme | Somme ou total des valeurs, dans toutes les colonnes ayant des valeurs. | Continu |
Unique | Nombre de valeurs distinctes qui apparaissent une seule fois dans la colonne en cours. | Continu Nominal |
Valide | Nombre de valeurs considérées comme valides, ce qui signifie que les valeurs de colonne vides ou manquantes sont exclues. | Continu Nominal |
Connaissances avancées
Informations détaillées sur la distribution et la dispersion des valeurs dans la colonne sélectionnée. Ces informations s'affichent uniquement pour les données continues:
Mesure | Descriptif |
---|---|
25e percentile | La valeur en dessous de laquelle 25% et au-dessus de laquelle 75% des valeurs détectées tombent. |
75e percentile | Valeur supérieure à 25% et inférieure à 75% des valeurs détectées. |
Kurtosis | Mesure de l'étendue de la présence de valeurs extrêmes (valeur de détail d'une distribution). L'excès de kurtosis est l'empennage d'une distribution par rapport à une distribution normale. Dans le cas d'une distribution normale, la valeur de la statistique d'aplatissement est égale à zéro. Un
kurtosis positif indique qu'on observe dans les données plus de valeurs extrêmes que dans une
distribution normale. Un kurtosis négatif indique que les données présentent moins de valeurs extrêmes qu'une distribution normale. Les distributions avec kurtosis moyen (extrémités moyennes) sont mesokurtiques. Les distributions avec un faible kurtosis (queues minces) sont platykurtiques. |
Écart standard Erreur | Mesure de la distance de la moyenne de l'échantillon (moyenne) des données par rapport à la moyenne réelle de la population. |
Erreur moyen | Mesure de la dispersion des valeurs autour de la moyenne. Avec un écart type faible, les valeurs sont généralement proches de la moyenne. Avec un écart type élevé, la plage de valeurs est plus large. |
Asymétrie | Mesure de l'asymétrie d'une distribution. Une distribution est asymétrique lorsque ses côtés gauche et droit ne sont pas des images miroir. Une distribution peut avoir une asymétrie à droite (ou positive), à gauche (ou négative) ou à zéro (distribution symétrique). |
Ecart | Mesure de la dispersion des valeurs autour de la moyenne. C'est l'espérance de la déviation au carré d'une variable aléatoire à partir de la moyenne de sa population ou de la moyenne de l'échantillon. |
Classes de données
Les informations suivantes sont affichées pour les affectations de classe de données:
La classe de données sélectionnée, qui est la classe de données affectée à la colonne. Il est identique à la classe de données détectée, sauf si vous l'avez modifiée manuellement.
La classe de données détectée, qui est la meilleure classe de données correspondante pour la colonne détectée par l'analyse.
score de confiance de la classe de données affectée. La confiance d'une classe de données est le pourcentage de valeurs non null qui correspondent à la classe de données. Plusieurs classes de données sont des identificateurs plus génériques qui sont détectés et attribués au niveau de la colonne. Ces classes de données sont affectées lorsqu'une classe de données plus spécifique n'a pas pu être identifiée au niveau de la valeur. Les identificateurs génériques auront toujours un niveau de confiance de 100 % et comprendront les classes de données suivantes : Code, Identificateur, Indicateur, Quantité et Texte
Liste de toutes les classes de données détectées lors de l'analyse par ordre décroissant, avec la meilleure correspondance (niveau de confiance le plus élevé) en haut. Pour chaque classe de données, la cote de confiance et la priorité de la classe de données sont affichées.
Pour chaque classe de données détectée, des informations supplémentaires peuvent être affichées en fonction de la portée de la classe de données.
Pour les classes de données dans lesquelles la correspondance est effectuée en fonction des données de colonne, les valeurs de colonne correspondant aux critères de cette classe de données spécifique sont répertoriées. La colonne Nombre (%) indique le nombre de lignes de l'échantillon qui contiennent une valeur spécifique et le pourcentage de lignes avec cette valeur. En outre, le format de chaque valeur correspondante est affiché.
Pour les classes de données dont la correspondance est basée sur le nom de la colonne et pour les classes de données génériques Code, Identificateur, Indicateur, Quantité et Texte, aucune information supplémentaire n'est affichée. Ces classes de données sont utilisées lorsque les valeurs de données ne permettent pas d'identifier une classe de données spécifique. Les classes de données génériques ont toujours un niveau de fiabilité de 100%.
Pour plus d'informations, voir Classes de données.
Formats
Le format déduit pour la colonne, le nombre de formats détectés et la liste de tous les formats détectés sont affichés.
Un format représente le modèle de caractères d'une valeur de données. Chaque caractère alphabétique est représenté par une majuscule ou une minuscule A, selon la casse du caractère. Chaque caractère numérique est représenté par le chiffre 9. Les espaces et les caractères spéciaux sont affichés tels qu'ils apparaissent.
La liste des formats détectés indique combien de valeurs avec un format spécifique ont été trouvées et le pourcentage global de valeurs avec ce format. Cliquez sur une entrée pour afficher les valeurs qui correspondent au modèle. Notez que seules 100 valeurs sont extraites pour être affichées, de sorte que la liste de valeurs peut ne pas contenir toutes les valeurs ou même être vide.
Types
Les informations suivantes sont affichées:
- Type de données de la colonne tel que défini dans la source de données
- Type de données déduit par l'analyse
- Longueur minimale d'une valeur dans cette colonne
- Longueur maximale d'une valeur dans cette colonne
- Longueur moyenne des valeurs de colonne
- Liste de tous les types de données dans la colonne
Le type de données indique si la colonne contient des données d'un certain type, tel qu'un entier, une chaîne ou un type de date.
Généralement, le type de données optimal d'une colonne est évident car la plupart ou toutes les valeurs de colonne sont du même type de données. Toutefois, lorsque la liste contient plusieurs types de données différents, vérifiez le nombre de fréquences du type de données déduit. Si ce nombre de fréquences est faible par rapport au nombre de lignes de la table, des valeurs de données non valides peuvent induire un type de données incorrect.
En savoir plus
- Profils d'actifs de données
- Classes de données
- IBM Knowledge Catalog API : Filtrer les lignes à partir de la distribution de fréquence
Rubrique parent: Vérification des résultats de l'enrichissement des métadonnées