Informations de profil de niveau colonne

Dernière mise à jour : 13 déc. 2024

Chaque profil contient plusieurs niveaux d'informations.

Les informations sont regroupées comme suit:

Statistiques
Classes de données
Formats
types

Lorsque les résultats du profilage avancé sont écrits dans un tableau de sortie, les valeurs sont stockées sous forme de chaînes de caractères, quel que soit le type de données réel. Dans ce cas, l'ordre de tri des chaînes est appliqué lorsque vous triez les classes, les formats ou les types de données.

Statistiques

L'onglet Statistiques fournit un récapitulatif de la structure des données analysées dans une colonne et différents types de visualisation pour ces informations structurelles. Les informations affichées varient selon que la colonne contient des données continues (quantitatives) ou nominales (qualitatives).

Graphiques

En fonction du type de données d'une colonne, vous pouvez choisir entre différents types de visualisation:

Données nominales:
- Graphique à barres
- Graphique des proportions ou des secteurs
- graphique de Pareto
Données continues:
- Histogramme
- Graphique à surfaces
- Graphique à courbes quantile-quantile (Q-Q)

Un graphique de distribution est disponible pour tous les types de données. La table de distribution répertorie généralement au moins les valeurs (ou intervalles) les plus fréquentes dans la colonne et leurs comptages. Le tableau peut contenir d'autres informations, telles que les formats, les types ou les classes de données. Pour afficher les lignes individuelles contenant une certaine valeur, cliquez sur Afficher les lignes.

Les statistiques de distribution pour les valeurs non numériques telles que les valeurs de chaînes de caractères n'afficheront que les 100 premières valeurs distinctes, quel que soit le nombre de valeurs réellement stockées. Pour accéder à toutes les valeurs de la table de sortie, utilisez des requêtes de base de données standard ou la commande .

Dans les graphiques à barres ou les histogrammes, vous avez la possibilité de sélectionner une colonne de fond de page pour voir comment ses valeurs sont distribuées dans chaque valeur de la colonne que vous examinez. Par exemple, si vous avez une colonne avec des produits de boulangerie vendus et que vous sélectionnez une saison de colonne de superposition, vous pouvez voir comment les ventes d'un certain produit de boulangerie diffèrent par saison. Pour la colonne de superposition, vous pouvez effectuer une sélection dans toutes les colonnes de l'actif de données qui contiennent des données nominales.

Récapitulatif

La vignette Récapitulatif fournit des informations générales sur les données de la colonne sélectionnée:

Type de données de la colonne tel que défini dans la source de données
Type de données déduit par l'analyse
Nombre de formats de données différents dans cette colonne
Format déduit le plus fréquent pour cette colonne
Classe de données affectée
Type de mesure de données (nominal ou continuous)
Nombre de lignes (c'est-à-dire, le nombre de valeurs) qui ont été vérifiées

Statistiques de base

Les statistiques de base fournissent des informations générales sur la distribution et la dispersion des valeurs dans la colonne sélectionnée. En fonction du format de données d'une colonne, les statistiques varient légèrement. Par exemple, les statistiques d'une colonne de données de type entier contiennent des valeurs minimales, maximales et moyennes tandis que les statistiques d'une colonne de données de type chaîne contiennent des valeurs de longueur minimale, de longueur maximale et de longueur moyenne.

Mesure	Descriptif	Affiché pour ce type de données
Cardinalité	Pourcentage de valeurs distinctes uniques dans la colonne, y compris les blancs et les valeurs nulles. Elle est calculée en divisant le nombre total de valeurs distinctes dans une colonne par le nombre total de valeurs dans cette colonne.	Continu
Distinguer	Nombre de valeurs différentes qui existent dans les données échantillonnées pour la colonne.	Continu
L'entropie	Cette valeur quantifie la quantité d'informations contenues dans la colonne. Plus généralement, l' entropie peut être utilisée pour quantifier les informations dans un événement et une variable aléatoire. Ce montant est estimé non seulement en fonction du nombre de valeurs différentes présentes dans la variable, mais également en fonction du nombre de valeurs inattendues.	Nominal
Gini	Degré de probabilité qu'un élément spécifique soit incorrectement classé lorsqu'il est choisi au hasard et variation du coefficient de Gini. L'index Gini peut varier de 0 à 1, où 0 indique que tous les éléments appartiennent à une certaine classe ou qu'une seule classe y existe. Un index Gini de 1 indique que tous les éléments sont répartis de manière aléatoire sur différentes classes. La valeur 0.5 indique que les éléments sont répartis uniformément sur certaines classes	Nominal
Valeur maximale	Valeur la plus élevée d'une variable numérique	Continu
Moyenne	La moyenne arithmétique, la somme divisée par le nombre de valeurs	Continu
Médiane	Valeur au-dessus et au-dessous de laquelle se situe la moitié des valeurs. S'il existe un nombre pair de valeurs, la médiane est la moyenne des deux valeurs moyennes lorsqu'elles sont triées. La médiane n'est pas affectée par les valeurs extrêmes	Continu
Minimum	Plus petite valeur d'une variable numérique	Continu
Manquant	Nombre de lignes de l'échantillon qui n'ont pas de valeur.	Continu Nominal
Mode	Valeur la plus fréquente dans la colonne. Si plusieurs valeurs se produisent avec la même fréquence, chacune d'elles est un mode.	Continu Nominal
Valeurs extrêmes	Nombre de valeurs dans les données de colonne qui sont éloignées de la plupart des autres valeurs de la colonne.	Continu
Intervalle	Différence entre les valeurs maximale et minimale de la colonne.	Continu
Somme	Somme ou total des valeurs, dans toutes les colonnes ayant des valeurs.	Continu
Unique	Nombre de valeurs distinctes qui apparaissent une seule fois dans la colonne en cours.	Continu Nominal
Valide	Nombre de valeurs considérées comme valides, ce qui signifie que les valeurs de colonne vides ou manquantes sont exclues.	Continu Nominal

Connaissances avancées

Informations détaillées sur la distribution et la dispersion des valeurs dans la colonne sélectionnée. Ces informations s'affichent uniquement pour les données continues:

Mesure	Descriptif
25e percentile	La valeur en dessous de laquelle 25% et au-dessus de laquelle 75% des valeurs détectées tombent.
75e percentile	Valeur supérieure à 25% et inférieure à 75% des valeurs détectées.
Kurtosis	Mesure de l'étendue de la présence de valeurs extrêmes (valeur de détail d'une distribution). L'excès de kurtosis est l'empennage d'une distribution par rapport à une distribution normale. Dans le cas d'une distribution normale, la valeur de la statistique d'aplatissement est égale à zéro. Un kurtosis positif indique qu'on observe dans les données plus de valeurs extrêmes que dans une distribution normale. Un kurtosis négatif indique que les données présentent moins de valeurs extrêmes qu'une distribution normale. Les distributions avec kurtosis moyen (extrémités moyennes) sont mesokurtiques. Les distributions avec un faible kurtosis (queues minces) sont platykurtiques.
Écart standard Erreur	Mesure de la distance de la moyenne de l'échantillon (moyenne) des données par rapport à la moyenne réelle de la population.
Erreur moyen	Mesure de la dispersion des valeurs autour de la moyenne. Avec un écart type faible, les valeurs sont généralement proches de la moyenne. Avec un écart type élevé, la plage de valeurs est plus large.
Asymétrie	Mesure de l'asymétrie d'une distribution. Une distribution est asymétrique lorsque ses côtés gauche et droit ne sont pas des images miroir. Une distribution peut avoir une asymétrie à droite (ou positive), à gauche (ou négative) ou à zéro (distribution symétrique).
Ecart	Mesure de la dispersion des valeurs autour de la moyenne. C'est l'espérance de la déviation au carré d'une variable aléatoire à partir de la moyenne de sa population ou de la moyenne de l'échantillon.

Classes de données

Les informations suivantes sont affichées pour les affectations de classe de données:

La classe de données sélectionnée, qui est la classe de données affectée à la colonne. Il est identique à la classe de données détectée, sauf si vous l'avez modifiée manuellement.
La classe de données détectée, qui est la meilleure classe de données correspondante pour la colonne détectée par l'analyse.
score de confiance de la classe de données affectée. La confiance d'une classe de données est le pourcentage de valeurs non null qui correspondent à la classe de données. Plusieurs classes de données sont des identificateurs plus génériques qui sont détectés et attribués au niveau de la colonne. Ces classes de données sont affectées lorsqu'une classe de données plus spécifique n'a pas pu être identifiée au niveau de la valeur. Les identificateurs génériques auront toujours un niveau de confiance de 100 % et comprendront les classes de données suivantes : Code, Identificateur, Indicateur, Quantité et Texte
Liste de toutes les classes de données détectées lors de l'analyse par ordre décroissant, avec la meilleure correspondance (niveau de confiance le plus élevé) en haut. Pour chaque classe de données, la cote de confiance et la priorité de la classe de données sont affichées.
Pour chaque classe de données détectée, des informations supplémentaires peuvent être affichées en fonction de la portée de la classe de données.

Pour les classes de données dans lesquelles la correspondance est effectuée en fonction des données de colonne, les valeurs de colonne correspondant aux critères de cette classe de données spécifique sont répertoriées. La colonne Nombre (%) indique le nombre de lignes de l'échantillon qui contiennent une valeur spécifique et le pourcentage de lignes avec cette valeur. En outre, le format de chaque valeur correspondante est affiché.

Pour les classes de données dont la correspondance est basée sur le nom de la colonne et pour les classes de données génériques Code, Identificateur, Indicateur, Quantité et Texte, aucune information supplémentaire n'est affichée. Ces classes de données sont utilisées lorsque les valeurs de données ne permettent pas d'identifier une classe de données spécifique. Les classes de données génériques ont toujours un niveau de fiabilité de 100%.

Pour plus d'informations, voir Classes de données.

Formats

Le format déduit pour la colonne, le nombre de formats détectés et la liste de tous les formats détectés sont affichés.

Un format représente le modèle de caractères d'une valeur de données. Chaque caractère alphabétique est représenté par une majuscule ou une minuscule A, selon la casse du caractère. Chaque caractère numérique est représenté par le chiffre 9. Les espaces et les caractères spéciaux sont affichés tels qu'ils apparaissent.

La liste des formats détectés indique combien de valeurs avec un format spécifique ont été trouvées et le pourcentage global de valeurs avec ce format. Cliquez sur une entrée pour afficher les valeurs qui correspondent au modèle. Notez que seules 100 valeurs sont extraites pour être affichées, de sorte que la liste de valeurs peut ne pas contenir toutes les valeurs ou même être vide.

Types

Les informations suivantes sont affichées:

Type de données de la colonne tel que défini dans la source de données
Type de données déduit par l'analyse
Longueur minimale d'une valeur dans cette colonne
Longueur maximale d'une valeur dans cette colonne
Longueur moyenne des valeurs de colonne
Liste de tous les types de données dans la colonne

Le type de données indique si la colonne contient des données d'un certain type, tel qu'un entier, une chaîne ou un type de date.

Généralement, le type de données optimal d'une colonne est évident car la plupart ou toutes les valeurs de colonne sont du même type de données. Toutefois, lorsque la liste contient plusieurs types de données différents, vérifiez le nombre de fréquences du type de données déduit. Si ce nombre de fréquences est faible par rapport au nombre de lignes de la table, des valeurs de données non valides peuvent induire un type de données incorrect.