Validation de vos données dans Data Refinery

À tout moment après avoir ajouté des données à Data Refinery, vous pouvez valider vos données. Généralement, vous allez le faire en plusieurs points dans le processus d'amélioration.

Pour valider vos données :

  1. Dans Data Refinery, cliquez sur l'onglet Profil.

  2. Passez en revue les indicateurs pour chaque colonne.

  3. Prenez les mesures appropriées, comme indiqué dans les sections suivantes, en fonction de ce que vous apprenez.

Fréquence

La fréquence est le nombre de fois qu'une valeur, ou une valeur dans une plage spécifiée, apparaît. Chaque distribution de fréquences (barre) affiche le nombre de valeurs uniques présentes dans une colonne.

Passez en revue la distribution de fréquences pour trouver des anomalies dans vos données. Si vous souhaitez retirer ces anomalies de vos données, il vous suffit de supprimer ces dernières.

Pour les colonnes Entier et Date/Heure, vous pouvez personnaliser le nombre de catégories (regroupements) que vous souhaitez afficher. Dans la vue à plusieurs colonnes par défaut, la valeur maximale est 20. Si vous développez la ligne du graphique de fréquences, la valeur maximale est 50.

Statistiques

Les statistiques sont une collection de données quantitatives. Les statistiques pour chaque colonne affichent le nombre minimal, le nombre maximal, le nombre moyen et le nombre de valeurs uniques présentes dans cette colonne.

Les statistiques pour chacune des colonnes peut légèrement varier en fonction du type de données qu'elle contient. Par exemple, les statistiques d'une colonne de données de type entier contiennent des valeurs minimales, maximales et moyennes tandis que les statistiques d'une colonne de données de type chaîne contiennent des valeurs de longueur minimale, de longueur maximale et de longueur moyenne.

Rubrique parent : Affinage des données