À tout moment après avoir ajouté des données à Data Refinery, vous pouvez valider vos données. Généralement, vous allez le faire en plusieurs points dans le processus d'amélioration.
Pour valider vos données :
Dans Data Refinery, cliquez sur l'onglet Profil.
Passez en revue les indicateurs pour chaque colonne.
Prenez les mesures appropriées, comme indiqué dans les sections suivantes, en fonction de ce que vous apprenez.
Fréquence
La fréquence est le nombre de fois qu'une valeur, ou une valeur dans une plage spécifiée, apparaît. Chaque distribution de fréquences (barre) affiche le nombre de valeurs uniques présentes dans une colonne.
Passez en revue la distribution de fréquences pour trouver des anomalies dans vos données. Si vous souhaitez retirer ces anomalies de vos données, il vous suffit de supprimer ces dernières.
Pour les colonnes Entier et Date/Heure, vous pouvez personnaliser le nombre de catégories (regroupements) que vous souhaitez afficher. Dans la vue à plusieurs colonnes par défaut, la valeur maximale est 20. Si vous développez la ligne du graphique de fréquences, la valeur maximale est 50.
Statistiques
Les statistiques sont une collection de données quantitatives. Les statistiques pour chaque colonne affichent le nombre minimal, le nombre maximal, le nombre moyen et le nombre de valeurs uniques présentes dans cette colonne.
En fonction du type de données d'une colonne, les statistiques de chaque colonne varient légèrement. Par exemple, les statistiques d'une colonne de données de type entier contiennent des valeurs minimales, maximales et moyennes tandis que les statistiques d'une colonne de données de type chaîne contiennent des valeurs de longueur minimale, de longueur maximale et de longueur moyenne.
Rubrique parent : Affinage des données