Validation de vos données dans Data Refinery
À tout moment après avoir ajouté des données à Data Refinery, vous pouvez valider vos données. Généralement, vous allez le faire en plusieurs points dans le processus d'amélioration.
Pour valider vos données :
Dans Data Refinery, cliquez sur l'onglet Profil.
Passez en revue les indicateurs pour chaque colonne.
Prenez les mesures appropriées, comme indiqué dans les sections suivantes, en fonction de ce que vous apprenez.
Fréquence
La fréquence est le nombre de fois qu'une valeur, ou une valeur dans une plage spécifiée, apparaît. Chaque distribution de fréquences (barre) affiche le nombre de valeurs uniques présentes dans une colonne.
Passez en revue la distribution de fréquences pour trouver des anomalies dans vos données. Si vous souhaitez retirer ces anomalies de vos données, il vous suffit de supprimer ces dernières.
Pour les colonnes Entier et Date/Heure, vous pouvez personnaliser le nombre de catégories (regroupements) que vous souhaitez afficher. Dans la vue à plusieurs colonnes par défaut, la valeur maximale est 20. Si vous développez la ligne du graphique de fréquences, la valeur maximale est 50.
Statistiques
Les statistiques sont une collection de données quantitatives. Les statistiques pour chaque colonne affichent la valeur minimum, la valeur maximum, la valeur moyenne et le nombre de valeurs uniques présentes dans cette colonne.
En fonction du type de données d'une colonne, les statistiques de chaque colonne varient légèrement. Par exemple, les statistiques d'une colonne de données du type entier comprendront une valeur minimum, une valeur maximum et une valeur moyenne, tandis que celles d'une colonne de données du type chaîne seront des statistiques de longueur (longueur minimum, longueur maximum et longueur moyenne).
Rubrique parent : Affinage des données