In qualsiasi momento dopo aver aggiunto i dati a Data Refinery, è possibile convalidare i dati. In genere, si desidera eseguire questa operazione in più punti del processo di perfezionamento.
Per convalidare i dati:
Da Data Refinery, selezionare la scheda Profilo .
Esaminare le metriche per ciascuna colonna.
Eseguire le azioni appropriate, come descritto nelle seguenti sezioni, in base a quanto appreso.
Frequenza
La frequenza è il numero di volte in cui si verifica un valore o un valore in un intervallo specificato. Ogni distribuzione di frequenza (barra) mostra il conteggio dei valori univoci in una colonna.
Esaminare la distribuzione della frequenza per individuare le anomalie nei dati. Se si desidera ripulire i dati da tali anomalie, è sufficiente rimuovere i valori.
Per le colonne Numero intero e Data / Ora, è possibile personalizzare il numero di bin (raggruppamenti) che si desidera visualizzare. Nella vista a più colonne predefinita, il valore massimo è 20. Se si espande la riga del grafico della frequenza, il valore massimo è 50.
Statistiche
Le statistiche sono una raccolta di dati quantitativi. Le statistiche per ogni colonna mostrano il minimo, il massimo, la media e il numero di valori univoci in quella colonna.
A seconda del tipo di dati di una colonna, le statistiche per ciascuna colonna varieranno leggermente. Ad esempio, le statistiche per una colonna di tipo di dati intero hanno valori minimi, massimi e medi mentre le statistiche per una colonna di tipo di dati stringa hanno lunghezza minima, lunghezza massima e valori di lunghezza media.
Argomento principale Raffinazione dei dati