Se la maggior parte dei valori mancanti si concentra in un numero ristretto di campi, è possibile gestire questi valori a livello di campo anziché a livello di record. Ciò consente inoltre di verificare l'importanza relativa di campi specifici prima di scegliere un approccio per la gestione dei valori mancanti. Se un campo è irrilevante per la modellazione, probabilmente non vale la pena di conservarlo, indipendentemente dal numero di valori mancanti.
Per esempio, è possibile che una società di ricerche di mercato raccolga i dati mediante un questionario generale che include 50 domande. Due domande sono relative all'età e alle opinioni politiche, ovvero informazioni che la maggior parte delle persone preferisce non fornire. In questo caso Age
e Political_persuasion
hanno molti valori mancanti.
Livello di misurazione dei campi
Per stabilire il metodo da utilizzare, è opportuno considerare anche il livello di misurazione dei campi contenenti i valori mancanti.
Campi numerici. Per i tipi di campi numerici, come ad esempio Continuous
, è sempre necessario eliminare qualsiasi valore non numerico prima di creare un modello, poiché molti modelli non funzioneranno se i valori vuoti sono inclusi nei campi numerici.
Campi relativi alla categoria. Per i campi categoriali, come Nominal
e Flag
, la modifica dei valori mancanti non è necessaria, ma aumenta la precisione del modello. Ad esempio, un modello che utilizza il campo Sex
continuerà a funzionare con valori privi di significato, come Y
e Z
, ma la rimozione di tutti i valori diversi da M
e F
aumenterà la precisione del modello.
Screening o rimozione dei campi
I campi con troppi valori mancanti possono essere sottoposti a screening in diversi modi:
- È possibile utilizzare un nodo Esplora per filtrare i campi in base alla qualità
- È possibile utilizzare un nodo Selezione funzioni per escludere i campi con più di una percentuale specificata di valori mancanti e classificare i campi in base all'importanza relativa a un obiettivo specificato
- Invece di rimuovere i campi, è possibile utilizzare il nodo Tipo per impostare il ruolo del campo su Nessuno. In questo modo, i campi verranno mantenuti nel dataset, ma saranno esclusi dai processi di modellazione.