Durante la fase di preparazione dei dati del data mining è in genere opportuno sostituire i valori mancanti.
I valori mancanti sono valori del dataset sconosciuti, non raccolti o
inseriti non correttamente. Di solito, tali valori non sono validi per i relativi campi. Ad esempio, il campo Sex
deve contenere i valori M
e F
. Se si rilevano i valori Y
o Z
nel campo, si può tranquillamente presumere che tali valori non siano validi e che pertanto debbano essere interpretati come spazi vuoti. Allo stesso modo, un valore negativo per il campo Age
è privo di significato e deve essere interpretato anche come uno spazio. Spesso, tali valori palesemente errati vengono inseriti di proposito o i campi vengono lasciati vuoti durante un questionario per indicare una mancata risposta. A volte può essere utile analizzare i valori vuoti in modo più approfondito, per determinare se il rifiuto di fornire una risposta (per esempio relativa alla propria età) possa essere utile per prevedere un risultato specifico.
Alcune tecniche di modellazione consentono di gestire meglio i dati mancanti rispetto ad altre. Ad esempio, il nodo C5.0 e il nodo Apriori si adattano bene ai valori esplicitamente dichiarati come "mancanti" in un nodo Tipo. Altre tecniche non funzionano altrettanto bene con i valori mancanti, richiedono tempi di addestramento maggiori e i modelli risultanti sono meno precisi.
- Valori null o mancanti di sistema. Si tratta di valori non stringa che sono stati lasciati vuoti nel database o nel file di origine e che non sono stati specificamente definiti come "mancanti" in un nodo Importa o Tipo. I valori mancanti di sistema vengono visualizzati come
$null$
. Si noti che le stringhe vuote non vengono considerate null, anche se possono essere considerate null da alcuni database. - Stringhe vuote e spazi vuoti. I valori stringa vuote e spazi vuoti (stringhe prive di caratteri visibili) sono trattati in modo diverso rispetto ai valori null. Nella maggior parte dei casi, le stringhe vuote vengono considerate equivalenti agli spazi vuoti. Per esempio, se si seleziona l'opzione che consente di trattare gli spazi come valori vuoti in un nodo Importazione o Tipo, questa impostazione risulta valida anche per le stringhe vuote.
- Valori vuoti o mancanti definiti dall'utente. Si tratta di valori come
unknown
,99
o–1
esplicitamente definiti in un nodo Importa o Tipo come mancanti. Se lo si desidera, si può anche decidere di considerare i valori null e gli spazi vuoti come valori vuoti: in questo modo è possibile evidenziarli in modo da poter essere elaborati diversamente ed esclusi dalla maggior parte dei calcoli. Per esempio, è possibile utilizzare la funzione@BLANK
per trattare questi valori, insieme ad altri tipi di valori mancanti, come valori vuoti.
Lettura di dati misti. Tenere presente che quando si legge in campi con archiviazione numerica (integer, real, time, timestamp o date), qualsiasi valore non numerico è impostato su null
o system missing
. Questo perché, a differenza di alcune applicazioni, non consente tipi di archiviazione misti all'interno di un campo. Per evitare questo inconveniente, è
necessario che tutti i campi contenenti dati misti siano letti come stringhe, modificando il tipo di
archiviazione nel nodo Importazione o nell'applicazione esterna come necessario.
Lettura di stringhe vuote da Oracle. Durante la lettura o la scrittura in un database Oracle , tenere presente che, a differenza e a differenza della maggior parte degli altri database, Oracle considera e memorizza i valori stringa vuoti come equivalenti ai valori null. Questo significa che gli stessi dati estratti da un database Oracle potrebbero comportarsi in modo diverso rispetto a quando vengono estratti da un file o da un altro database e i dati potrebbero restituire risultati diversi.