Il nodo Discretizzazione consente di creare automaticamente nuovi campi nominali basati sui valori di uno o più campi continui (intervallo numerico). Per esempio, è possibile trasformare un campo continuo relativo al reddito in campo categoriale contenente gruppi di reddito di larghezza equivalente o come deviazioni dalla media. In alternativa, è possibile selezionare un campo "supervisore" categoriale per mantenere la forza dell'associazione originale tra i due campi.
La discretizzazione può essere utile per diversi motivi, fra cui:
- Requisiti degli algoritmi. Alcuni algoritmi, come Naive Bayes e Regressione logistica, richiedono input categoriali.
- Prestazioni. Alcuni algoritmi, come l'algoritmo logistico multinomiale, possono avere migliori performance se viene ridotto il numero dei valori distinti dei campi di input. Per esempio, utilizzare il valore mediano o medio per ogni bin invece dei valori originali.
- Data Privacy. Le informazioni personali riservate quali, per esempio, lo stipendio, possono essere riportate sotto forma di intervalli invece che di cifre effettive, in modo da proteggere la privacy.
Sono disponibili diversi metodi di raccolta. Dopo aver creato i bin per il nuovo campo, è possibile creare un nodo Ricava basato sui punti di divisione.
Utilizzo di un nodo Discretizzazione
Prima di utilizzare un nodo Discretizzazione, valutare se un'altra tecnica potrebbe essere più appropriata per l'attività in corso:
- Per specificare manualmente punti di divisione per le categorie, come specifici intervalli di salario predefiniti, utilizzare un nodo Ricava. Per ulteriori informazioni, vedere Nodo Nuovo campo .
- Per creare nuove categorie per insiemi esistenti, utilizzare un nodo Ricodifica. Per ulteriori informazioni, consultare Ricodifica nodo .
Gestione del valore mancante
Il nodo Discretizzazione gestisce i valori mancanti come segue:
- Vuoti definiti dall'utente. I valori mancanti specificati come valori vuoti vengono inclusi durante la trasformazione. Ad esempio, se viene specificato –99 per indicare un valore vuoto utilizzando il nodo tipologia, tale valore verrà incluso nel processo di raccolta. Per ignorare i vuoti durante la discretizzazione, utilizzare un nodo Riempimento per sostituire i valori vuoti con il valore null di sistema.
- Valori mancanti di sistema ($null$). I valori null vengono ignorati durante la trasformazione di raccolta e rimangono null dopo la trasformazione.
Nella scheda Impostazioni sono incluse le opzioni per le tecniche disponibili. Nella scheda Visualizza sono riportati i punti di divisione stabiliti per i dati eseguiti precedentemente attraverso il nodo.