L'analisi discriminante crea un modello predittivo per l'appartenenza ai gruppi. Il modello è costituito da una funzione discriminante oppure, per più di due gruppi, da un insieme di funzioni discriminanti, in base alle combinazioni lineari delle variabili predittore che forniscono la migliore discriminazione tra i gruppi. Le funzioni vengono generate da un campione di casi di cui è nota l'appartenenza; le funzioni possono in seguito essere applicate ai nuovi casi che hanno misurazioni delle variabili predittore ma la cui appartenenza di gruppo è sconosciuta.
Esempio. Una società di telecomunicazioni può utilizzare l'analisi discriminante per classificare i clienti e suddividerli in gruppi in base ai dati di utilizzo. Ciò consente loro di segnare potenziali clienti e di rivolgersi a coloro che hanno maggiori probabilità di essere nei gruppi più preziosi.
Requisiti. Sono necessari uno o più campi di input ed esattamente un campo obiettivo. L'obiettivo deve essere un campo categoriale (con un livello di misurazione Flag
o Nominal
) con archiviazione stringa o numero intero. Se necessario, l'archiviazione può essere convertita utilizzando un nodo Riempimento o Nuovo campo. I campi impostati su Both
o None
vengono ignorati. È necessario che i tipi dei campi utilizzati nel modello siano completamente istanziati.
Efficacia. Sia l'analisi discriminante sia la regressione logistica sono modelli di classificazione adeguati. Tuttavia, l'analisi discriminante prevede un numero maggiore di presupposti relativi ai campi di input — ad esempio, che siano normalmente distribuiti e continui e che forniscano risultati migliori se tali requisiti sono soddisfatti, specialmente se il campione è di dimensioni ridotte.