La regressione logistica, nota anche come regressione nominale, è una tecnica statistica per classificare i record in base ai valori dei campi di input. È analoga alla regressione lineare ma, al posto di un campo numerico, prende un campo obiettivo categoriale. Sono supportati sia i modelli binomiali (per gli obiettivi con due categorie discrete), sia quelli multinomiali (per gli obiettivi con più di due categorie).
La regressione logistica consente di creare un insieme di equazioni che correlano i valori dei campi di input alle probabilità associate a ciascuna categoria del campo di output. Una volta generato il modello, è possibile utilizzarlo per stimare le probabilità per i nuovi dati. Per ciascun record, viene calcolata la probabilità di appartenenza per ciascuna categoria di output possibile. La categoria obiettivo con la maggiore probabilità viene assegnata come valore di output previsto per quel record.
Esempio binomiale. Una società di telecomunicazioni è preoccupata per il numero di clienti che passano alla concorrenza. Con i dati relativi all'utilizzo del servizio è possibile creare un modello binomiale per prevedere quali clienti sono inclini a passare a un altro operatore e personalizzare le offerte in modo da conservare il maggior numero possibile di clienti. Viene utilizzato un modello binomiale perché l'obiettivo ha due categorie distinte (incline a passare alla concorrenza o no).
Esempio multinomiale. Un provider di telecomunicazioni ha segmentato la base clienti per modelli di utilizzo del servizio, suddividendo i clienti in quattro categorie. Utilizzando i dati demografici per prevedere l'appartenenza al gruppo è possibile creare un modello multinomiale per classificare i potenziali clienti in gruppi e quindi personalizzare le offerte per i singoli clienti.
Requisiti. Uno o più campi di input ed esattamente un campo obiettivo categoriale con due o più categorie. Per un modello binomiale l'obiettivo deve avere un livello di misurazione Flag
. Per un modello multinomiale l'obiettivo può avere un livello di misurazione Flag
o Nominal
con due o più categorie. I campi impostati su Both
o None
vengono ignorati. È necessario che i tipi dei campi utilizzati nel modello siano completamente istanziati.
Efficacia. I modelli di regressione logistica spesso sono molto precisi. Sono in grado di gestire campi di input sia simbolici sia numerici e possono fornire le probabilità previste per tutte le categorie obiettivo, consentendo così di identificare facilmente la seconda migliore ipotesi. I modelli logistici sono particolarmente efficaci quando l'appartenenza a un gruppo è un campo veramente categoriale; se l'appartenenza a un gruppo si basa sui valori di un campo intervallo continuo (per esempio QI alto e QI basso), è opportuno valutare l'impiego della regressione lineare per sfruttare la maggiore quantità di informazioni utili offerta dall'intervallo completo di valori. I modelli logistici possono anche eseguire la selezione automatica del campo, sebbene altri approcci, come, ad esempio, i modelli di struttura ad albero o la selezione funzioni, possano effettuare tale operazione più rapidamente sui dataset di grandi dimensioni. Infine, poiché sono di facile comprensione per molti analisti e data miner, i modelli logistici possono essere utilizzati come riferimento con cui confrontare altre tecniche di modellazione.
Quando si elaborano insiemi di dati di grandi dimensioni, per migliorare notevolmente le prestazioni si consiglia di disattivare l'opzione di output avanzato Test rapporto di verosimiglianza.