Il modello lineare generalizzato amplia il modello lineare generale in modo che la variabile dipendente venga linearmente correlata ai fattori e alle covariate tramite una funzione di collegamento specifica. Inoltre, il modello consente alla variabile dipendente di avere una distribuzione non normale. Grazie alla formulazione estremamente generale del modello, copre i modelli statistici utilizzati di frequente, quali la regressione lineare per le risposte distribuite normalmente, i modelli logistici per i dati binari, i modelli log-lineari per i dati dei conteggi, i modelli doppi logaritmici complementari per i dati di sopravvivenza censurati per intervallo, oltre a molti altri modelli statistici.
Esempi. Una compagnia di navigazione può utilizzare modelli lineari generalizzati per adattare una regressione di Poisson ai conteggi dei danni relativi a vari tipi di navi costruite in periodi differenti e il modello risultante può aiutare a determinare quali tipi di navi sono più soggetti a subire danni.
Una compagnia di assicurazioni auto può utilizzare modelli lineari generalizzati per adattare una regressione gamma alle richieste di risarcimento danni e il modello risultante può aiutare a determinare i fattori che contribuiscono maggiormente all'ammontare della richiesta.
I ricercatori di medicina possono utilizzare modelli lineari generalizzati per adattare una regressione log-log complementare per i dati di sopravvivenza troncati a intervalli per prevedere la ricorrenza di una condizione medica.
I modelli lineari generalizzati funzionano mediante la creazione di un'equazione che collega i valori dei campi di input ai valori dei campi di output. Una volta generato il modello, è possibile utilizzarlo per stimare i valori per i nuovi dati. Per ciascun record, viene calcolata la probabilità di appartenenza per ciascuna categoria di output possibile. La categoria obiettivo con la maggiore probabilità viene assegnata come valore di output previsto per quel record.
Requisiti. Sono necessari uno o più campi di input ed esattamente un campo obiettivo (che può avere un livello di misurazione Continuous
o Flag
) con due o più categorie. È necessario che i tipi dei campi utilizzati nel modello siano completamente istanziati.
Efficacia. Il modello lineare generalizzato è estremamente flessibile, ma la scelta della struttura del modello non è un processo automatizzato e, pertanto, richiede un grado di familiarità con i propri dati che non è richiesto dagli algoritmi di tipo "black box".