Questa esercitazione costruisce un modello di regressione logistica, una tecnica statistica per classificare i record in base ai valori dei campi di input. È analoga alla regressione lineare, ma utilizza un campo target categorico anziché numerico.
Ad esempio, supponiamo che un fornitore di telecomunicazioni sia preoccupato per il numero di clienti che sta perdendo a favore della concorrenza. Se i dati sull'utilizzo del servizio possono essere utilizzati per prevedere quali clienti sono inclini a passare ad un altro provider, le offerte possono essere personalizzate per conservare quanti più clienti possibile.
Prova il tutorial
In questa esercitazione, completerete questi compiti:
Esempio di flusso di modellazione e set di dati
Questa esercitazione utilizza il flusso Telecommunications Churn nel progetto di esempio. Il file di dati utilizzato è telco.csv. L'immagine seguente mostra il flusso del modellatore di esempio.
Questo esempio concentra l'attenzione sui dati di utilizzo per prevedere la perdita (abbandono) dei clienti. Poiché l'obiettivo ha due distinte categorie viene utilizzato un modello,binomiale. Se l'obiettivo ha più categorie, si può creare un modello multinomiale.
L'immagine seguente mostra il set di dati utilizzato con questo flusso di modellazione.
Compito 1: Aprire il progetto di esempio
Il progetto campione contiene diversi set di dati e flussi di modellazione di esempio. Se non si dispone già del progetto di esempio, consultare l'argomento Tutorial per creare il progetto di esempio. Seguite quindi i passaggi seguenti per aprire il progetto campione:
- In 'watsonx, dal menu di navigazione ', scegliere Progetti > Visualizza tutti i progetti.
- Fare clic su ProgettoSPSS Modeler.
- Fare clic sulla scheda Assets per visualizzare i set di dati e i flussi del modellatore.
Controllare i progressi
L'immagine seguente mostra la scheda Assets del progetto. Ora si è pronti a lavorare con il flusso del modellatore di esempio associato a questa esercitazione.
Compito 2: Esaminare il nodo Asset e Tipo di dati
Il churn delle telecomunicazioni comprende diversi nodi. Seguire i seguenti passaggi per esaminare i nodi 'Asset di dati e 'Tipo:
- Dalla scheda Assets, aprire il flusso Telecommunication Churn modeler e attendere il caricamento dell'area di disegno.
- Fare doppio clic sul nodo telco.csv Questo nodo è un nodo di risorse dati che punta al file telco.csv nel progetto.
- Esaminare il 'Proprietà del formato del file.
- Facoltativo: Fare clic su Anteprima dati per visualizzare l'intero set di dati.
- Fare doppio clic sul nodo Tipo. Questo nodo specifica le proprietà dei campi, come il livello di misurazione (il tipo di dati che il campo contiene) e il ruolo di ciascun campo come target o input nella modellazione. Assicurarsi che tutti i livelli di misurazione siano impostati correttamente. Ad esempio, la maggior parte dei campi con valori di "
0.0
e "1.0
possono essere considerati come flag, ma alcuni campi, come il sesso, sono più accuratamente considerati come un campo nominale con due valori.churn
è impostato come flag con un ruolo di destinazione. Il ruolo per tutti gli altri campi è impostato su Input. - Fare doppio clic sul nodo di modellazione churn (Feature Selection) per visualizzarne le proprietà. È possibile utilizzare un nodo di selezione delle caratteristiche per rimuovere i predittori o i dati che non aggiungono informazioni utili sulla relazione predittori/target.
- Passare il mouse sul nodo churn (Feature Selection) e fare clic sull'icona Run '.
- Nel riquadro Output e modelli, fare clic sul primo modello dell'elenco con il nome churn per visualizzare i dettagli del modello.
Controllare i progressi
L'immagine seguente mostra i dettagli del modello. Ora si è pronti a controllare il nodo Filtro.
Task 3: Controllare il nodo Filtro
Solo alcuni dei dati contenuti nel file telco.csv sono utili per prevedere il churn. È possibile utilizzare il filtro per selezionare solo i dati considerati importanti per l'uso come predittore (i campi contrassegnati come Importanti nel modello generato nell'attività precedente). Seguire questi passaggi per vedere e controllare il nodo Filtro:
- Fare doppio clic sul nodo Caratteristiche importanti (filtro) per visualizzarne le proprietà.
- Si noti che questo nodo filtra solo i campi selezionati: '
tenure
, 'age
, 'address
, 'income
, 'ed
, 'employ
e altri. Altri campi sono esclusi da questa analisi. - Fare clic su Annulla.
- Si noti che questo nodo filtra solo i campi selezionati: '
- Fare doppio clic sul nodo di output 28 Fields (Data Audit) dopo il nodo Filter.
- Passare il mouse sul nodo Data Audit e fare clic sull'icona Esegui '.
- Nel riquadro Output e modelli, fare clic sui risultati con il nome Data Audit per visualizzare l'output.
- Osservare la colonna % di completamento, che può essere utilizzata per identificare i campi con una grande quantità di dati mancanti. In questo caso, il solo campo che è necessario correggere
è
logtoll
, che è completato a meno del 50%. - Chiudere l'uscita.
- Fare doppio clic sul supernodo Imputazione dei valori mancanti.
- Fare clic su Visualizza supernodo.
- Fare doppio clic sul nodo Riempi logtoll (Filler).I nodi di riempimento vengono utilizzati per sostituire i valori dei campi e modificare la memorizzazione. È possibile scegliere di sostituire i valori in base a una condizione CLEM specificata, ad esempio
@BLANK(FIELD)
. In alternativa, si può scegliere di sostituire tutti i valori null o vuoti con un valore specifico. I nodi di riempimento sono spesso usati con il nodo Tipo per sostituire i valori mancanti.Nella sezione Compilare i campi, è possibile specificare i campi del set di dati i cui valori devono essere esaminati e sostituiti. In questo caso, la colonna 'logtoll
è specificata insieme all'opzione Valori vuoti e nulli nella sezione Sostituisci. - Fare clic su Torna al flusso precedente.
Controllare i progressi
L'immagine seguente mostra il flusso. Ora si è pronti a costruire il modello.
Compito 4: costruire il modello
Si costruisce un modello che utilizza il nodo Logistic. Per costruire il modello, procedere come segue:
- Fare doppio clic sul nodo churn (Logistic), dopo il supernodo Missing Value Imputation, per visualizzarne le proprietà.
- Nella sezione Impostazioni del modello, selezionare la procedura binomiale.
- Si utilizza un modello binomiale quando il campo target è un campo flag o nominale con due valori discreti.
- Un modello multinomiale viene utilizzato quando il campo target è un campo nominale con più di due valori.
- Quindi, selezionare il metodo Forwards Stepwise.
- Nella sezione Opzioni esperto, selezionare la modalità esperto.
- Fare clic su Output. Selezionare Ad ogni
stima, Cronologia iterazioni, e Stime parametro
, quindi fare clic su OK.
Controllare i progressi
L'immagine seguente mostra il flusso. Ora si è pronti a generare il modello.
Compito 5: Generare il modello
Seguire i seguenti passaggi per generare un modello di nugget dal nodo Logistic :
- Passare il mouse sul nodo churn (Logistic) e fare clic sull'icona Run '.
- Nel riquadro Output e modelli, fare clic sul modello churn per visualizzare i risultati.
La pagina Variabili nell'equazione mostra l'obiettivo (churn) e gli input (campi predittivi) utilizzati dal modello. Questi campi sono scelti in base al metodo Forwards Stepwise, non all'elenco completo presentato per la considerazione.
Per valutare quanto il modello si adatti ai dati, nelle impostazioni del nodo esperto sono disponibili diverse diagnosi durante la creazione del flusso.
Considerare anche che questi risultati si basano solo sui dati di addestramento. Per valutare la generalizzazione del modello ad altri dati del mondo reale, si usa un nodo Partition per tenere un sottoinsieme di record a scopo di test e convalida.
Controllare i progressi
L'immagine seguente mostra i risultati del modello.
Riepilogo
Questo esempio mostra come utilizzare i dati di utilizzo per prevedere la perdita di clienti (churn) costruendo un modello binomiale, poiché il target ha due categorie distinte.
Passi successivi
Ora siete pronti per provare altre esercitazioni diSPSS® Modeler.