Questa esercitazione costruisce un modello di regressione logistica, una tecnica statistica per classificare i record in base ai valori dei campi di input. È analoga alla regressione lineare, ma assume un campo obiettivo categoriale invece che numerico.
Ad esempio, supponiamo che un fornitore di telecomunicazioni abbia segmentato la propria base clienti in base alle modalità di utilizzo del servizio, suddividendo i clienti in quattro gruppi. Se è possibile utilizzare i dati demografici per prevedere l'appartenenza al gruppo è possibile personalizzare le offerte per singoli potenziali clienti.
Prova il tutorial
In questa esercitazione, completerete questi compiti:
Esempio di flusso di modellazione e set di dati
Questa esercitazione utilizza il flusso Classificazione dei clienti delle telecomunicazioni nel progetto di esempio. Il file di dati utilizzato è telco.csv. L'immagine seguente mostra il flusso del modellatore di esempio.
L'immagine seguente mostra il set di dati utilizzato con questo flusso di modellazione.
custcat
ha quattro possibili valori che corrispondono a quattro gruppi di utenti come segue:Valore | Etichetta |
---|---|
1 | Servizio base |
2 | Servizio E |
3 | Servizio Plus |
4 | Sevizio totale |
Poiché l'obiettivo ha più categorie, viene utilizzato un modello multinomiale. Se l'obiettivo è costituito da due categorie distinte, come sì/no, vero/falso, o abbandono/non abbandono, si può invece creare un modello binomiale.
Compito 1: Aprire il progetto di esempio
Il progetto campione contiene diversi set di dati e flussi di modellazione di esempio. Se non si dispone già del progetto di esempio, consultare l'argomento Tutorial per creare il progetto di esempio. Seguite quindi i passaggi seguenti per aprire il progetto campione:
- In Cloud Pak for Data, dal menu di navigazione ', scegliere Progetti > Visualizza tutti i progetti.
- Fare clic su ProgettoSPSS Modeler.
- Fare clic sulla scheda Assets per visualizzare i set di dati e i flussi del modellatore.
Controllare i progressi
L'immagine seguente mostra la scheda Assets del progetto. Ora si è pronti a lavorare con il flusso del modellatore di esempio associato a questa esercitazione.
Task 2: Esaminare i nodi Asset, Tipo e Filtro dei dati
Il flusso del modellatore Classificazione dei clienti delle telecomunicazioni comprende diversi nodi. Seguite i passaggi seguenti per esaminare tre dei nodi:
- Dalla scheda Attività, aprire il flusso del modellatore Classificazione dei clienti delle telecomunicazioni e attendere il caricamento dell'area di disegno.
- Fare doppio clic sul nodo telco.csv Questo nodo è un nodo di risorse dati che punta al file telco.csv nel progetto.
- Esaminare il 'Proprietà del formato del file.
- Facoltativo: Fare clic su Anteprima dati per visualizzare l'intero set di dati.
- Fare doppio clic sul nodo Tipo e fare clic su Leggi valori. Questo nodo specifica le proprietà dei campi, come il livello di misurazione (il tipo di dati che il campo contiene) e il ruolo di ciascun campo come target o input nella modellazione. Assicurarsi che tutti i livelli di misurazione siano impostati correttamente. Ad esempio, la maggior parte dei campi con i valori di
0.0
e1.0
possono essere considerati come indicatori.gender
è più correttamente considerato come un campo con un insieme di due valori, invece che come una bandierina, quindi si lasci il suo valore di misurazione come Nominale. - Impostare il ruolo per il campo
custcat
su Obiettivo. Lasciare impostato il ruolo per tutti gli altri campi su Input. - Fare doppio clic sul nodo Filtro per visualizzarne le proprietà.
- Si noti che questo nodo filtra solo i campi rilevanti: '
region
, 'age
, 'marital
, 'address
, 'income
, 'ed
, 'employ
, 'retire
, 'gender
, 'reside
e 'custcat
). Altri campi sono esclusi da questa analisi.
Controllare i progressi
L'immagine seguente mostra il nodo Filtro. Ora si è pronti a visualizzare il nodo Logistica.
Attività 3: Visualizzazione del nodo Logistica
Seguite questi passaggi per classificare i clienti utilizzando la regressione logistica multinomiale:
- Fare doppio clic sul nodo custcat (Logistica) per visualizzarne le proprietà.
- Nella sezione Impostazioni modello, selezionare la procedura multinomiale.
- Si utilizza un modello binomiale quando il campo target è un campo flag o nominale con due valori discreti.
- Un modello multinomiale viene utilizzato quando il campo target è un campo nominale con più di due valori.
- Selezionare quindi il metodo Stepwise e il tipo di modello Main Effects. Inoltre, selezionare la casella di controllo Includi costante nell'equazione.
- Nella sezione Opzioni esperto, selezionare la modalità esperto.
- Fare clic su Output. Selezionare la tabella Classificazione e fare clic su OK.
Controllare i progressi
L'immagine seguente mostra il nodo Logistica. Ora si è pronti a sfogliare il modello.
Compito 4: Sfogliare il modello
Seguire questi passaggi per sfogliare il modello:
- Passare il mouse sul nodo custcat (Logistica) e fare clic sull'icona Esegui '.
- Nel riquadro Output e modelli, fare clic sul modello custcat per visualizzare i risultati.
È possibile esplorare le informazioni del modello, l'importanza della funzione (predittore) e le informazioni sulle stime dei parametri.
Questi risultati si basano solo sui dati di addestramento. Per valutare la generalizzazione del modello ad altri dati del mondo reale, si può usare un nodo Partition per tenere un sottoinsieme di record a scopo di test e convalida.
Controllare i progressi
Riepilogo
Questo esempio mostra come utilizzare i dati demografici per prevedere i modelli di utilizzo, costruendo un modello di regressione logistica per classificare i record in base ai valori dei campi di input.
Passi successivi
Ora siete pronti per provare altre esercitazioni diSPSS® Modeler.