Questa esercitazione costruisce un modello di regressione logistica, una tecnica statistica per classificare i record in base ai valori dei campi di input. È analoga alla regressione lineare, ma assume un campo obiettivo categoriale invece che numerico.
Ad esempio, supponiamo che un fornitore di servizi di telecomunicazione abbia segmentato la propria base clienti in base ai modelli di utilizzo del servizio, suddividendo i clienti in quattro gruppi. Se è possibile utilizzare i dati demografici per prevedere l'appartenenza al gruppo
è possibile personalizzare le offerte per singoli potenziali clienti.
Anteprima del tutorial
Copy link to section
Guardate questo video per vedere in anteprima i passaggi di questa esercitazione. L'interfaccia utente mostrata nel video potrebbe presentare lievi differenze. Il video è destinato ad accompagnare l'esercitazione scritta. Questo video fornisce un metodo visivo per apprendere i concetti e le attività di questa documentazione.
Prova il tutorial
Copy link to section
In questa esercitazione, completerete questi compiti:
Questa esercitazione utilizza il flusso Classificazione dei clienti delle telecomunicazioni nel progetto di esempio. Il file di dati utilizzato è telco.csv. L'immagine seguente mostra il flusso del modellatore di esempio.
Figura 1. Flusso del modellatore di campioni
L'immagine seguente mostra il set di dati utilizzato con questo flusso di modellazione.
Figura 2. Dataset di esempio
L'esempio focalizza l'attenzione sull'utilizzo dei dati demografici per prevedere i pattern di utilizzo. Il campo obiettivo
custcat ha quattro possibili valori che corrispondono a quattro gruppi di utenti come segue:
Tabella 1. Valori possibili per il campo obiettivo
Valore
Etichetta
1
Servizio base
2
Servizio E
3
Servizio Plus
4
Sevizio totale
Poiché l'obiettivo ha più categorie, viene utilizzato un modello multinomiale. Se l'obiettivo è costituito da due categorie distinte, come sì/no, vero/falso, o abbandono/non abbandono, si può creare un modello binomiale.
Compito 1: Aprire il progetto di esempio
Copy link to section
Il progetto campione contiene diversi set di dati e flussi di modellazione di esempio. Se non si dispone già del progetto di esempio, consultare l'argomento Tutorial per creare il progetto di esempio. Seguite quindi i passaggi seguenti per aprire il progetto campione:
In watsonx, dal menu di navigazione, scegliete Progetti > Visualizza tutti i progetti.
Fare clic su ProgettoSPSS Modeler.
Fare clic sulla scheda Assets per visualizzare i set di dati e i flussi del modellatore.
Controlla i tuoi progressi
L'immagine seguente mostra la scheda Assets del progetto. Ora si è pronti a lavorare con il flusso del modellatore di esempio associato a questa esercitazione.
Task 2: Esaminare i nodi Asset, Tipo e Filtro dei dati
Copy link to section
Il flusso del modellatore Classificazione dei clienti delle telecomunicazioni comprende diversi nodi. Seguite i passaggi seguenti per esaminare tre dei nodi:
Dalla scheda Attività, aprire il flusso del modellatore Classificazione dei clienti delle telecomunicazioni e attendere il caricamento dell'area di disegno.
Fare doppio clic sul nodo telco.csv Questo nodo è un nodo di risorse dati che punta al file telco.csv nel progetto.
Esaminare il 'Proprietà del formato del file.
Facoltativo: Fare clic su Anteprima dati per visualizzare l'intero set di dati.
Fare doppio clic sul nodo Tipo e fare clic su Leggi valori. Questo nodo specifica le proprietà dei campi, come il livello di misurazione (il tipo di dati che il campo contiene) e il ruolo di ciascun campo come target o input nella modellazione. Assicurarsi che tutti i livelli di misurazione siano impostati correttamente. Ad esempio, la maggior parte dei campi con i valori di
0.0 e 1.0 possono essere considerati come indicatori.
Figura 3 Livelli di misurazione
Si noti che 'gender è più correttamente considerato come un campo con un insieme di due valori, invece che come una bandierina, quindi si lasci il suo valore di misurazione come Nominale.
Impostare il ruolo per il campo custcat su Obiettivo. Lasciare impostato il ruolo per tutti gli altri campi
su Input.
Fare doppio clic sul nodo Filtro per visualizzarne le proprietà.
Si noti che questo nodo filtra solo i campi rilevanti: 'region, 'age, 'marital, 'address, 'income, 'ed, 'employ, 'retire, 'gender, 'reside e 'custcat). Altri campi sono esclusi da questa analisi.
Controlla i tuoi progressi
L'immagine seguente mostra il nodo Filtro. Ora si è pronti a visualizzare il nodo Logistica.
Passare il mouse sul nodo custcat (Logistica) e fare clic sull'icona Esegui.
Nel riquadro Output e modelli, fare clic sul modello custcat per visualizzare i risultati.
Figura 6. Grafico di importanza delle caratteristiche del modello
È possibile esplorare le informazioni del modello, l'importanza della funzione (predittore) e le informazioni sulle stime dei parametri.
Questi risultati si basano solo sui dati di addestramento. Per valutare la generalizzazione del modello ad altri dati del mondo reale, si può usare un nodo Partition per tenere un sottoinsieme di record a scopo di test e convalida.
Questo esempio mostra come utilizzare i dati demografici per prevedere i modelli di utilizzo, costruendo un modello di regressione logistica per classificare i record in base ai valori dei campi di input.