Classificare i clienti delle telecomunicazioni

Ultimo aggiornamento: 11 feb 2025

Questa esercitazione costruisce un modello di regressione logistica, una tecnica statistica per classificare i record in base ai valori dei campi di input. È analoga alla regressione lineare, ma assume un campo obiettivo categoriale invece che numerico.

Ad esempio, supponiamo che un fornitore di telecomunicazioni abbia segmentato la propria base clienti in base alle modalità di utilizzo del servizio, suddividendo i clienti in quattro gruppi. Se è possibile utilizzare i dati demografici per prevedere l'appartenenza al gruppo è possibile personalizzare le offerte per singoli potenziali clienti.

Anteprima del tutorial

Guarda il video Guardate questo video per vedere in anteprima i passaggi di questa esercitazione. L'interfaccia utente mostrata nel video potrebbe presentare lievi differenze. Il video è destinato ad accompagnare l'esercitazione scritta. Questo video fornisce un metodo visivo per apprendere i concetti e le attività di questa documentazione.

Prova il tutorial

In questa esercitazione, completerete questi compiti:

Compito 1: Aprire il progetto di esempio
Task 2: Esaminare i nodi Asset, Tipo e Filtro dei dati
Attività 3: Visualizzazione del nodo Logistica
Compito 4: Sfogliare il modello

Esempio di flusso di modellazione e set di dati

Questa esercitazione utilizza il flusso Classificazione dei clienti delle telecomunicazioni nel progetto di esempio. Il file di dati utilizzato è telco.csv. L'immagine seguente mostra il flusso del modellatore di esempio.

Figura 1. Flusso del modellatore di campioni

L'immagine seguente mostra il set di dati utilizzato con questo flusso di modellazione.

Figura 2. Dataset di esempio

L'esempio focalizza l'attenzione sull'utilizzo dei dati demografici per prevedere i pattern di utilizzo. Il campo obiettivo custcat ha quattro possibili valori che corrispondono a quattro gruppi di utenti come segue:

Tabella 1. Valori possibili per il campo obiettivo
Valore	Etichetta
1	Servizio base
2	Servizio E
3	Servizio Plus
4	Sevizio totale

Poiché l'obiettivo ha più categorie, viene utilizzato un modello multinomiale. Se l'obiettivo è costituito da due categorie distinte, come sì/no, vero/falso, o abbandono/non abbandono, si può invece creare un modello binomiale.

Compito 1: Aprire il progetto di esempio

Il progetto campione contiene diversi set di dati e flussi di modellazione di esempio. Se non si dispone già del progetto di esempio, consultare l'argomento Tutorial per creare il progetto di esempio. Seguite quindi i passaggi seguenti per aprire il progetto campione:

In Cloud Pak for Data, dal menu di navigazione , scegliere Progetti > Visualizza tutti i progetti.
Fare clic su ProgettoSPSS Modeler.
Fare clic sulla scheda Assets per visualizzare i set di dati e i flussi del modellatore.

Controlla i tuoi progressi

L'immagine seguente mostra la scheda Assets del progetto. Ora si è pronti a lavorare con il flusso del modellatore di esempio associato a questa esercitazione.

Progetto di esempio

torna all'inizio

Task 2: Esaminare i nodi Asset, Tipo e Filtro dei dati

Il flusso del modellatore Classificazione dei clienti delle telecomunicazioni comprende diversi nodi. Seguite i passaggi seguenti per esaminare tre dei nodi:

Dalla scheda Attività, aprire il flusso del modellatore Classificazione dei clienti delle telecomunicazioni e attendere il caricamento dell'area di disegno.
Fare doppio clic sul nodo telco.csv Questo nodo è un nodo di risorse dati che punta al file telco.csv nel progetto.
Esaminare il 'Proprietà del formato del file.
Facoltativo: Fare clic su Anteprima dati per visualizzare l'intero set di dati.
Fare doppio clic sul nodo Tipo e fare clic su Leggi valori. Questo nodo specifica le proprietà dei campi, come il livello di misurazione (il tipo di dati che il campo contiene) e il ruolo di ciascun campo come target o input nella modellazione. Assicurarsi che tutti i livelli di misurazione siano impostati correttamente. Ad esempio, la maggior parte dei campi con i valori di 0.0 e 1.0 possono essere considerati come indicatori.

Figura 3. Livelli di misurazione

Si noti che 'gender è più correttamente considerato come un campo con un insieme di due valori, invece che come una bandierina, quindi si lasci il suo valore di misurazione come Nominale.
Impostare il ruolo per il campo custcat su Obiettivo. Lasciare impostato il ruolo per tutti gli altri campi su Input.
Fare doppio clic sul nodo Filtro per visualizzarne le proprietà.
Si noti che questo nodo filtra solo i campi rilevanti: 'region, 'age, 'marital, 'address, 'income, 'ed, 'employ, 'retire, 'gender, 'reside e 'custcat). Altri campi sono esclusi da questa analisi.

Icona del punto di controllo Controlla i tuoi progressi

L'immagine seguente mostra il nodo Filtro. Ora si è pronti a visualizzare il nodo Logistica.

torna all'inizio

Attività 3: Visualizzazione del nodo Logistica

Seguite questi passaggi per classificare i clienti utilizzando la regressione logistica multinomiale:

Fare doppio clic sul nodo custcat (Logistica) per visualizzarne le proprietà.
Nella sezione Impostazioni modello, selezionare la procedura multinomiale.
- Si utilizza un modello binomiale quando il campo target è un campo flag o nominale con due valori discreti.
- Un modello multinomiale viene utilizzato quando il campo target è un campo nominale con più di due valori.
Selezionare quindi il metodo Stepwise e il tipo di modello Main Effects. Inoltre, selezionare la casella di controllo Includi costante nell'equazione.

Figura 4. Impostazioni del modello del nodo logistico
Nella sezione Opzioni esperto, selezionare la modalità esperto.
Fare clic su Output. Selezionare la tabella Classificazione e fare clic su OK.

Figura 5. Nodo logistico Opzioni di uscita

Icona del punto di controllo Controlla i tuoi progressi

L'immagine seguente mostra il nodo Logistica. Ora si è pronti a sfogliare il modello.

torna all'inizio

Compito 4: Sfogliare il modello

Seguire questi passaggi per sfogliare il modello:

Passare il mouse sul nodo custcat (Logistica) e fare clic sull'icona Esegui .
Nel riquadro Output e modelli, fare clic sul modello custcat per visualizzare i risultati.

Figura 6. Grafico di importanza delle caratteristiche del modello

È possibile esplorare le informazioni del modello, l'importanza della funzione (predittore) e le informazioni sulle stime dei parametri.

Questi risultati si basano solo sui dati di addestramento. Per valutare la generalizzazione del modello ad altri dati del mondo reale, si può usare un nodo Partition per tenere un sottoinsieme di record a scopo di test e convalida.

Icona del punto di controllo Controlla i tuoi progressi

torna all'inizio

Riepilogo

Questo esempio mostra come utilizzare i dati demografici per prevedere i modelli di utilizzo, costruendo un modello di regressione logistica per classificare i record in base ai valori dei campi di input.