Questa esercitazione costruisce due modelli per prevedere gli effetti di future promozioni di vendita e poi confronta i modelli.
Analogamente all'esercitazione sul monitoraggio delle condizioni, il processo di data mining consiste nelle fasi di esplorazione, preparazione dei dati, formazione e test. Non tutti i dati presenti nel file di dati " telco.csv
sono utili per prevedere il turn over. È possibile utilizzare il filtro per selezionare solo i dati considerati importanti per l'uso come predittore (i campi contrassegnati come Importanti nel modello).
Prova il tutorial
In questa esercitazione, completerete questi compiti:
Esempio di flusso di modellazione e set di dati
Questa esercitazione utilizza il flusso Promozione delle vendite al dettaglio nel progetto di esempio. Il file di dati utilizzato è goods2n.csv. L'immagine seguente mostra il flusso del modellatore di esempio.
Compito 1: Aprire il progetto di esempio
Il progetto campione contiene diversi set di dati e flussi di modellazione di esempio. Se non si dispone già del progetto di esempio, consultare l'argomento Tutorial per creare il progetto di esempio. Seguite quindi i passaggi seguenti per aprire il progetto campione:
- In 'watsonx, dal menu di navigazione ', scegliere Progetti > Visualizza tutti i progetti.
- Fare clic su ProgettoSPSS Modeler.
- Fare clic sulla scheda Assets per visualizzare i set di dati e i flussi del modellatore.
Controllare i progressi
L'immagine seguente mostra la scheda Assets del progetto. Ora si è pronti a lavorare con il flusso del modellatore di esempio associato a questa esercitazione.
Compito 2: Esaminare i nodi Data Asset, Derive e Type
La promozione delle vendite al dettaglio comprende diversi nodi. Seguire i passaggi seguenti per esaminare i nodi Data Asset, Derive e Type:
Nodo Asset dati
- Dalla scheda Assets, aprire il flusso del modellatore Retail Sales Promotion e attendere il caricamento dell'area di disegno.
- Fare doppio clic sul nodo goods1n.csv Questo nodo è un nodo di risorse dati che punta al file goods1n.csv nel progetto.
- Esaminare il 'Proprietà del formato del file.
- Fare clic su Anteprima dati per visualizzare l'intero set di dati.
- Si noti che ogni record contiene:
Class
. Tipo di prodotto.Cost
. Prezzo unitario.Promotion
. Indice dell'importo speso per una particolare promozione.Before
. Entrate prima della promozione.After
. Entrate dopo la promozione.
I due campi dei ricavi (
Before
e "After
) sono espressi in termini assoluti. Tuttavia, sembra probabile che l'aumento delle entrate dopo la promozione (e presumibilmente come risultato della stessa) possa essere un dato più utile. - Chiudere l'anteprima dei dati e il riquadro laterale delle proprietà.
Nodo Ricava
- Fare doppio clic sul nodo Incremento (Derivazione). Questo nodo ricava il valore dell'aumento delle entrate.
- Esaminate le impostazioni, in particolare il campo Espressione, che contiene una formula per ricavare l'aumento in percentuale del fatturato prima della promozione: '
(After - Before) / Before * 100.0
. - Fare clic su Anteprima dati per visualizzare il set di dati con i valori derivati.
- Si noti la colonna Incremento.
Per ciascuna classe di prodotti, esiste una relazione abbastanza lineare tra l'aumento delle entrate ed i costi della promozione. Pertanto, è probabile che una struttura ad albero delle decisioni o una rete neurale potrebbero prevedere, con ragionevole precisione, l'aumento delle entrate dagli altri campo disponibili.
- Chiudere l'anteprima dei dati e il riquadro laterale delle proprietà.
Nodo Tipo
- Fare doppio clic sul nodo Definisci tipi (Tipo). Questo nodo specifica le proprietà dei campi, come il livello di misurazione (il tipo di dati che il campo contiene) e il ruolo di ciascun campo come target o input nella modellazione. Il livello di
misurazione è una categoria che indica il tipo di dati all'interno del campo. Il file di dati di origine utilizza tre diversi livelli di misurazione:
- Un campo continuo (come il campo "
Age
) contiene valori numerici continui. - Un campo nominale (come il campo "
Education
) ha due o più valori distinti, in questo caso "College
o "High school
. - Un campo ordinale (come il campo "
Income level
) descrive dati con più valori distinti che hanno un ordine intrinseco: in questo caso "Low
, "Medium
e "High
.Per ogni campo, il nodo Tipo specifica anche un ruolo per indicare il ruolo che ogni campo svolge nella modellazione. Il ruolo è impostato su Target per il campo '
Increase
, che è il campo derivato. Il 'target
è il campo per il quale si vuole prevedere il valore.Il ruolo è impostato su Input per la maggior parte degli altri campi. I campi di input sono talvolta noti come "
predictors
, ovvero campi i cui valori sono utilizzati dall'algoritmo di modellazione per prevedere il valore del campo target.Il ruolo del campo "
After
è impostato su Nessuno, quindi questo campo non viene utilizzato dall'algoritmo di modellazione.
- Un campo continuo (come il campo "
- Facoltativo: Fare clic su Anteprima dati per visualizzare il set di dati con i valori derivati.
Controllare i progressi
L'immagine seguente mostra il nodo Tipo. Ora si è pronti a generare e confrontare i modelli.
Compito 3: Generare e confrontare i modelli
Il flusso addestra una rete neurale ed una struttura ad albero delle decisioni per effettuare la previsione dell'aumento delle entrate. Per generare i due modelli, procedere come segue:
Generare i modelli
- Fare doppio clic sul nodo Increase (Rete neurale) per esaminarne le proprietà.
- Espandere la sezione Fondamenti per vedere che il tipo di modello è il Perceptron multistrato. Questa proprietà determina il modo in cui la rete collega i predittori ai target attraverso gli strati nascosti. Il perceptron multistrato consente di creare relazioni più complesse, a costo di aumentare il tempo di addestramento e di calcolo.
- Espandere la sezione Opzioni modello per visualizzare le proprietà di valutazione e di punteggio.
- Fare doppio clic sul nodo Incremento (albero C&R) per visualizzarne le proprietà.
- Fare clic su Esegui tutto il ' e attendere la generazione delle pepite del modello.
- Collegare la pepita del modello Increase (C&R Tree) al modello Increase (Neural net).
- Aggiungere un nodo Analisi:
- Dalla palette, espandere la sezione Uscite.
- Trascinare il nodo Analisi sull'area di disegno.
- Collegare la pepita del modello Increase (Rete neurale) al nodo Analysis.
- Modificare il set di dati per utilizzare dati diversi per l'analisi:
- Fare doppio clic sul nodo goods1n.csv per visualizzarne le proprietà.
- CV leccare 'Modifica del set di dati.
- Spostarsi su Attività dati > GOODS2n.csv
- Fare clic su Seleziona.
- Fare clic su Salva.
- Passare il mouse sul nodo Analisi e fare clic sull'icona Esegui '.
- Nel riquadro Output e modelli, fare clic sull'output con il nome Analisi per visualizzare i risultati.
Dall'output dell'analisi, in particolare dalla correlazione lineare tra l'aumento previsto e la risposta corretta, si nota che i sistemi addestrati prevedono l'aumento delle entrate con un alto grado di successo.
Ulteriori esplorazioni potrebbero concentrarsi sui casi in cui i sistemi addestrati commettono errori relativamente grandi. È possibile identificare questi errori tracciando un grafico dell'aumento previsto delle entrate rispetto all'aumento effettivo. È possibile selezionare i valori anomali su un grafico utilizzando i grafici interattivi di SPSS Modeler e, in base alle loro proprietà, è possibile mettere a punto la descrizione dei dati o il processo di apprendimento per migliorare l'accuratezza.
Controllare i progressi
L'immagine seguente mostra l'output del nodo Analisi.
Riepilogo
Questo esempio ha mostrato come prevedere gli effetti di future promozioni di vendita. Come nell'esempio del monitoraggio delle condizioni, il processo di data mining consiste nelle fasi di esplorazione, preparazione dei dati, formazione e test.
Passi successivi
Ora siete pronti per provare altre esercitazioni diSPSS® Modeler.