Anteprima del tutorial
Guardate questo video per vedere in anteprima i passaggi di questa esercitazione. L'interfaccia utente mostrata nel video potrebbe presentare lievi differenze. Il video è destinato ad accompagnare l'esercitazione scritta. Questo video fornisce un metodo visivo per apprendere i concetti e le attività di questa documentazione.
Prova il tutorial
In questa esercitazione, completerete questi compiti:
Esempio di flusso di modellazione e set di dati
Questa esercitazione utilizza il flusso Introduzione alla modellazione nel progetto di esempio. Il file di dati utilizzato è tree_credit.csv. L'immagine seguente mostra il flusso del modellatore di esempio.
La capacità di prevedere un risultato è l'obiettivo centrale dell'analisi predittiva e la comprensione del processo di modellazione è la chiave per utilizzare i flussi di SPSS Modeler.
Il modello in questo esempio mostra come una banca può prevedere se i futuri richiedenti di prestiti potrebbero non rimborsare i loro prestiti. Questi clienti in precedenza hanno preso prestiti dalla banca, quindi i dati dei clienti sono archiviati nel database della banca. Il modello utilizza i dati dei clienti per stabilire la probabilità di default.
Una parte importante di qualsiasi modello è rappresentata dai dati che vi si inseriscono. La banca gestisce un database di informazioni storiche sui clienti, tra cui se hanno rimborsato i prestiti (rating del credito = buono) o sono stati inadempienti (rating del credito = cattivo). La banca desidera utilizzare questi dati esistenti per creare il modello. Vengono utilizzati i campi seguenti:
Nome campo | Descrizione |
---|---|
Credit_rating | Rischio creditizio: 0=Sfavorevole, 1=Favorevole, 9=valori mancanti |
Età | Età in anni |
Entrata | Livello di reddito: 1=Basso, 2=Medio, 3=Alto |
Credit_cards | Numero di carte di credito: 1=Meno di cinque, 2=Cinque o più |
Istruzione | Livello di istruzione: 1=Scuola superiore, 2=Università |
Car_loans | Numero di mutui auto accesi: 1=Nessuno o uno, 2=Più di due |
Questo esempio utilizza un modello struttura ad albero delle decisioni , che classifica i record (e prevede una risposta) utilizzando una serie di regole decisionali.
Ad esempio, questa regola di decisione classifica un record come avente un buon rating di credito quando il reddito scende nell'intervallo medio e il numero di carte di credito è inferiore a 5.
IF income = Medium
AND cards <5
THEN -> 'Good'
Mediante un modello di struttura ad albero delle decisioni è possibile analizzare le caratteristiche dei due gruppi di clienti e prevedere la probabilità di mancata restituzione del prestito.
Anche se questo esempio utilizza un modello CHAID (Chi - squared Automatic Interaction Detection), è un'introduzione generale e la maggior parte dei concetti si applica ampiamente ad altri tipi di modeling in SPSS Modeler.
Compito 1: Aprire il progetto di esempio
Il progetto campione contiene diversi set di dati e flussi di modellazione di esempio. Se non si dispone già del progetto di esempio, consultare l'argomento Tutorial per creare il progetto di esempio. Seguite quindi i passaggi seguenti per aprire il progetto campione:
- In Cloud Pak for Data, dal menu di navigazione ', scegliere Progetti > Visualizza tutti i progetti.
- Fare clic su ProgettoSPSS Modeler.
- Fare clic sulla scheda Assets per visualizzare i set di dati e i flussi del modellatore.
Controllare i progressi
L'immagine seguente mostra la scheda Assets del progetto. Ora si è pronti a lavorare con il flusso del modellatore di esempio associato a questa esercitazione.
Compito 2: Esaminare i nodi Asset e Tipo di dati
Introduzione alla modellazione Il flusso del modellatore comprende diversi nodi. Seguire i seguenti passaggi per esaminare i nodi 'Asset di dati e 'Tipo.
- Dalla scheda Risorse, aprire il flusso del modellatore Introduzione alla modellazione e attendere il caricamento dell'area di disegno.
- Fare doppio clic sul nodo tree_credit.csv. Questo nodo è un nodo Asset dati che punta al file tree_credit.csv nel progetto. Se si specificano le misure nel nodo sorgente, non è necessario includere un nodo Tipo separato nel flusso.
- Esaminare il 'Proprietà del formato del file.
- Facoltativo: Fare clic su Anteprima dati per visualizzare l'intero set di dati.
- Fare doppio clic sul nodo Tipo. Questo nodo specifica le proprietà dei campi, come il livello di misurazione (il tipo di dati che il campo contiene) e il ruolo di ciascun campo come target o input nella modellazione. Il livello di
misurazione è una categoria che indica il tipo di dati all'interno del campo. Il file di dati di origine utilizza tre diversi livelli di misurazione:
- Un campo continuo (come il campo "
Age
) contiene valori numerici continui. - Un campo nominale (come il campo "
Education
) ha due o più valori distinti: in questo caso, "College
o "High school
. - Un campo ordinale (come il campo "
Income level
) descrive dati con più valori distinti che hanno un ordine intrinseco: in questo caso, "Low
, "Medium
e "High
.
Per ogni campo, il nodo Tipo specifica anche un ruolo per indicare il ruolo che ogni campo svolge nella modellazione. Il ruolo è impostato su Target per il campo '
Credit rating
, che è il campo che indica se un cliente è inadempiente sul prestito. Il target è il campo per il quale si vuole prevedere il valore.Gli altri campi hanno il ruolo impostato su Input. In alcuni casi, i campi di input sono noti come predittori, o campi i cui valori sono utilizzati dall'algoritmo di modellazione per prevedere il valore del campo obiettivo.
- Un campo continuo (come il campo "
- Facoltativo: Fare clic su Anteprima dati per vedere i dati con le proprietà del tipo applicate.
Controllare i progressi
L'immagine seguente mostra il nodo Tipo. Ora si è pronti a configurare il nodo di modellazione.
Attività 3: Configurazione del nodo di modellazione
Un nodo di modellazione genera un nugget di modello quando il flusso viene eseguito. Questo esempio utilizza un nodo CHAID. CHAID, o Chi-squared Automatic Interaction Detection, è un metodo di classificazione che costruisce alberi decisionali utilizzando un particolare tipo di statistiche, note come statistiche chi-quadro. Il nodo utilizza le statistiche chi-quadro per determinare i punti migliori in cui effettuare le suddivisioni nell'albero decisionale. Seguire la seguente procedura per configurare il nodo di modellazione:
- Fare doppio clic sul nodo Valutazione del credito (CHAID) per visualizzarne le proprietà.
- Nella sezione Campi, notare l'opzione Usa le impostazioni definite in questo nodo. Questa opzione indica al nodo di usare la destinazione e i campi specificati qui, invece di usare le informazioni del campo nel nodo Tipo. Per questa esercitazione, lasciare disattivata l'opzione Usa le impostazioni definite in questo nodo.
- Espandere la sezione Obiettivi. In questo caso, i valori predefiniti sono appropriati. L'obiettivo è costruire un nuovo modello, creare un modello standard e generare un nodo del modello dopo l'esecuzione.
- Espandere la sezione Regole di arresto. Per mantenere l'albero abbastanza semplice per questo esempio, limitate la crescita dell'albero aumentando il numero minimo di casi per i nodi padre e figlio.
- Selezionare Usa valore assoluto.
- Impostare i record minimi nel ramo padre a '
400
. - Impostare i record minimi nel ramo figlio a '
200
.
- Fare clic su Salva.
- Passare il mouse sul nodo Valutazione del credito (CHAID) e fare clic sull'icona Esegui '.
Controllare i progressi
L'immagine seguente mostra il flusso con i risultati del modello. Ora si è pronti a esplorare il modello.
Compito 4: Esplorare il modello
L'esecuzione del flusso del modellatore aggiunge una pepita di modello all'area di disegno con un collegamento al nodo di modellazione da cui è stata creata. Per visualizzare i dettagli del modello, procedere come segue:
- Nel riquadro Output e modelli, fare clic sul modello con il nome Valutazione del credito per visualizzarlo.
- Fare clic su Informazioni sul modello per visualizzare le informazioni di base sul modello.
- Fare clic su Feature Importance per visualizzare l'importanza relativa di ciascun predittore nella stima del modello. Da questo grafico si può notare che il livello di reddito è facilmente il più significativo in questo caso, mentre il numero di carte di credito è il fattore successivo.
- Fare clic su Regole decisionali superiori per visualizzare i dettagli sotto forma di set di regole; essenzialmente una serie di regole che possono essere utilizzate per assegnare i singoli record ai nodi figli in base ai valori dei diversi campi di input. Per ogni nodo terminale dell'albero decisionale viene fornita una previsione di Buono o Cattivo. I nodi terminali sono quei nodi dell'albero che non vengono ulteriormente suddivisi. In ogni caso, la previsione è determinata dalla modalità, o dalla risposta più comune, per i record che rientrano in quel nodo.
- Fare clic su Diagramma ad albero per visualizzare lo stesso modello sotto forma di albero, con un nodo per ogni punto di decisione. Spostare il puntatore del mouse sui rami e sui nodi per esaminare i dettagli.
Guardando all'inizio dell'albero, il primo nodo (nodo 0) fornisce un riepilogo di tutti i record del set di dati. Poco più del 40% dei casi dell'insieme di dati è classificato come a rischio creditizio sfavorevole. il 40% è una percentuale piuttosto elevata, ma l'albero potrebbe fornire indizi su quali fattori potrebbero essere responsabili.
La prima suddivisione è per livello di reddito. I record in cui il livello di reddito è compreso nella categoria Basso vengono assegnati al nodo 2 e non è una sorpresa che questa categoria contenga la percentuale più alta di clienti che non hanno restituito il prestito. Chiaramente, la concessione di un prestito ai clienti presenti in questa categoria rappresenta un rischio elevato. Tuttavia, quasi il 18% dei clienti di questa categoria non è andato in default, quindi la previsione non è sempre corretta. Nessun modello può prevedere tutte le risposte, ma un buon modello dovrebbe consentire di prevedere la risposta più probabile per ogni record in base ai dati disponibili.
Allo stesso modo, se si osservano i clienti ad alto reddito (nodo 1), si può notare che la maggior parte dei clienti (oltre l'88%) rappresenta un buon rischio. Ma più di un cliente su dieci è rimasto inadempiente. È possibile affinare ulteriormente i criteri di prestito per ridurre al minimo il rischio?
Si noti come il modello abbia suddiviso questi clienti in due sottocategorie (nodi 4 e 5), in base al numero di carte di credito possedute. Per i clienti ad alto reddito, se la banca concede prestiti solo a clienti con meno di cinque carte di credito, può aumentare il tasso di successo dall'88% a quasi il 97%; un risultato ancora più soddisfacente.
Cosa accade per i clienti che rientrano nella categoria di reddito Medio (nodo 3)? Essi sono suddivisi in modo più omogeneo tra le valutazioni Favorevole e Sfavorevole. Anche in questo caso, le sottocategorie (in questo caso i nodi 6 e 7) possono aiutare. Questa volta, la concessione di un prestito solo ai clienti con reddito medio e meno di cinque carte di credito incrementa la percentuale di valutazioni Favorevoli dal 58% all'86%, un miglioramento significativo.
Controllare i progressi
L'immagine seguente mostra i dettagli del modello. Ora siete pronti a valutare il modello.
Compito 5: valutare il modello
È possibile consultare il modello per capire come funziona il punteggio. Tuttavia, per valutare l'accuratezza del modello, è necessario segnare alcuni record. La valutazione dei record è il processo di confronto tra i risultati effettivi e le risposte previste dal modello. Per valutare il modello, è possibile assegnare un punteggio agli stessi record utilizzati per stimare il modello. È possibile confrontare le risposte osservate e previste confrontando gli stessi record. Seguite questi passaggi per valutare il modello:
- Collegare il nodo Tabella alla pepita del modello.
- Passare il mouse sul nodo Tabella e fare clic sull'icona Esegui '.
- Nel riquadro Output e modelli, fare clic sui risultati di output con il nome Tabella per visualizzare i risultati.
La tabella mostra i punteggi previsti nel campo "
$R-Credit rating
, che il modello ha creato. È possibile confrontare questi valori con il campo originale 'Credit rating
che contiene le risposte effettive.Per convenzione, i nomi dei campi generati durante lo scoring sono basati sul campo di destinazione, ma con un prefisso standard.$G
e '$GE
sono i prefissi per le previsioni generate dal Modello Lineare Generalizzato$R
è il prefisso per le previsioni generate dal modello CHAID$RC
è per i valori di confidenza$X
viene tipicamente generato utilizzando un ensemble$XR
, '$XS
, '$XF
sono utilizzati come prefissi nei casi in cui il campo di destinazione è un campo continuo, categorico, insiemistico o flag
Un valore di confidenza è la stima propria del modello della precisione di ciascun valore previsto, in una scala da 0.0 a 1.0.
Come previsto, il valore previsto corrisponde alle risposte effettive per molti record, ma non per tutti. Questo perché ogni nodo terminale CHAID è composto da un insieme di risposte. La previsione corrisponde a quella più comune, ma è sbagliata per tutte le altre in quel nodo. Si ricordi la minoranza del 18% tra i clienti a basso reddito che non è risultata insolvente.
Per evitare questo problema, si potrebbe continuare a suddividere l'albero in rami sempre più piccoli, fino a quando ogni nodo non sarà puro al 100%: tutti buoni o cattivi, senza risposte miste. Ma un modello di questo tipo è complicato ed è improbabile che sia generalizzabile ad altri set di dati.
Per sapere esattamente quante previsioni sono corrette, si può leggere la tabella e contare il numero di record in cui il valore del campo previsto '
$R-Credit rating
corrisponde al valore di 'Credit rating
. Tuttavia, è più facile utilizzare un nodo Analisi, che tiene automaticamente traccia dei record in cui questi valori corrispondono. - Collegare la pepita del modello al nodo Analisi.
- Passare il mouse sul nodo Analisi e fare clic sull'icona Esegui '.
- Nel riquadro Output e modelli, fare clic sui risultati di output con il nome Analisi per visualizzare i risultati.
L'analisi mostra che per 1960 dei 2464 record (oltre il 79%) il valore previsto dal modello corrisponde alla risposta effettiva.
Questo risultato è limitato dal fatto che le registrazioni che sono state segnate sono le stesse che sono state utilizzate per stimare il modello. In una situazione reale, si potrebbe usare un nodo Partition per dividere i dati in campioni separati per la formazione e la valutazione. Utilizzando una partizione di campioni per generare il modello e un altro campione per testarlo, è possibile ottenere una migliore indicazione della sua generalizzazione ad altri set di dati.
È possibile utilizzare il nodo Analisi per testare il modello su record di cui si conosce già il risultato effettivo. La fase successiva illustra come utilizzare il modello per attribuire un punteggio ai record di cui non si conosce l'esito. Ad esempio, questo set di dati potrebbe includere persone che non sono attualmente clienti della banca, ma che sono potenziali destinatari di un mailing promozionale.
Controllare i progressi
L'immagine seguente mostra il flusso con i risultati di output. Ora si è pronti a valutare il modello con i nuovi dati.
Compito 6: valutazione del modello con nuovi dati
In precedenza, è stato assegnato un punteggio ai record utilizzati per stimare il modello, in modo da poter valutare l'accuratezza del modello stesso. Questo esempio analizza un insieme di record diverso da quello utilizzato per creare il modello. La valutazione dell'accuratezza è uno degli obiettivi della modellazione con un campo di destinazione. Si studiano i record di cui si conosce l'esito per identificare i modelli in modo da poter prevedere gli esiti che non si conoscono ancora.
È possibile aggiornare il nodo Asset dati o Importazione esistente per puntare a un file di dati diverso. Oppure si può aggiungere un nodo Asset dati o Importazione che legge i dati che si vogliono segnare. In ogni caso, il nuovo set di dati deve contenere gli stessi campi di input utilizzati dal modello (Age
, " Income level
, " Education
e così via), ma non il campo di destinazione " Credit rating
.
In alternativa, è possibile aggiungere il nugget del modello a qualsiasi flusso che includa i campi di input previsti. Sia che si legga da un file o da un database, il tipo di origine non ha importanza se i nomi e i tipi di campo corrispondono a quelli utilizzati dal modello.
Controllare i progressi
L'immagine seguente mostra il flusso completato.
Riepilogo
Il flusso di esempi di Introduzione alla modellazione mostra i passaggi fondamentali per la creazione, la valutazione e l'assegnazione di un punteggio a un modello.
- Il nodo Modeling stima il modello studiando i record per i quali il risultato è noto e crea un nugget del modello. Questo processo viene talvolta definito "addestramento del modello".
- Il nugget del modello può essere aggiunto a qualsiasi flusso con i campi previsti per calcolare il punteggio dei record. Calcolando il punteggio dei record per i quali già si conosce il risultato (come i clienti esistenti), è possibile valutare l'efficacia dell'esecuzione.
- Una volta accertato che il modello funziona in modo accettabile, si possono analizzare nuovi dati (come quelli dei potenziali clienti) per prevedere la loro risposta.
- I dati utilizzati per addestrare o stimare il modello possono essere chiamati dati analitici o storici. I dati di scoring possono anche essere chiamati dati operativi.
Passi successivi
Ora siete pronti per provare altre esercitazioni diSPSS Modeler.