Prova il tutorial
In questa esercitazione, completerete questi compiti:
Esempio di flusso di modellazione e set di dati
Questa esercitazione utilizza il flusso Screening Predictors del progetto campione. Il file di dati utilizzato è customer_dbase.csv. L'immagine seguente mostra il flusso del modellatore di esempio.
- Senza selezione della funzione. Tutti i campi predittore nell'insieme di dati vengono utilizzati come input per la struttura ad albero CHAID.
- Con selezione della funzione. Il nodo Feature Selection viene utilizzato per selezionare i 10 predittori migliori. Questi predittori vengono inseriti nell'albero CHAID.
Confrontando i due modelli ad albero risultanti, si può vedere come la selezione delle caratteristiche possa produrre risultati efficaci.
Compito 1: Aprire il progetto di esempio
Il progetto campione contiene diversi set di dati e flussi di modellazione di esempio. Se non si dispone già del progetto di esempio, consultare l'argomento Tutorial per creare il progetto di esempio. Seguite quindi i passaggi seguenti per aprire il progetto campione:
- In 'watsonx, dal menu di navigazione ', scegliere Progetti > Visualizza tutti i progetti.
- Fare clic su ProgettoSPSS Modeler.
- Fare clic sulla scheda Assets per visualizzare i set di dati e i flussi del modellatore.
Controllare i progressi
L'immagine seguente mostra la scheda Assets del progetto. Ora si è pronti a lavorare con il flusso del modellatore di esempio associato a questa esercitazione.
Compito 2: Esaminare i nodi Asset e Tipo di dati
Screening Predictors comprende diversi nodi. Seguire i seguenti passaggi per esaminare i nodi 'Asset di dati e 'Tipo:
- Dalla scheda Assets, aprire il flusso del modellatore Screening Predictors e attendere il caricamento dell'area di disegno.
- Fare doppio clic sul nodo customer_dbase.csv. Questo nodo è un nodo di risorse di dati che punta al file customer_dbase.csv nel progetto.
- Esaminare il 'Proprietà del formato del file.
- Facoltativo: Fare clic su Anteprima dati per visualizzare l'intero set di dati.
- Fare doppio clic sul nodo Tipo. Si noti il valore del ruolo per ciascuno di questi campi:
- response_01 è impostato su Target
- response_02, response_03 e custid sono impostati su Nessuno
- Tutti gli altri campi sono impostati su Input
- Fare clic su Leggi valori.
- Facoltativo: Fare clic su Anteprima dati per vedere il set di dati con le proprietà del tipo applicate.
- Fare clic su Salva.
Controllare i progressi
L'immagine seguente mostra il nodo Tipo. Ora si è pronti a costruire il modello.
Compito 3: costruire il modello
Per costruire il modello, procedere come segue:
- Fare doppio clic sul nodo response_01 (Selezione di una caratteristica) per visualizzarne le proprietà.
- Espandere la sezione Opzioni di costruzione per vedere le regole e i criteri definiti che vengono utilizzati per selezionare o squalificare i campi.
- Passare il mouse sul nodo response_01 (selezione delle caratteristiche) e fare clic sull'icona Esegui '.
- Nel riquadro Output e modelli, fare clic sul modello con il nome response_01 per visualizzarlo. I risultati mostrano i campi che sono risultati utili nella previsione, classificati per importanza. Esaminando tali campi, è possibile decidere quali di essi utilizzare nelle
successive sessioni di modellazione.
Per confrontare i risultati senza selezione delle caratteristiche, è necessario utilizzare due nodi di modellazione CHAID nel flusso: uno che utilizza la selezione delle caratteristiche e uno che non la utilizza.
- Fare doppio clic sul nodo Con tutti i campi (CHAID) per visualizzarne le proprietà.
- In Obiettivi, verificare che siano selezionate le opzioni Costruisci nuovo modello e Crea un modello standard.
- Espandere la sezione Base e verificare che la Profondità massima dell'albero sia impostata su Personalizzato e che il numero di livelli sia impostato su '
5
.
- Fare clic su Salva.
- Fare doppio clic sul nodo Utilizzo dei 10 campi principali (CHAID) per visualizzarne le proprietà
- Verificare le stesse proprietà del nodo Con tutti i campi (CHAID).
- Fare clic su Salva.
Controllare i progressi
L'immagine seguente mostra il nodo Modellazione. Ora si è pronti a eseguire il flusso e a visualizzare i risultati.
Attività 4: Esecuzione del flusso e visualizzazione dei risultati
Seguire questi passaggi per eseguire il flusso e visualizzare i risultati dei due modelli con e senza selezione delle caratteristiche:
- Fare clic su Esegui tutto il '. Durante l'esecuzione, notare quanto tempo impiega ciascun modello a terminare la costruzione.
- Nel riquadro Output e modelli, fare clic sul modello con il nome Con tutti i campi per visualizzare i risultati.
- Fare clic sulla pagina Diagramma ad albero.
- Zoomare verso l'esterno per vedere l'estensione del diagramma ad albero.
- Chiudere la finestra dei dettagli del modello.
- Nel riquadro Output e modelli, fare clic sul modelrun con il nome Utilizzo dei campi Top 10 per visualizzare i risultati.
- Fare clic sulla pagina Diagramma ad albero.
- Zoomare verso l'esterno per vedere l'estensione del diagramma ad albero.
Il secondo modello è stato eseguito più rapidamente del primo. Poiché questo set di dati è relativamente piccolo, la differenza nei tempi di esecuzione è probabilmente di pochi secondi; ma per set di dati reali più grandi, la differenza potrebbe essere notevole: minuti o addirittura ore. L'uso della selezione delle caratteristiche può accelerare notevolmente i tempi di elaborazione.
Si potrebbe invece utilizzare un algoritmo di costruzione di alberi per svolgere il lavoro di selezione delle caratteristiche, consentendo all'albero di identificare i predittori più importanti. Infatti, l'algoritmo CHAID viene spesso utilizzato per questo scopo, ed è anche possibile espandere la struttura ad albero gradualmente per controllarne la profondità e la complessità. Tuttavia, il nodo Feature Selection è più veloce e facile da usare. Classifica tutti i predittori in un'unica fase, aiutandovi a identificare rapidamente i campi più importanti.
Controllare i progressi
L'immagine seguente mostra il diagramma ad albero del modello.
Riepilogo
La seconda struttura ad albero contiene un numero minore di nodi della struttura ad albero rispetto alla prima. È semplice da comprendere. L'utilizzo di un numero minore di predittori è meno costoso. Questo perché la quantità di dati da raccogliere, elaborare ed inserire nei modelli è inferiore. Il tempo di elaborazione viene ridotto. In questo esempio, anche con il passo supplementare per la selezione delle funzioni, la creazione del modello è stata più rapida con il numero minore di predittori. Con un set di dati reali più ampio, il risparmio di tempo potrebbe essere notevolmente amplificato.
L'utilizzo di un numero minore di predittori comporta la semplificazione del calcolo del punteggio. Ad esempio, si potrebbero identificare solo quattro profili di clienti che potrebbero aderire alla promozione. Con un numero maggiore di predittori, si corre il rischio di un overfitting del modello. Il modello più semplice potrebbe generalizzarsi meglio ad altri insiemi di dati (anche se è necessario testare questo approccio per esserne certi).
Passi successivi
Ora siete pronti per provare altre esercitazioni diSPSS® Modeler.