Predittori dello schermo

Torna alla versione inglese della documentazione

Ultimo aggiornamento: 12 dic 2024

Predittori dello schermo

Questa esercitazione utilizza il nodo Feature Selection per aiutare a identificare i campi più importanti nel predire un determinato risultato. Da un insieme di centinaia o addirittura migliaia di predittori, il nodo Feature Selection esamina, classifica e seleziona i predittori che potrebbero essere più importanti. In definitiva, si potrebbe ottenere un modello più rapido ed efficiente, che utilizza un minor numero di predittori, viene eseguito più rapidamente e potrebbe essere più facile da capire.

Prova il tutorial

In questa esercitazione, completerete questi compiti:

Compito 1: Aprire il progetto di esempio
Compito 2: Esaminare i nodi Asset e Tipo di dati
Compito 3: costruire il modello
Attività 4: Esecuzione del flusso e visualizzazione dei risultati

Esempio di flusso di modellazione e set di dati

Questa esercitazione utilizza il flusso Screening Predictors del progetto campione. Il file di dati utilizzato è customer_dbase.csv. L'immagine seguente mostra il flusso del modellatore di esempio.

Flusso di esempio Selezione funzioni — Figura 1. Flusso del modellatore di campioni

Questo esempio concentra l'attenzione solo su una delle offerte come obiettivo. Utilizza il nodo di costruzione ad albero CHAID per sviluppare un modello che descriva quali clienti hanno maggiori probabilità di rispondere alla promozione. Vengono messi a confronto due approcci:

Senza selezione della funzione. Tutti i campi predittore nell'insieme di dati vengono utilizzati come input per la struttura ad albero CHAID.
Con selezione della funzione. Il nodo Feature Selection viene utilizzato per selezionare i 10 predittori migliori. Questi predittori vengono inseriti nell'albero CHAID.

Confrontando i due modelli ad albero risultanti, si può vedere come la selezione delle caratteristiche possa produrre risultati efficaci.

L'immagine seguente mostra il set di dati di esempio.

Compito 1: Aprire il progetto di esempio

Il progetto campione contiene diversi set di dati e flussi di modellazione di esempio. Se non si dispone già del progetto di esempio, consultare l'argomento Tutorial per creare il progetto di esempio. Seguite quindi i passaggi seguenti per aprire il progetto campione:

In 'watsonx, dal menu di navigazione ', scegliere Progetti > Visualizza tutti i progetti.
Fare clic su ProgettoSPSS Modeler.
Fare clic sulla scheda Assets per visualizzare i set di dati e i flussi del modellatore.

Controllare i progressi

L'immagine seguente mostra la scheda Assets del progetto. Ora si è pronti a lavorare con il flusso del modellatore di esempio associato a questa esercitazione.

Progetto di esempio

torna all'inizio

Compito 2: Esaminare i nodi Asset e Tipo di dati

Screening Predictors comprende diversi nodi. Seguire i seguenti passaggi per esaminare i nodi 'Asset di dati e 'Tipo:

Dalla scheda Assets, aprire il flusso del modellatore Screening Predictors e attendere il caricamento dell'area di disegno.
Fare doppio clic sul nodo customer_dbase.csv. Questo nodo è un nodo di risorse di dati che punta al file customer_dbase.csv nel progetto.
Esaminare il 'Proprietà del formato del file.
Facoltativo: Fare clic su Anteprima dati per visualizzare l'intero set di dati.
Fare doppio clic sul nodo Tipo. Si noti il valore del ruolo per ciascuno di questi campi:
- response_01 è impostato su Target
- response_02, response_03 e custid sono impostati su Nessuno
- Tutti gli altri campi sono impostati su Input
Figura 3 Livelli di misura del nodo tipo
Fare clic su Leggi valori.
Facoltativo: Fare clic su Anteprima dati per vedere il set di dati con le proprietà del tipo applicate.
Fare clic su Salva.

Icona del punto di controllo Controllare i progressi

L'immagine seguente mostra il nodo Tipo. Ora si è pronti a costruire il modello.

torna all'inizio

Compito 3: costruire il modello

Per costruire il modello, procedere come segue:

Fare doppio clic sul nodo response_01 (Selezione di una caratteristica) per visualizzarne le proprietà.
Espandere la sezione Opzioni di costruzione per vedere le regole e i criteri definiti che vengono utilizzati per selezionare o squalificare i campi.
Figura 4. Selezione delle funzioni Opzioni di costruzione
Passare il mouse sul nodo response_01 (selezione delle caratteristiche) e fare clic sull'icona Esegui '.
Nel riquadro Output e modelli, fare clic sul modello con il nome response_01 per visualizzarlo. I risultati mostrano i campi che sono risultati utili nella previsione, classificati per importanza. Esaminando tali campi, è possibile decidere quali di essi utilizzare nelle successive sessioni di modellazione.
Per confrontare i risultati senza selezione delle caratteristiche, è necessario utilizzare due nodi di modellazione CHAID nel flusso: uno che utilizza la selezione delle caratteristiche e uno che non la utilizza.
Fare doppio clic sul nodo Con tutti i campi (CHAID) per visualizzarne le proprietà.
1. In Obiettivi, verificare che siano selezionate le opzioni Costruisci nuovo modello e Crea un modello standard.
2. Espandere la sezione Base e verificare che la Profondità massima dell'albero sia impostata su Personalizzato e che il numero di livelli sia impostato su '5.
Fare clic su Salva.
Fare doppio clic sul nodo Utilizzo dei 10 campi principali (CHAID) per visualizzarne le proprietà
1. Verificare le stesse proprietà del nodo Con tutti i campi (CHAID).
2. Fare clic su Salva.

Icona del punto di controllo Controllare i progressi

L'immagine seguente mostra il nodo Modellazione. Ora si è pronti a eseguire il flusso e a visualizzare i risultati.

torna all'inizio

Attività 4: Esecuzione del flusso e visualizzazione dei risultati

Seguire questi passaggi per eseguire il flusso e visualizzare i risultati dei due modelli con e senza selezione delle caratteristiche:

Fare clic su Esegui tutto il '. Durante l'esecuzione, notare quanto tempo impiega ciascun modello a terminare la costruzione.
Nel riquadro Output e modelli, fare clic sul modello con il nome Con tutti i campi per visualizzare i risultati.
1. Fare clic sulla pagina Diagramma ad albero.
2. Zoomare verso l'esterno per vedere l'estensione del diagramma ad albero.
3. Chiudere la finestra dei dettagli del modello.
Nel riquadro Output e modelli, fare clic sul modelrun con il nome Utilizzo dei campi Top 10 per visualizzare i risultati.
1. Fare clic sulla pagina Diagramma ad albero.
2. Zoomare verso l'esterno per vedere l'estensione del diagramma ad albero.
Il secondo modello è stato eseguito più rapidamente del primo. Poiché questo set di dati è relativamente piccolo, la differenza nei tempi di esecuzione è probabilmente di pochi secondi; ma per set di dati reali più grandi, la differenza potrebbe essere notevole: minuti o addirittura ore. L'uso della selezione delle caratteristiche può accelerare notevolmente i tempi di elaborazione.

Si potrebbe invece utilizzare un algoritmo di costruzione di alberi per svolgere il lavoro di selezione delle caratteristiche, consentendo all'albero di identificare i predittori più importanti. Infatti, l'algoritmo CHAID viene spesso utilizzato per questo scopo, ed è anche possibile espandere la struttura ad albero gradualmente per controllarne la profondità e la complessità. Tuttavia, il nodo Feature Selection è più veloce e facile da usare. Classifica tutti i predittori in un'unica fase, aiutandovi a identificare rapidamente i campi più importanti.

Icona del punto di controllo Controllare i progressi

L'immagine seguente mostra il diagramma ad albero del modello.

torna all'inizio

Riepilogo

La seconda struttura ad albero contiene un numero minore di nodi della struttura ad albero rispetto alla prima. È semplice da comprendere. L'utilizzo di un numero minore di predittori è meno costoso. Questo perché la quantità di dati da raccogliere, elaborare ed inserire nei modelli è inferiore. Il tempo di elaborazione viene ridotto. In questo esempio, anche con il passo supplementare per la selezione delle funzioni, la creazione del modello è stata più rapida con il numero minore di predittori. Con un set di dati reali più ampio, il risparmio di tempo potrebbe essere notevolmente amplificato.

L'utilizzo di un numero minore di predittori comporta la semplificazione del calcolo del punteggio. Ad esempio, si potrebbero identificare solo quattro profili di clienti che potrebbero aderire alla promozione. Con un numero maggiore di predittori, si corre il rischio di un overfitting del modello. Il modello più semplice potrebbe generalizzarsi meglio ad altri insiemi di dati (anche se è necessario testare questo approccio per esserne certi).

Passi successivi

Ora siete pronti per provare altre esercitazioni diSPSS® Modeler.