Questa esercitazione fornisce un esempio di preparazione dei dati per l'analisi. La preparazione dei dati è una delle fasi più importanti di qualsiasi progetto di data mining e, tradizionalmente, una delle più lunghe. Il nodo Auto Data Prep si occupa di questo compito, analizzando i dati e identificando le correzioni, eliminando i campi problematici o che non possono essere utili, ricavando nuovi attributi quando necessario e migliorando le prestazioni grazie a tecniche di screening intelligenti.
È possibile utilizzare il nodo Auto Data Prep in modo completamente automatico, consentendo al nodo di scegliere e applicare le correzioni, oppure è possibile visualizzare in anteprima le modifiche prima che vengano apportate e accettarle o rifiutarle. Con questo nodo, è possibile leggere i dati per il data mining rapidamente e facilmente senza la necessità di conoscere a priori i concetti statistici coinvolti. Se si esegue il nodo con le impostazioni predefinite, i modelli tendono a costruirsi e a segnare più rapidamente.
Prova il tutorial
In questa esercitazione, completerete questi compiti:
Esempio di flusso di modellazione e set di dati
Questa esercitazione utilizza il flusso Preparazione automatica dei dati nel progetto di esempio. Il file di dati utilizzato è telco.csv. Questo esempio dimostra la maggiore precisione che si può ottenere utilizzando le impostazioni predefinite del nodo Auto Data Prep quando si costruiscono i modelli. L'immagine seguente mostra il flusso del modellatore di esempio.
Compito 1: Aprire il progetto di esempio
Il progetto campione contiene diversi set di dati e flussi di modellazione di esempio. Se non si dispone già del progetto di esempio, consultare l'argomento Tutorial per creare il progetto di esempio. Seguite quindi i passaggi seguenti per aprire il progetto campione:
- In 'watsonx, dal menu di navigazione ', scegliere Progetti > Visualizza tutti i progetti.
- Fare clic su ProgettoSPSS Modeler.
- Fare clic sulla scheda Assets per visualizzare i set di dati e i flussi del modellatore.
Controllare i progressi
L'immagine seguente mostra la scheda Assets del progetto. Ora si è pronti a lavorare con il flusso del modellatore di esempio associato a questa esercitazione.
Compito 2: Esaminare i nodi Asset e Tipo di dati
La Preparazione automatica dei dati comprende diversi nodi. Seguire i seguenti passaggi per esaminare i nodi 'Asset di dati e 'Tipo:
- Dalla scheda Assets, aprire il flusso Automated Data Preparation del modellatore e attendere il caricamento dell'area di disegno.
- Fare doppio clic sul nodo telco.csv Questo nodo è un nodo di risorse dati che punta al file telco.csv nel progetto.
- Esaminare il 'Proprietà del formato del file.
- Facoltativo: Fare clic su Anteprima dati per visualizzare l'intero set di dati.
- Fare doppio clic sul nodo Tipo. Si noti che la misura per il campo '
churn
è impostata su Flag e il ruolo è impostato su Target. Assicurarsi che il ruolo di tutti gli altri campi sia impostato su Input. - Facoltativo: Fare clic su Anteprima dati per vedere il set di dati con le proprietà del tipo applicate.
Controllare i progressi
L'immagine seguente mostra il nodo Tipo. Ora si è pronti a costruire il modello.
Compito 3: costruire i modelli
Costruirete due modelli, uno senza e uno con preparazione automatica dei dati. Seguite questi passaggi per costruire i modelli:
- Fare doppio clic sul nodo No ADP - churn collegato al nodo Tipo per visualizzarne le proprietà.
- Espandere la sezione Impostazioni modello
- Verificare che la procedura sia impostata su Binomiale.
- Verificare che il Nome modello sia impostato su Personalizzato e che il nome sia 'No ADP - churn.
- Passare il mouse sul nodo No ADP - churn e fare clic sull'icona Esegui '.
- Nel riquadro Output e modelli, fare clic sul modello denominato No ADP - churn per visualizzare i risultati.
- Visualizzare la pagina di riepilogo del modello, che mostra i campi predittivi utilizzati dal modello e la percentuale di previsioni corrette.
- Visualizzare il riepilogo dell'elaborazione dei casi, che mostra il numero e la percentuale di record inclusi nell'analisi. Inoltre, elenca il numero di casi mancanti (se presenti) in cui uno o più campi di input non sono disponibili e i casi che non sono stati selezionati.
- Chiudere i dettagli del modello.
- Fare doppio clic sul nodo Auto Data Prep collegato al nodo Tipo per visualizzarne le proprietà. Automated Data Preparation si occupa della preparazione dei dati per voi, analizzando i vostri dati e identificando le correzioni, eliminando i campi problematici o non utili, ricavando nuovi attributi quando necessario e migliorando le prestazioni grazie a tecniche di screening intelligenti.
- Nella sezione Obiettivi, lasciare le impostazioni predefinite per analizzare e preparare i dati bilanciando velocità e precisione. Altre proprietà del nodo Auto Data Prep consentono di specificare se si desidera concentrarsi maggiormente sull'accuratezza, sulla velocità di elaborazione o se si desidera regolare con precisione molte delle fasi di elaborazione per la preparazione dei dati.Nota: se si desidera regolare le proprietà dei nodi ed eseguire nuovamente il flusso in futuro, poiché il modello esiste già, è necessario fare clic su Cancella la vecchia analisi, in Obiettivi, prima di eseguire nuovamente il flusso.
- Facoltativo: Fare clic su Anteprima dati per vedere il set di dati con le proprietà di preparazione automatica dei dati applicate.
- Fare clic su Annulla.
- Nella sezione Obiettivi, lasciare le impostazioni predefinite per analizzare e preparare i dati bilanciando velocità e precisione. Altre proprietà del nodo Auto Data Prep consentono di specificare se si desidera concentrarsi maggiormente sull'accuratezza, sulla velocità di elaborazione o se si desidera regolare con precisione molte delle fasi di elaborazione per la preparazione dei dati.
- Fare doppio clic sul nodo After ADP - churn collegato al nodo Auto Data Prep per visualizzarne le proprietà.
- Espandere la sezione Impostazioni modello
- Verificare che la procedura sia impostata su Binomiale.
- Verificare che il Nome modello sia impostato su Personalizzato e che il nome sia 'After ADP - churn.
- Passare il mouse sul nodo After ADP - churn e fare clic sull'icona Run '.
- Nel riquadro Output e modelli, fare clic sul modello denominato After ADP - churn per visualizzare i risultati.
- Visualizzare la pagina di riepilogo del modello, che mostra i campi predittivi utilizzati dal modello e la percentuale di previsioni corrette.
- Visualizzare il riepilogo dell'elaborazione dei casi, che mostra il numero e la percentuale di record inclusi nell'analisi. Inoltre, elenca il numero di casi mancanti (se presenti) in cui uno o più campi di input non sono disponibili e i casi che non sono stati selezionati.
- Chiudere i dettagli del modello.
Controllare i progressi
L'immagine seguente mostra i dettagli del modello. Ora siete pronti a confrontare i modelli.
Compito 4: confrontare i modelli
Ora che entrambi i modelli sono configurati, seguite i passaggi seguenti per generare e confrontare i modelli:
- Passare il mouse sul nodo No ADP - LogReg (Analisi) e fare clic sull'icona Esegui '.
- Passare il mouse sul nodo Dopo ADP - LogReg (Analisi) e fare clic sull'icona Esegui '.
- Nel riquadro Output e modelli, fare clic sui risultati di output con il nome No ADP - LogReg per visualizzare i risultati.
- Confrontate i modelli:
- Fare clic su Confronta.
- Nel campo Seleziona uscita, selezionare Dopo ADP - LogReg.
L'analisi del modello Auto Data Prep non derivato mostra che l'esecuzione dei dati attraverso il nodo Regressione logistica con le impostazioni predefinite fornisce un modello con un'accuratezza bassa, appena 10.6.L'analisi del modello derivato da Auto-Data Prep mostra che eseguendo i dati attraverso le impostazioni predefinite di Auto Data Prep, è stato costruito un modello molto più accurato, corretto al 78.3.
Controllare i progressi
L'immagine seguente mostra il confronto tra i modelli.
Riepilogo
Eseguendo il nodo Auto Data Prep per perfezionare l'elaborazione dei dati, è stato possibile costruire un modello più accurato con una manipolazione diretta dei dati minima.
Ovviamente, se siete interessati a dimostrare o confutare una certa teoria o volete costruire modelli specifici, potreste trovare vantaggioso lavorare direttamente con le impostazioni del modello. Tuttavia, se il tempo a disposizione è limitato o la quantità di dati da preparare è elevata, il nodo Auto Data Prep può offrire un vantaggio.
I risultati di questo esempio si basano solo sui dati di addestramento. Per valutare la generalizzazione dei modelli ad altri dati nel mondo reale, si può usare un nodo Partition per tenere un sottoinsieme di record a scopo di test e convalida.
Passi successivi
Ora siete pronti per provare altre esercitazioni diSPSS® Modeler.