0 / 0
Torna alla versione inglese della documentazione
Automatizzare la preparazione dei dati
Ultimo aggiornamento: 11 dic 2024
Automatizzare la preparazione dei dati

Questa esercitazione fornisce un esempio di preparazione dei dati per l'analisi. La preparazione dei dati è una delle fasi più importanti di qualsiasi progetto di data mining e, tradizionalmente, una delle più lunghe. Il nodo Auto Data Prep si occupa di questo compito, analizzando i dati e identificando le correzioni, eliminando i campi problematici o che non possono essere utili, ricavando nuovi attributi quando necessario e migliorando le prestazioni grazie a tecniche di screening intelligenti.

È possibile utilizzare il nodo Auto Data Prep in modo completamente automatico, consentendo al nodo di scegliere e applicare le correzioni, oppure è possibile visualizzare in anteprima le modifiche prima che vengano apportate e accettarle o rifiutarle. Con questo nodo, è possibile leggere i dati per il data mining rapidamente e facilmente senza la necessità di conoscere a priori i concetti statistici coinvolti. Se si esegue il nodo con le impostazioni predefinite, i modelli tendono a costruirsi e a segnare più rapidamente.

Prova il tutorial

In questa esercitazione, completerete questi compiti:

Esempio di flusso di modellazione e set di dati

Questa esercitazione utilizza il flusso Preparazione automatica dei dati nel progetto di esempio. Il file di dati utilizzato è telco.csv. Questo esempio dimostra la maggiore precisione che si può ottenere utilizzando le impostazioni predefinite del nodo Auto Data Prep quando si costruiscono i modelli. L'immagine seguente mostra il flusso del modellatore di esempio.

Figura 1. Flusso del modellatore di campioni
Flusso di esempio Preparazione automatica dei dati
L'immagine seguente mostra il set di dati di esempio.
Figura 2. Dataset di esempio
Dataset di esempio

Compito 1: Aprire il progetto di esempio

Il progetto campione contiene diversi set di dati e flussi di modellazione di esempio. Se non si dispone già del progetto di esempio, consultare l'argomento Tutorial per creare il progetto di esempio. Seguite quindi i passaggi seguenti per aprire il progetto campione:

  1. In Cloud Pak for Data, dal menu di navigazione 'Menu di navigazione, scegliere Progetti > Visualizza tutti i progetti.
  2. Fare clic su ProgettoSPSS Modeler.
  3. Fare clic sulla scheda Assets per visualizzare i set di dati e i flussi del modellatore.

Icona del punto di controllo Controllare i progressi

L'immagine seguente mostra la scheda Assets del progetto. Ora si è pronti a lavorare con il flusso del modellatore di esempio associato a questa esercitazione.

Progetto di esempio

torna all'inizio

Compito 2: Esaminare i nodi Asset e Tipo di dati

La Preparazione automatica dei dati comprende diversi nodi. Seguire i seguenti passaggi per esaminare i nodi 'Asset di dati e 'Tipo:

  1. Dalla scheda Assets, aprire il flusso Automated Data Preparation del modellatore e attendere il caricamento dell'area di disegno.
  2. Fare doppio clic sul nodo telco.csv Questo nodo è un nodo di risorse dati che punta al file telco.csv nel progetto.
  3. Esaminare il 'Proprietà del formato del file.
  4. Facoltativo: Fare clic su Anteprima dati per visualizzare l'intero set di dati.
  5. Fare doppio clic sul nodo Tipo. Si noti che la misura per il campo 'churn è impostata su Flag e il ruolo è impostato su Target. Assicurarsi che il ruolo di tutti gli altri campi sia impostato su Input.
    Figura 3 Impostare il livello di misurazione e il ruolo
    Impostare il livello di misurazione e il ruolo
  6. Facoltativo: Fare clic su Anteprima dati per vedere il set di dati con le proprietà del tipo applicate.

Icona del punto di controllo Controllare i progressi

L'immagine seguente mostra il nodo Tipo. Ora si è pronti a costruire il modello.

Nodo Tipo

torna all'inizio

Compito 3: costruire i modelli

Costruirete due modelli, uno senza e uno con preparazione automatica dei dati. Seguite questi passaggi per costruire i modelli:

  1. Fare doppio clic sul nodo No ADP - churn collegato al nodo Tipo per visualizzarne le proprietà.
    1. Espandere la sezione Impostazioni modello
    2. Verificare che la procedura sia impostata su Binomiale.
    3. Verificare che il Nome modello sia impostato su Personalizzato e che il nome sia 'No ADP - churn.
      Figura 4. Sezione Impostazioni del modello del nodo logistico
      Scegliere le opzioni del modello
  2. Passare il mouse sul nodo No ADP - churn e fare clic sull'icona Esegui 'Icona di esecuzione.
  3. Nel riquadro Output e modelli, fare clic sul modello denominato No ADP - churn per visualizzare i risultati.
    1. Visualizzare la pagina di riepilogo del modello, che mostra i campi predittivi utilizzati dal modello e la percentuale di previsioni corrette.
    2. Visualizzare il riepilogo dell'elaborazione dei casi, che mostra il numero e la percentuale di record inclusi nell'analisi. Inoltre, elenca il numero di casi mancanti (se presenti) in cui uno o più campi di input non sono disponibili e i casi che non sono stati selezionati.
    3. Chiudere i dettagli del modello.
  4. Fare doppio clic sul nodo Auto Data Prep collegato al nodo Tipo per visualizzarne le proprietà. Automated Data Preparation si occupa della preparazione dei dati per voi, analizzando i vostri dati e identificando le correzioni, eliminando i campi problematici o non utili, ricavando nuovi attributi quando necessario e migliorando le prestazioni grazie a tecniche di screening intelligenti.
    1. Nella sezione Obiettivi, lasciare le impostazioni predefinite per analizzare e preparare i dati bilanciando velocità e precisione. Altre proprietà del nodo Auto Data Prep consentono di specificare se si desidera concentrarsi maggiormente sull'accuratezza, sulla velocità di elaborazione o se si desidera regolare con precisione molte delle fasi di elaborazione per la preparazione dei dati.
      Nota: se si desidera regolare le proprietà dei nodi ed eseguire nuovamente il flusso in futuro, poiché il modello esiste già, è necessario fare clic su Cancella la vecchia analisi, in Obiettivi, prima di eseguire nuovamente il flusso.
    2. Facoltativo: Fare clic su Anteprima dati per vedere il set di dati con le proprietà di preparazione automatica dei dati applicate.
    3. Fare clic su Annulla.
  5. Fare doppio clic sul nodo After ADP - churn collegato al nodo Auto Data Prep per visualizzarne le proprietà.
    1. Espandere la sezione Impostazioni modello
    2. Verificare che la procedura sia impostata su Binomiale.
    3. Verificare che il Nome modello sia impostato su Personalizzato e che il nome sia 'After ADP - churn.
  6. Passare il mouse sul nodo After ADP - churn e fare clic sull'icona Run 'Icona di esecuzione.
  7. Nel riquadro Output e modelli, fare clic sul modello denominato After ADP - churn per visualizzare i risultati.
    1. Visualizzare la pagina di riepilogo del modello, che mostra i campi predittivi utilizzati dal modello e la percentuale di previsioni corrette.
    2. Visualizzare il riepilogo dell'elaborazione dei casi, che mostra il numero e la percentuale di record inclusi nell'analisi. Inoltre, elenca il numero di casi mancanti (se presenti) in cui uno o più campi di input non sono disponibili e i casi che non sono stati selezionati.
    3. Chiudere i dettagli del modello.

Icona del punto di controllo Controllare i progressi

L'immagine seguente mostra i dettagli del modello. Ora siete pronti a confrontare i modelli.

Dettagli del modello

torna all'inizio

Compito 4: confrontare i modelli

Ora che entrambi i modelli sono configurati, seguite i passaggi seguenti per generare e confrontare i modelli:

  1. Passare il mouse sul nodo No ADP - LogReg (Analisi) e fare clic sull'icona Esegui 'Icona di esecuzione.
  2. Passare il mouse sul nodo Dopo ADP - LogReg (Analisi) e fare clic sull'icona Esegui 'Icona di esecuzione.
  3. Nel riquadro Output e modelli, fare clic sui risultati di output con il nome No ADP - LogReg per visualizzare i risultati.
  4. Confrontate i modelli:
    1. Fare clic su Confronta.
    2. Nel campo Seleziona uscita, selezionare Dopo ADP - LogReg.
    L'analisi del modello Auto Data Prep non derivato mostra che l'esecuzione dei dati attraverso il nodo Regressione logistica con le impostazioni predefinite fornisce un modello con un'accuratezza bassa, appena 10.6.
    Figura 5. Risultati del modello derivato da ADP
    Risultati del modello derivato da ADP
    L'analisi del modello derivato da Auto-Data Prep mostra che eseguendo i dati attraverso le impostazioni predefinite di Auto Data Prep, è stato costruito un modello molto più accurato, corretto al 78.3.
    Figura 6. Risultati del modello derivato da ADP
    Risultati del modello derivato da ADP

Icona del punto di controllo Controllare i progressi

L'immagine seguente mostra il confronto tra i modelli.

Confronta i modelli

torna all'inizio

Riepilogo

Eseguendo il nodo Auto Data Prep per perfezionare l'elaborazione dei dati, è stato possibile costruire un modello più accurato con una manipolazione diretta dei dati minima.

Ovviamente, se siete interessati a dimostrare o confutare una certa teoria o volete costruire modelli specifici, potreste trovare vantaggioso lavorare direttamente con le impostazioni del modello. Tuttavia, se il tempo a disposizione è limitato o la quantità di dati da preparare è elevata, il nodo Auto Data Prep può offrire un vantaggio.

I risultati di questo esempio si basano solo sui dati di addestramento. Per valutare la generalizzazione dei modelli ad altri dati del mondo reale, si può usare un nodo Partition per tenere un sottoinsieme di record a scopo di test e convalida.

Passi successivi

Ora siete pronti per provare altre esercitazioni diSPSS® Modeler.

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni