Questa esercitazione fornisce un esempio di quando potrebbe essere necessario ridurre la lunghezza della stringa dei dati di input. Per i modelli di regressione logistica binomiale e classificatore automatico che includono un modello di regressione logistica binomiale, i campi stringa sono limitati a un numero massimo di otto caratteri. Quando le stringhe superano gli otto caratteri, è possibile ricodificarle utilizzando il nodo Riclassifica.
Questo esempio si concentra su una piccola parte di un flusso per mostrare il tipo di errori che potrebbero essere generati con stringhe troppo lunghe e spiega come utilizzare il nodo Riclassifica per modificare i dettagli della stringa in una lunghezza accettabile. Sebbene l'esempio utilizzi un nodo di regressione logistica binomiale, è possibile utilizzare anche il nodo Auto Classifier per generare un modello di regressione logistica binomiale.
Prova il tutorial
In questa esercitazione, completerete questi compiti:
Esempio di flusso di modellazione e set di dati
Questa esercitazione utilizza il flusso Riduzione della lunghezza della stringa dei dati di input nel progetto di esempio. Il file di dati utilizzato è drug_long_name.csv. L'immagine seguente mostra il flusso del modellatore di esempio.
Compito 1: Aprire il progetto di esempio
Il progetto campione contiene diversi set di dati e flussi di modellazione di esempio. Se non si dispone già del progetto di esempio, consultare l'argomento Tutorial per creare il progetto di esempio. Seguite quindi i passaggi seguenti per aprire il progetto campione:
- In Cloud Pak for Data, dal menu di navigazione ', scegliere Progetti > Visualizza tutti i progetti.
- Fare clic su ProgettoSPSS Modeler.
- Fare clic sulla scheda Assets per visualizzare i set di dati e i flussi del modellatore.
Controllare i progressi
L'immagine seguente mostra la scheda Assets del progetto. Ora si è pronti a lavorare con il flusso del modellatore di esempio associato a questa esercitazione.
Compito 2: Esaminare il nodo Asset e Tipo di dati
La riduzione della lunghezza della stringa di dati di ingresso comprende diversi nodi. Seguire i seguenti passaggi per esaminare i nodi 'Asset di dati e 'Tipo:
- Dalla scheda Assets, aprire il flusso del modellatore Reducing Input Data String Length e attendere il caricamento dell'area di disegno.
- Fare doppio clic sul nodo drug_long_name.csv. Questo nodo è una risorsa dati che punta al file drug_long_name.csv nel progetto.
- Esaminare il 'Proprietà del formato del file.
- Facoltativo: Fare clic su Anteprima dati per visualizzare l'intero set di dati.
- Fare doppio clic sul nodo Tipo dopo il nodo Asset di dati. Questo nodo specifica le proprietà dei campi, come il livello di misurazione (il tipo di dati che il campo contiene) e il ruolo di ciascun campo come target o input nella modellazione. Il livello di
misurazione è una categoria che indica il tipo di dati all'interno del campo. Il file di dati di origine utilizza tre diversi livelli di misurazione:
- Un campo continuo (come il campo "
Age
) contiene valori numerici continui. - Un campo nominale (come il campo "
Drug
) ha due o più valori distinti; in questo caso, "drugA
o "drugB
. - Un campo Flag (come il campo "
Sex
) descrive dati con più valori distinti che hanno un ordine intrinseco; in questo caso, "F
e "M
.
Per ogni campo, il nodo Tipo specifica anche un ruolo per indicare il ruolo che ogni campo svolge nella modellazione. Il ruolo è impostato su Target per il campo '
Cholesterol_long
, che indica se un cliente ha un livello di colesterolo normale o alto. Il target è il campo per il quale si vuole prevedere il valore.Il ruolo è impostato su Input per gli altri campi. In alcuni casi, i campi di input sono noti come predittori, o campi i cui valori sono utilizzati dall'algoritmo di modellazione per prevedere il valore del campo obiettivo.
- Un campo continuo (come il campo "
- Facoltativo: Fare clic su Anteprima dati per visualizzare il set di dati filtrati.
Controllare i progressi
L'immagine seguente mostra il nodo Tipo. Ora si è pronti a visualizzare il nodo Logistica.
Compito 3: riclassificare i valori
In questa attività, si esegue il modello e si scopre un errore:
- Dalla sezione Modellazione della palette, trascinare il nodo Logistica sull'area di disegno e collegarlo al nodo Tipo esistente dopo il nodo Asset di dati.
- Fare doppio clic sul nodo Colesterolo_lungo per visualizzarne le proprietà.
- Selezionare la procedura binomiale (invece della procedura multinomiale predefinita).
- Si utilizza un modello binomiale quando il campo target è un campo flag o nominale con due valori discreti.
- Un modello multinomiale viene utilizzato quando il campo target è un campo nominale con più di due valori.
- Fare clic su Salva.
- Passare il mouse sul nodo Colesterolo_lungo e fare clic sull'icona Esegui '. Viene visualizzato un messaggio di errore che indica che i valori della stringa
Cholesterol_long
sono troppo lunghi. È possibile utilizzare un nodo Reclassify per trasformare i valori e risolvere il problema. Il nodo Riclassifica è utile per il collasso delle categorie o il raggruppamento dei dati per l'analisi. - Fare doppio clic sul nodo Colesterolo (riclassificazione) per visualizzarne le proprietà. Si noti che il campo Riclassifica è impostato su '
Cholesterol_long
e il nome del nuovo campo è 'Cholesterol
. - Fare clic su Ottieni valori ed espandere la sezione Riclassificazione automatica. Aggiungere i valori di '
Cholesterol_long
alla colonna dei valori originali. - Nella colonna dei nuovi valori, per il valore originale del livello alto di colesterolo, digitare "
High
e per il valore originale del livello normale di colesterolo, digitare "Normal
. Queste impostazioni abbreviano i valori per evitare il messaggio di errore.
Controllare i progressi
L'immagine seguente mostra il nodo Riclassifica. Ora si è pronti a controllare il nodo Filtro.
Task 4: Controllare il nodo Filtro
Seguire questi passaggi per vedere e controllare il nodo Filtro:
- Fare doppio clic sul nodo Filtro per visualizzarne le proprietà.
- Si noti che questo nodo filtra il campo '
Cholesterol_long
.
Controllare i progressi
L'immagine seguente mostra il nodo Filtro. Ora si è pronti a definire il target.
Compito 5: Definire l'obiettivo
È possibile specificare le proprietà dei campi in un nodo Tipo. Procedere come segue per definire la destinazione nel nodo Tipo:
- Fare doppio clic sul nodo Tipo dopo il nodo Filtro per visualizzarne le proprietà.
- Fare clic su Leggi valori per leggere i valori dall'origine dati e impostare i tipi di misurazione del campo. Il Ruolo indica ai nodi di modellazione se i campi sono Input (campi predittivi) o Target (campi predetti) per un processo di apprendimento automatico. Sono disponibili anche i ruoli Entrambi e Nessuno, oltre a Partizione, che indica un campo utilizzato per suddividere i record in campioni separati per la formazione, il test e la convalida. Il valore Split specifica che vengono costruiti modelli separati per ogni possibile valore del campo.
- Per il campo Colesterolo, impostare il ruolo su Target.
- Fare clic su Salva.
Controllare i progressi
L'immagine seguente mostra il nodo Tipo. Ora si è pronti a generare il modello.
Compito 6: Generare il modello
Seguire questi passaggi per visualizzare l'output del modello in formato tabella:
- Passare il mouse sul nodo Colesterolo (Logistica) e fare clic sull'icona Esegui '.
- Dalla sezione Output della palette, trascinare il nodo Tabella sull'area di disegno e collegarlo alla pepita del modello.
- Passare il mouse sul nodo Tabella collegato al modello Colesterolo e fare clic sull'icona Esegui '.
- Nel riquadro Output e modelli, fare clic sui risultati dell'output con il nome Tabella per visualizzare l'output della tabella.
Controllare i progressi
L'immagine seguente mostra l'output del modello.
Riepilogo
Questo esempio ha mostrato il tipo di errori che possono essere generati con stringhe troppo lunghe e spiega come utilizzare il nodo Riclassifica per modificare i dettagli della stringa in una lunghezza accettabile. Sebbene l'esempio utilizzi un nodo di regressione logistica binomiale, è ugualmente applicabile quando si utilizza il nodo Auto Classifier per generare un modello di regressione logistica binomiale.
Passi successivi
Ora siete pronti per provare altre esercitazioni diSPSS® Modeler.