Ridurre la lunghezza della stringa di dati di ingresso

Ultimo aggiornamento: 11 feb 2025

Questa esercitazione fornisce un esempio di quando potrebbe essere necessario ridurre la lunghezza della stringa dei dati di input. Per i modelli di regressione logistica binomiale e classificatore automatico che includono un modello di regressione logistica binomiale, i campi stringa sono limitati a un numero massimo di otto caratteri. Quando le stringhe superano gli otto caratteri, è possibile ricodificarle utilizzando il nodo Riclassifica.

Questo esempio si concentra su una piccola parte di un flusso per mostrare il tipo di errori che potrebbero essere generati con stringhe troppo lunghe e spiega come utilizzare il nodo Riclassifica per modificare i dettagli della stringa in una lunghezza accettabile. Sebbene l'esempio utilizzi un nodo di regressione logistica binomiale, è possibile utilizzare anche il nodo Auto Classifier per generare un modello di regressione logistica binomiale.

Anteprima del tutorial

Guarda il video Guardate questo video per vedere in anteprima i passaggi di questa esercitazione. L'interfaccia utente mostrata nel video potrebbe presentare lievi differenze. Il video è destinato ad accompagnare l'esercitazione scritta. Questo video fornisce un metodo visivo per apprendere i concetti e le attività di questa documentazione.

Prova il tutorial

In questa esercitazione, completerete questi compiti:

Compito 1: Aprire il progetto di esempio
Compito 2: Esaminare il nodo Asset e Tipo di dati
Compito 3: riclassificare i valori
Task 4: Controllare il nodo Filtro
Compito 5: Definire l'obiettivo
Compito 6: Generare il modello

Esempio di flusso di modellazione e set di dati

Questa esercitazione utilizza il flusso Riduzione della lunghezza della stringa dei dati di input nel progetto di esempio. Il file di dati utilizzato è drug_long_name.csv. L'immagine seguente mostra il flusso del modellatore di esempio.

Flusso di esempio che mostra la ricodifica della stringa per la
regressione logistica binomiale — Figura 1. Flusso del modellatore di campioni

L'immagine seguente mostra il set di dati di esempio.

Compito 1: Aprire il progetto di esempio

Il progetto campione contiene diversi set di dati e flussi di modellazione di esempio. Se non si dispone già del progetto di esempio, consultare l'argomento Tutorial per creare il progetto di esempio. Seguite quindi i passaggi seguenti per aprire il progetto campione:

In Cloud Pak for Data, dal menu di navigazione , scegliere Progetti > Visualizza tutti i progetti.
Fare clic su ProgettoSPSS Modeler.
Fare clic sulla scheda Assets per visualizzare i set di dati e i flussi del modellatore.

Controllare i propri progressi

L'immagine seguente mostra la scheda Assets del progetto. Ora si è pronti a lavorare con il flusso del modellatore di esempio associato a questa esercitazione.

Progetto di esempio

torna all'inizio

Compito 2: Esaminare il nodo Asset e Tipo di dati

La riduzione della lunghezza della stringa di dati di ingresso comprende diversi nodi. Seguire i seguenti passaggi per esaminare i nodi 'Asset di dati e 'Tipo:

Dalla scheda Assets, aprire il flusso del modellatore Reducing Input Data String Length e attendere il caricamento dell'area di disegno.
Fare doppio clic sul nodo drug_long_name.csv. Questo nodo è una risorsa dati che punta al file drug_long_name.csv nel progetto.
Esaminare il 'Proprietà del formato del file.
Facoltativo: Fare clic su Anteprima dati per visualizzare l'intero set di dati.
Fare doppio clic sul nodo Tipo dopo il nodo Asset di dati. Questo nodo specifica le proprietà dei campi, come il livello di misurazione (il tipo di dati che il campo contiene) e il ruolo di ciascun campo come target o input nella modellazione. Il livello di misurazione è una categoria che indica il tipo di dati all'interno del campo. Il file di dati di origine utilizza tre diversi livelli di misurazione:
- Un campo continuo (come il campo " Age ) contiene valori numerici continui.
- Un campo nominale (come il campo " Drug ) ha due o più valori distinti; in questo caso, " drugA o " drugB.
- Un campo Flag (come il campo " Sex ) descrive dati con più valori distinti che hanno un ordine intrinseco; in questo caso, " F e " M.
Figura 3. Proprietà del nodo tipo

Per ogni campo, il nodo Tipo specifica anche un ruolo per indicare il ruolo che ogni campo svolge nella modellazione. Il ruolo è impostato su Target per il campo 'Cholesterol_long, che indica se un cliente ha un livello di colesterolo normale o alto. Il target è il campo per il quale si vuole prevedere il valore.

Il ruolo è impostato su Input per gli altri campi. In alcuni casi, i campi di input sono noti come predittori, o campi i cui valori sono utilizzati dall'algoritmo di modellazione per prevedere il valore del campo obiettivo.
Facoltativo: Fare clic su Anteprima dati per visualizzare il set di dati filtrati.

Icona del punto di controllo Controllare i propri progressi

L'immagine seguente mostra il nodo Tipo. Ora si è pronti a visualizzare il nodo Logistica.

torna all'inizio

Compito 3: riclassificare i valori

In questa attività, si esegue il modello e si scopre un errore:

Dalla sezione Modellazione della palette, trascinare il nodo Logistica sull'area di disegno e collegarlo al nodo Tipo esistente dopo il nodo Asset di dati.
Fare doppio clic sul nodo Colesterolo_lungo per visualizzarne le proprietà.
Selezionare la procedura binomiale (invece della procedura multinomiale predefinita).
- Si utilizza un modello binomiale quando il campo target è un campo flag o nominale con due valori discreti.
- Un modello multinomiale viene utilizzato quando il campo target è un campo nominale con più di due valori.
Fare clic su Salva.
Passare il mouse sul nodo Colesterolo_lungo e fare clic sull'icona Esegui . Viene visualizzato un messaggio di errore che indica che i valori della stringa Cholesterol_long sono troppo lunghi. È possibile utilizzare un nodo Reclassify per trasformare i valori e risolvere il problema. Il nodo Riclassifica è utile per il collasso delle categorie o il raggruppamento dei dati per l'analisi.

Figura 4. Notifiche
Fare doppio clic sul nodo Colesterolo (riclassificazione) per visualizzarne le proprietà. Si noti che il campo Riclassifica è impostato su 'Cholesterol_long e il nome del nuovo campo è 'Cholesterol.
Fare clic su Ottieni valori ed espandere la sezione Riclassificazione automatica. Aggiungere i valori di 'Cholesterol_long alla colonna dei valori originali.
Nella colonna dei nuovi valori, per il valore originale del livello alto di colesterolo, digitare " High e per il valore originale del livello normale di colesterolo, digitare " Normal. Queste impostazioni abbreviano i valori per evitare il messaggio di errore.

Icona del punto di controllo Controllare i propri progressi

L'immagine seguente mostra il nodo Riclassifica. Ora si è pronti a controllare il nodo Filtro.

torna all'inizio

Task 4: Controllare il nodo Filtro

Seguire questi passaggi per vedere e controllare il nodo Filtro:

Fare doppio clic sul nodo Filtro per visualizzarne le proprietà.
Si noti che questo nodo filtra il campo 'Cholesterol_long.

Icona del punto di controllo Controllare i propri progressi

L'immagine seguente mostra il nodo Filtro. Ora si è pronti a definire il target.

torna all'inizio

Compito 5: Definire l'obiettivo

È possibile specificare le proprietà dei campi in un nodo Tipo. Procedere come segue per definire la destinazione nel nodo Tipo:

Fare doppio clic sul nodo Tipo dopo il nodo Filtro per visualizzarne le proprietà.
Fare clic su Leggi valori per leggere i valori dall'origine dati e impostare i tipi di misurazione del campo. Il Ruolo indica ai nodi di modellazione se i campi sono Input (campi predittivi) o Target (campi predetti) per un processo di apprendimento automatico. Sono disponibili anche i ruoli Entrambi e Nessuno, oltre a Partizione, che indica un campo utilizzato per suddividere i record in campioni separati per la formazione, il test e la convalida. Il valore Split specifica che vengono costruiti modelli separati per ogni possibile valore del campo.
Per il campo Colesterolo, impostare il ruolo su Target.
Fare clic su Salva.

Icona del punto di controllo Controllare i propri progressi

L'immagine seguente mostra il nodo Tipo. Ora si è pronti a generare il modello.

torna all'inizio

Compito 6: Generare il modello

Seguire questi passaggi per visualizzare l'output del modello in formato tabella:

Passare il mouse sul nodo Colesterolo (Logistica) e fare clic sull'icona Esegui .
Dalla sezione Output della palette, trascinare il nodo Tabella sull'area di disegno e collegarlo alla pepita del modello.
Passare il mouse sul nodo Tabella collegato al modello Colesterolo e fare clic sull'icona Esegui .
Nel riquadro Output e modelli, fare clic sui risultati dell'output con il nome Tabella per visualizzare l'output della tabella.

Icona del punto di controllo Controllare i propri progressi

L'immagine seguente mostra l'output del modello.

torna all'inizio

Riepilogo

Questo esempio ha mostrato il tipo di errori che possono essere generati con stringhe troppo lunghe e spiega come utilizzare il nodo Riclassifica per modificare i dettagli della stringa in una lunghezza accettabile. Sebbene l'esempio utilizzi un nodo di regressione logistica binomiale, è ugualmente applicabile quando si utilizza il nodo Auto Classifier per generare un modello di regressione logistica binomiale.