Ridurre la lunghezza della stringa di dati di ingresso
Ultimo aggiornamento: 12 feb 2025
Ridurre la lunghezza della stringa di dati di ingresso
Questa esercitazione fornisce un esempio di quando potrebbe essere necessario ridurre la lunghezza della stringa dei dati di input. Per i modelli di regressione logistica binomiale e classificatore
automatico che includono un modello di regressione logistica binomiale, i campi
stringa sono limitati a un numero massimo di otto caratteri. Quando le stringhe superano gli otto caratteri, è possibile ricodificarle utilizzando il nodo Riclassifica.
Questo esempio si concentra su una piccola parte di un flusso per mostrare il tipo di errori che possono essere generati con stringhe troppo lunghe e spiega come usare il nodo Riclassifica per modificare i dettagli della stringa in una lunghezza accettabile. Sebbene l'esempio utilizzi un nodo di regressione logistica binomiale, è possibile utilizzare anche il nodo Auto Classifier per generare un modello di regressione logistica binomiale.
Anteprima del tutorial
Copy link to section
Guardate questo video per vedere in anteprima i passaggi di questa esercitazione. L'interfaccia utente mostrata nel video potrebbe presentare lievi differenze. Il video è destinato ad accompagnare l'esercitazione scritta. Questo video fornisce un metodo visivo per apprendere i concetti e le attività di questa documentazione.
Prova il tutorial
Copy link to section
In questa esercitazione, completerete questi compiti:
Questa esercitazione utilizza il flusso Riduzione della lunghezza della stringa dei dati di input nel progetto di esempio. Il file di dati utilizzato è drug_long_name.csv. L'immagine seguente mostra il flusso del modellatore di esempio.
Figura 1. Flusso del modellatore di campioni
L'immagine seguente mostra il set di dati di esempio.Figura 2. Dataset di esempio
Compito 1: Aprire il progetto di esempio
Copy link to section
Il progetto campione contiene diversi set di dati e flussi di modellazione di esempio. Se non si dispone già del progetto di esempio, consultare l'argomento Tutorial per creare il progetto di esempio. Seguite quindi i passaggi seguenti per aprire il progetto campione:
In watsonx, dal menu di navigazione, scegliete Progetti > Visualizza tutti i progetti.
Fare clic su ProgettoSPSS Modeler.
Fare clic sulla scheda Assets per visualizzare i set di dati e i flussi del modellatore.
Controlla i tuoi progressi
L'immagine seguente mostra la scheda Assets del progetto. Ora si è pronti a lavorare con il flusso del modellatore di esempio associato a questa esercitazione.
La riduzione della lunghezza della stringa di dati di ingresso comprende diversi nodi. Seguire i seguenti passaggi per esaminare i nodi 'Asset di dati e 'Tipo:
Dalla scheda Assets, aprire il flusso del modellatore Reducing Input Data String Length e attendere il caricamento dell'area di disegno.
Fare doppio clic sul nodo drug_long_name.csv. Questo nodo è una risorsa dati che punta al file drug_long_name.csv nel progetto.
Esaminare il 'Proprietà del formato del file.
Facoltativo: Fare clic su Anteprima dati per visualizzare l'intero set di dati.
Fare doppio clic sul nodo Tipo dopo il nodo Asset di dati. Questo nodo specifica le proprietà dei campi, come il livello di misurazione (il tipo di dati che il campo contiene) e il ruolo di ciascun campo come target o input nella modellazione. Il livello di
misurazione è una categoria che indica il tipo di dati all'interno del campo. Il file di dati di origine utilizza tre diversi livelli di misurazione:
Un campo continuo (come il campo " Age ) contiene valori numerici continui.
Un campo nominale (come il campo " Drug ) ha due o più valori distinti; in questo caso, " drugA o " drugB.
Un campo Flag (come il campo " Sex ) descrive dati con più valori distinti che hanno un ordine intrinseco; in questo caso, " F e " M.
Figura 3 Proprietà del nodo tipo
Per ogni campo, il nodo Tipo specifica anche un ruolo per indicare il ruolo che ogni campo svolge nella modellazione. Il ruolo è impostato su Target per il campo 'Cholesterol_long, che indica se un cliente ha un livello di colesterolo normale o alto. Il target è il campo per il quale si vuole prevedere il valore.
Il ruolo è impostato su Input per gli altri campi. In alcuni casi, i campi di input sono noti come
predittori, o campi i cui valori sono utilizzati
dall'algoritmo di modellazione per prevedere il valore del campo obiettivo.
Facoltativo: Fare clic su Anteprima dati per visualizzare il set di dati filtrati.
Controlla i tuoi progressi
L'immagine seguente mostra il nodo Tipo. Ora si è pronti a visualizzare il nodo Logistica.
In questa attività, si esegue il modello e si scopre un errore:
Dalla sezione Modellazione della palette, trascinare il nodo Logistica sull'area di disegno e collegarlo al nodo Tipo esistente dopo il nodo Asset di dati.
Fare doppio clic sul nodo Colesterolo_lungo per visualizzarne le proprietà.
Selezionare la procedura binomiale (invece della procedura multinomiale predefinita).
Si utilizza un modello binomiale quando il campo target è un campo flag o nominale con due valori discreti.
Un modello multinomiale viene utilizzato quando il campo target è un campo nominale con più di due valori.
Fare clic su Salva.
Passare il mouse sul nodo Colesterolo_lungo e fare clic sull'icona Esegui. Viene visualizzato un messaggio di errore che indica che i valori della stringa
Cholesterol_long sono troppo lunghi. È possibile utilizzare un nodo Reclassify per trasformare i valori e risolvere questo problema. Il nodo Riclassifica è utile per il collasso delle categorie o il raggruppamento dei dati per l'analisi.
Figura 4. Notifiche
Fare doppio clic sul nodo Colesterolo (riclassificazione) per visualizzarne le proprietà. Si noti che il campo Riclassifica è impostato su 'Cholesterol_long e il nome del nuovo campo è 'Cholesterol.
Fare clic su Ottieni valori ed espandere la sezione Riclassificazione automatica. Aggiungere i valori di 'Cholesterol_long alla colonna dei valori originali.
Nella colonna dei nuovi valori, per il valore originale del livello alto di colesterolo, digitare " High e per il valore originale del livello normale di colesterolo, digitare " Normal. Queste impostazioni abbreviano i valori per evitare il messaggio di errore.
Controlla i tuoi progressi
L'immagine seguente mostra il nodo Riclassifica. Ora si è pronti a controllare il nodo Filtro.
È possibile specificare le proprietà dei campi in un nodo Tipo. Procedere come segue per definire la destinazione nel nodo Tipo:
Fare doppio clic sul nodo Tipo dopo il nodo Filtro per visualizzarne le proprietà.
Fare clic su Leggi valori per leggere i valori dall'origine dati e impostare i tipi di misurazione del campo. Il Ruolo indica ai nodi di modellazione se i campi sono Input (campi predittivi) o Target (campi predetti) per un processo di apprendimento automatico. Sono disponibili anche i ruoli Entrambi e Nessuno, oltre a Partizione, che indica un campo utilizzato per suddividere i record in campioni separati per la formazione, il test e la convalida. Il valore Split specifica che vengono costruiti modelli separati per ogni possibile valore del campo.
Per il campo Colesterolo, impostare il ruolo su Target.
Fare clic su Salva.
Controlla i tuoi progressi
L'immagine seguente mostra il nodo Tipo. Ora si è pronti a generare il modello.
Questo esempio ha mostrato il tipo di errori che possono essere generati con stringhe troppo lunghe e spiega come utilizzare il nodo Riclassifica per modificare i dettagli della stringa in una lunghezza accettabile. Sebbene l'esempio utilizzi un nodo di regressione logistica binomiale, è ugualmente applicabile quando si utilizza il nodo Auto Classifier per generare un modello di regressione logistica binomiale.
Informazioni sui cookie del presente sitoPer il corretto funzionamento, i nostri siti Web richiedono alcuni cookie (richiesto). Inoltre, con il suo consenso, potrebbero essere utilizzati altri cookie per l'analisi dell'utilizzo del sito, per migliorare l'esperienza utente e per scopi pubblicitari.Per ulteriori informazioni, consultare le Preferenze cookie. Visitando il nostro sito web, accettate il trattamento delle informazioni da parte nostra come descritto nelladichiarazione sulla privacy di IBM.Per consentire una corretta navigazione, le preferenze per i cookie dell'utente verranno condivise sui domini Web IBM qui elencati.