Questa esercitazione aiuta ad analizzare il testo utilizzando i nodi specializzati nella gestione del testo. Ad esempio, è possibile eseguire l'analisi del sentiment.
In questa esercitazione, un direttore d'albergo vuole analizzare le recensioni dell'hotel per vedere cosa pensano i clienti. Le recensioni esprimono opinioni sul personale dell'hotel, sul comfort, sulla pulizia, sul prezzo e altre aree di interesse.
Prova il tutorial
In questa esercitazione, completerete questi compiti:
- Compito 1: Aprire il progetto di esempio
- Compito 2: Esaminare il nodo Asset di dati
- Compito 3: Esaminare il nodo Estrazione di testo
- Compito 4: sintonizzare i risultati in Text Analytics Workbench
- Compito 5: costruire il modello
- Compito 6: Visualizzare i commenti
- Compito 7: Esaminare il nodo Analisi dei collegamenti testuali
Esempio di flusso di modellazione e set di dati
Questa esercitazione utilizza il flusso Hotel Satisfaction nel progetto di esempio. Il flusso utilizza i nodi Text Analytics per analizzare le recensioni fittizie sull'hotel. Il file di dati utilizzato è hotelSatisfaction.csv. L'immagine seguente mostra il flusso del modellatore di esempio.
Compito 1: Aprire il progetto di esempio
Il progetto campione contiene diversi set di dati e flussi di modellazione di esempio. Se non si dispone già del progetto di esempio, consultare l'argomento Tutorial per creare il progetto di esempio. Seguite quindi i passaggi seguenti per aprire il progetto campione:
- In 'watsonx, dal menu di navigazione ', scegliere Progetti > Visualizza tutti i progetti.
- Fare clic su ProgettoSPSS Modeler.
- Fare clic sulla scheda Assets per visualizzare i set di dati e i flussi del modellatore.
Controllare i progressi
L'immagine seguente mostra la scheda Assets del progetto. Ora si è pronti a lavorare con il flusso del modellatore di esempio associato a questa esercitazione.
Compito 2: Esaminare il nodo Asset di dati
La soddisfazione alberghiera comprende diversi nodi. Per esaminare il nodo Asset di dati, procedere come segue:
- Dalla scheda Assets, aprire il flusso del modellatore Hotel Satisfaction e attendere il caricamento dell'area di disegno.
- Fare doppio clic sul nodo hotelSatisfaction.csv. Questo nodo è una risorsa dati che punta al file hotelSatisfaction.csv del progetto.
- Esaminare il 'Proprietà del formato del file.
- Facoltativo: Fare clic su Anteprima dati per visualizzare l'intero set di dati.
Controllare i progressi
L'immagine seguente mostra il nodo Data Asset. Ora si è pronti a esaminare il nodo Text Mining.
Compito 3: Esaminare il nodo Estrazione di testo
Il text mining è un processo iterativo che identifica concetti e modelli rilevanti nei dati di testo. Quando si esegue il nodo Text Mining, il motore di estrazione legge i dati del testo, identifica i concetti rilevanti e assegna un tipo a ciascuno. È quindi possibile rivedere i risultati dell'estrazione utilizzando il Text Analytics Workbench per perfezionare il processo di estrazione. È possibile rieseguire il nodo Text Mining per produrre nuovi risultati e quindi valutare i nuovi risultati. Si noti il nodo Tipo tra il nodo Asset di dati e il nodo Estrazione di testo. Il nodo Tipo è necessario per identificare correttamente i campi del set di dati. Per esaminare il nodo Text mining, procedere come segue:
- Fare doppio clic sul nodo Commenti (Text Mining) per visualizzarne le proprietà.
- Impostare queste proprietà nella sezione Campi:
- Per il campo Testo, selezionare Commenti.
- Per il campo ID, selezionare id.Nota: solo il campo Testo è obbligatorio.
- Nella sezione Modello, si noti che il pacchetto di analisi del testo selezionato è Soddisfazione alberghiera (inglese)/Topic + Opinione.
Un pacchetto di analisi testuale (TAP) è un insieme predefinito di librerie e risorse linguistiche e non linguistiche avanzate, che sono abbinate a uno o più gruppi di categorie predefinite. Se nessun pacchetto di analisi del testo è rilevante per la vostra applicazione, potete invece selezionare un modello Resource. Un modello di risorsa è un insieme predefinito di librerie e risorse linguistiche e non linguistiche avanzate che sono state messe a punto per un particolare dominio o utilizzo.
- Nella sezione Costruisci modelli, impostare queste proprietà:
- Verificare che il campo Modalità di costruzione sia impostato su Costruisci interattivamente (categoria modello nugget). In seguito, quando si esegue il nodo, questa opzione avvia Text Analytics Workbench, un'interfaccia interattiva che consente di esplorare e perfezionare i risultati dell'estrazione.
- Verificare che il campo Inizio sessione per sia impostato su Estrazione di concetti e collegamenti di testo. L'opzione Estrazione di concetti estrae solo i concetti, mentre l'estrazione TLA produce sia i concetti sia i collegamenti testuali che sono connessioni tra argomenti (come servizio, personale e cibo) e opinioni.
- Espandere la sezione Esperto e verificare che l'opzione Adatta l'ortografia per una parola di lunghezza minima di caratteri sia selezionata con un limite ortografico di '
5
. Questa opzione applica una tecnica di raggruppamento che consente di raggruppare parole errate o parole simili in un unico concetto. L'algoritmo di raggruppamento fuzzy elimina temporaneamente le consonanti doppie o triple e tutte le vocali (tranne la prima) dalle parole estratte. Poi li confronta per vedere se sono uguali. Ad esempio, "location
e "locattoin
sono raggruppati. - Fare clic su Salva.
- Passare il mouse sul nodo Commenti (estrazione del testo) e fare clic sull'icona Esegui '.
- Nel riquadro Output e modelli, fare clic sui risultati con il nome Commenti per aprire il Workbench di analisi del testo.
Controllare i progressi
L'immagine seguente mostra il Workbench di analisi del testo. Ora si è pronti a sintonizzare i risultati.
Compito 4: sintonizzare i risultati in Text Analytics Workbench
Il Text Analytics Workbench contiene i risultati dell'estrazione e il modello di categoria contenuto nel pacchetto di analisi del testo. Si tratta di un banco di lavoro interattivo in cui è possibile esplorare e perfezionare i risultati estratti, costruire e perfezionare le categorie e creare nuggets di modelli di categoria. Seguite questi passaggi per sintonizzare i risultati nel Text Analytics Workbench:
Concetti
- Fare clic sulla scheda Concetti.
Durante il processo di estrazione, i dati di testo vengono analizzati per identificare singole parole interessanti o rilevanti, come "
airport
o "location
, e frasi di parole come "airport pick-up
. Queste parole e frasi sono collettivamente indicate come termini. Utilizzando le risorse linguistiche, vengono estratti i termini rilevanti e i termini simili vengono raggruppati sotto un termine principale, chiamato concetto.In questo modo, un concetto può rappresentare più termini sottostanti. Dipende da come il termine viene usato nel testo e dall'insieme di risorse linguistiche che si stanno utilizzando.
- Fare clic sull'icona del filtro "
- È inoltre possibile utilizzare un filtro per selezionare un sottoinsieme di concetti. L'immagine seguente mostra le diverse opzioni:
Se si desidera rimuovere i filtri e visualizzare tutti i concetti, fare clic su Cancella filtro.
Fare clic su Annulla per chiudere il riquadro Filtro.
Link di testo
- Fare clic sulla scheda Collegamenti di testo.
L'analisi dei collegamenti testuali (TLA) è una tecnologia di pattern-matching che confronta le regole TLA con i concetti e le relazioni estratte nel testo. Nella scheda Collegamenti di testo è possibile costruire ed esplorare i modelli TLA presenti nei dati di testo.
- Selezionare un modello di tipo (ad esempio, <Servizi> + <Positivo> ) per visualizzare un'anteprima del testo nel documento. Se il testo del 'Anteprima del documento è troncato, fare clic sull'icona 'Visualizza l'intero documento e ' ' per visualizzare l'intero testo.
Categorie
- Fare clic sulla scheda Categorie.
Potete costruire e gestire le vostre categorie. Una volta estratti i concetti e i tipi dai dati testuali, è possibile iniziare a costruire le categorie automaticamente utilizzando tecniche come l'inclusione di concetti, la rete semantica (solo in inglese) o manualmente.
Poiché questo flusso di esempio utilizza un modello di pacchetto di analisi del testo, il modello di categoria è già popolato.
- Fare clic su Tutti i documenti per assegnare un punteggio ai documenti o alle registrazioni. Ogni volta che una categoria viene creata o aggiornata, è possibile vedere se un testo corrisponde a un descrittore di una categoria specifica. Se viene rilevata una corrispondenza, il documento o il record vengono assegnati a tale categoria. Il risultato è che la maggior parte, se non tutti, i documenti o i record sono assegnati alle categorie in base ai descrittori delle categorie.
- Espandere una categoria, ad esempio, Servizi dell'hotel > Pulizia > Neg > non pulito.
- Visualizzare i documenti nella scheda Anteprima e nella scheda Descrittori per vedere i dati di origine.
Controllare i progressi
L'immagine seguente mostra l'anteprima del documento per la categoria Pulizia. Ora si è pronti a costruire il modello.
Compito 5: costruire il modello
Una volta terminata la messa a punto del processo di estrazione, è possibile generare un modello di categoria a partire dalle personalizzazioni e dalle categorie costruite. Seguite questi passaggi per costruire e distribuire il modello:
- Fare clic su Genera un modello per generare un modello di categoria.
- Fare clic su Costruisci per confermare la generazione di un modello di categoria.
- Quando vedrete il successo! fare clic su Ritorno al flusso.
- Fare clic su Salva e esci per salvare le modifiche e il nodo Text Mining nel flusso.Il nugget del modello di categoria generato viene visualizzato sul canvas del flusso.
- Si notino i due nodi del Modello di soddisfazione nel flusso di esempio. Ora che il Text Analytics Workbench ha convalidato e generato un modello di categoria, è possibile distribuirlo nel flusso e assegnare un punteggio allo stesso set di dati o a nuovi dati. Ogni modello utilizza una modalità diversa per l'assegnazione dei punteggi.
- Fare doppio clic sul primo nodo del modello di soddisfazione.
- Espandere la sezione Impostazioni per vedere che questo nodo utilizza la modalità di punteggio Categorie come campi. Con questa modalità di punteggio, i record in uscita sono tanti quanti quelli in ingresso.
- Fare clic su Anteprima dati. Si può notare che ogni record contiene ora un nuovo campo per ogni categoria selezionata nella scheda Modello. Per ciascun campo,
immettere un valore indicatore per i valori true e false, come, ad esempio,
True/False
oppure1/0
. In questo flusso, i valori sono impostati su1
e0
per aggregare i risultati e contare il numero di risposte positive, negative, miste (positive e negative) o senza punteggio (nessuna opinione). - Chiudere la finestra Anteprima.
- Fare clic su Annulla.
- Fare doppio clic sul secondo nodo Modello di soddisfazione.
- Espandere la sezione Impostazioni per vedere che questo nodo utilizza la modalità di punteggio Categorie come record. Per ogni coppia di "
category, document
viene creato un nuovo record. Generalmente, nell'output è presente un numero maggiore di record rispetto all'input. - Fare clic su Anteprima dati. Si può notare che, oltre ai campi di input, vengono aggiunti nuovi campi ai dati, a seconda del tipo di modello.
- Chiudere la finestra Anteprima.
- Fare clic su Annulla.
- Espandere la sezione Impostazioni per vedere che questo nodo utilizza la modalità di punteggio Categorie come record. Per ogni coppia di "
Controllare i progressi
L'immagine seguente mostra il modello di soddisfazione con un'anteprima del documento. Ora siete pronti a visualizzare i commenti.
Compito 6: Visualizzare i commenti
Visualizzando i commenti, è possibile ottenere rapidamente informazioni su ciò che gli ospiti apprezzano dell'hotel. Seguite questi passaggi per creare un grafico a nuvola di parole:
- Selezionate i commenti positivi:
- Nella palette, espandere la sezione Operazioni di registrazione.
- Trascinare il nodo Select sull'area di disegno.
- Collegare il supernodo Derive Sentiment al nodo Select.
- Fare doppio clic sul nodo Select per visualizzarne le proprietà.
- Per la Modalità, selezionare Includi.
- Per la condizione, digitare '
Sentiment = "Pos"
. - Fare clic su Salva.
- Aggiungere un grafico:
- Nella tavolozza, espandere la sezione Grafici.
- Trascinare il nodo Grafici sull'area di disegno.
- Collegare il nodo Select al nodo Charts.
- Costruire un grafico a nuvola di parole:
- Fare doppio clic sul nodo Grafici per visualizzarne le proprietà.
- Fare clic su Avvia costruttore di grafici.
- Per le colonne da visualizzare, selezionare Commenti.
- Visualizzare l'elenco di tutti i tipi di grafico e selezionare Nuvola di parole.
- Al termine, fare clic su Torna al flusso.
Controllare i progressi
L'immagine seguente mostra un grafico a nuvola di parole. Ora si è pronti a esaminare il nodo Analisi dei collegamenti testuali.
Compito 7: Esaminare il nodo Analisi dei collegamenti testuali
- Fare doppio clic sul nodo Analisi dei collegamenti testuali per visualizzarne le proprietà.
- Impostare queste proprietà nella sezione Campi:
- Per il campo Testo, selezionare Commenti.
- Per il campo ID, selezionare id.Nota: solo il campo Testo è obbligatorio.
- Nella sezione Copia risorse da, notate che il modello di risorsa selezionato è Hotel Satisfaction (inglese).
Un modello di risorsa è un insieme predefinito di librerie e risorse linguistiche e non linguistiche avanzate che sono state messe a punto per un particolare dominio o utilizzo.
- Espandere la sezione Esperto e verificare che l'opzione Adatta l'ortografia per una parola di lunghezza minima di caratteri sia selezionata con un limite ortografico di '
5
. - Fare clic su Salva.
- Passare il mouse sul nodo di output Raw TLA e fare clic sull'icona Esegui '.
- Nel riquadro Output e modelli, fare clic sui risultati con il nome Output TLA grezzo per visualizzare i risultati.
Controllare i progressi
L'immagine seguente mostra il flusso completato.
Riepilogo
Questo flusso di soddisfazione alberghiera ha mostrato come un direttore d'albergo possa analizzare le recensioni degli hotel per vedere le opinioni espresse dai clienti su personale, comfort, pulizia, prezzo e altre aree di interesse. Questo flusso illustra due modi per analizzare i dati di testo, utilizzando un nodo Text Mining o un nodo Text Link Analysis.
Passi successivi
Ora siete pronti per provare altre esercitazioni diSPSS® Modeler.