Il nodo Text Mining utilizza tecniche linguistiche e di frequenza per estrarre concetti chiave dal testo e creare categorie con tali concetti e altri dati. Utilizzare il nodo per esplorare il contenuto dei dati di testo o per produrre un nugget del modello di concetto o del modello di categoria.
- La modalità Genera direttamente (nugget del modello di concetto) produce automaticamente un nugget del modello di concetto o di categoria quando si esegue il nodo.
- Crea in modo interattivo (nugget del modello di categoria) è un approccio più concreto ed esplorativo. È possibile utilizzare questa modalità non solo per estrarre concetti, creare categorie e perfezionare le risorse linguistiche, ma anche per eseguire l'analisi dei collegamenti di testo ed esplorare i cluster. Questa modalità di creazione avvia il workbench di Text Analytics.
È inoltre possibile utilizzare il nodo di estrazione testo per generare uno dei due nugget del modello di estrazione testo:
- I nugget del modello di concetto rilevano ed estraggono concetti importanti dai dati di testo strutturati o non strutturati.
- I nugget del modello di categoria calcolano il punteggio e assegnano documenti e record alle categorie, che sono composte dai concetti (e pattern) estratti.
I concetti e i modelli estratti e le categorie dai nugget del modello possono essere tutti combinati con i dati strutturati esistenti, come i dati demografici, per ottenere decisioni migliori e più mirate. Ad esempio, se i clienti riportano frequentemente problemi di accesso come impedimento primario per completare le attività di gestione degli account online, si potrebbe voler incorporare "problemi di accesso" nei modelli.
Fonti di dati e risorse linguistiche
I nodi Modelli di estrazione testo accettano i dati di testo dai nodi Importa.
È inoltre possibile caricare i modelli personalizzati e i pacchetti di analisi del testo direttamente nel nodo estrazione testo da utilizzare nel processo di estrazione.
Concetti e nugget del modello di concetto
Durante il processo di estrazione, i dati di testo vengono scansionati e analizzati per identificare singole parole importanti, come election
o peace
, e frasi di parole come presidential election
, election of the president
o peace treaties
. Queste parole e frasi sono collettivamente indicate
come termini. Utilizzando le risorse linguistiche, vengono estratti i relativi termini e termini simili vengono raggruppati in un termine principale denominato concetto.
Questo raggruppamento indica che un concetto potrebbe rappresentare più termini sottostanti. Ad esempio, il concetto salary
è stato estratto da un sondaggio sulla soddisfazione dei dipendenti. Quando si osservano i record associati a salary
, si è notato che salary
non è sempre presente nel testo, ma che alcuni record contenevano qualcosa di simile, come i termini wage
, wages
e salaries
. Questi termini sono raggruppati in salary
poiché il motore di estrazione li ha considerati simili o determinati come sinonimi basati sulle regole di elaborazione o sulle risorse linguistiche. In questo caso, tutti i documenti o i record contenenti uno qualsiasi di questi termini verranno trattati come se contenessero la parola salary
.
Se si desidera visualizzare quali termini sono raggruppati in un concetto, è possibile esplorare il concetto nel workbench di Text Analytics oppure esaminare quali sinonimi sono mostrati nel modello di concetto.
- Per esplorare e analizzare i concetti rilevati nel testo di origine originale o per identificare rapidamente i documenti di interesse.
- Applicare questo modello a nuovi record di testo o documenti per identificare rapidamente gli stessi concetti chiave nei nuovi documenti/record. Ad esempio, è possibile applicare il modello al rilevamento in tempo reale dei concetti chiave nei dati del blocco appunti da un call center.
Categorie e nugget del modello di categoria
È possibile creare categorie che rappresentano concetti o argomenti di livello superiore per catturare le idee, le conoscenze e gli atteggiamenti chiave espressi nel testo. Le categorie sono costituite da una serie di descrittori, come concetti, tipi e regole. Insieme, questi descrittori vengono utilizzati per identificare se un record o un documento appartiene o meno a una categoria. Un documento o record può essere sottoposto a scansione per verificare se una parte del testo corrisponde a un descrittore. Se viene trovata una corrispondenza, il documento viene assegnato a tale categoria. Questo processo è chiamato categorizzazione.
Le categorie possono essere create automaticamente utilizzando la solida serie di tecniche automatizzate di SPSS Modeler. È anche possibile crearli manualmente utilizzando eventuali informazioni aggiuntive che potrebbero essere disponibili per quanto riguarda i dati o una combinazione di entrambi. È inoltre possibile caricare una serie di categorie precreate da un pacchetto di analisi di testo attraverso le impostazioni di Modello di questo nodo. La creazione manuale di categorie o la ridefinizione di categorie può essere eseguita solo tramite il workbench di Text Analytics.
Un nugget del modello di categoria contiene una serie di categorie insieme ai relativi descrittori. Il modello può essere utilizzato per categorizzare una serie di documenti o record in base al testo in ogni documento o record. Ogni documento o record viene letto e poi assegnato a ogni categoria per la quale è stata trovata una corrispondenza di descrittore. In questo modo, un documento o record può essere assegnato a più di una categoria. Ad esempio, è possibile utilizzare i nugget del modello di categoria per visualizzare le idee essenziali nelle risposte aperte al sondaggio o in una serie di voci del blog.