Durante l'estrazione dei concetti chiave e delle idee dalle risposte, Text Analytics si basa sull'analisi del testo basata sulla linguistica. Questo approccio offre la velocità e la convenienza dei sistemi basati su statistiche. Ma offre anche un più alto livello di accuratezza, richiedendo meno interventi degli utenti. L'analisi del testo basata sulla linguistica ha le radici in un campo di studi noto come NLP (Natural Language Processing), detto anche linguistica computazionale.
La comprensione del funzionamento del processo di estrazione può aiutare l'utente a prendere decisioni chiave durante l'ottimizzazione delle risorse linguistiche (librerie, tipi, sinonimi e altro). I passi del processo di estrazione includono:
- Conversione dei dati di origine in un formato standard
- Identificazione dei termini candidati
- Identificazione delle classi di equivalenza e integrazione dei sinonimi
- Assegnazione di un tipo
- Indicizzazione
- Corrispondenza di pattern ed estrazione di eventi
Passo 1. Conversione dei dati di origine in un formato standard
In questo primo passo, i dati importati vengono convertiti in un formato uniforme che può essere utilizzato per ulteriori analisi. Questa conversione viene eseguita internamente e non modifica i dati originali.
Passo 2. Identificazione dei termini candidati
È importante comprendere il ruolo delle risorse linguistiche nell'identificazione dei termini candidati durante l'estrazione linguistica. Le risorse linguistiche vengono utilizzate ogni volta che viene eseguita un'estrazione. Sono presenti sotto forma di modelli, librerie e risorse compilate. Le librerie includono elenchi di parole, relazioni e altre informazioni utilizzate per specificare o ottimizzare l'estrazione. Le risorse compilate non possono essere visualizzate o modificate. Tuttavia, le risorse rimanenti (modelli) possono essere modificate nell'editor dei modelli o, se ci si trova in una sessione del workbench di Text Analytics, nell'editor delle risorse.
Le risorse compilate sono componenti interni centrali del motore di estrazione. Queste risorse includono un dizionario generale che contiene un elenco di moduli di base con un codice parte
del discorso (nome, verbo, aggettivo, avverbio, participio, congiunzione, pronome o
preposizione). Le risorse includono anche tipi integrati riservati utilizzati per assegnare molti termini estratti ai seguenti tipi, <Location>
, <Organization>
o <Person>
.
Oltre a queste risorse compilate, con il prodotto sono fornite molte librerie che possono essere utilizzate come complemento alle definizioni di tipi e concetti nelle risorse compilate, oltre che per offrire altri tipi e sinonimi. Queste librerie, e tutte quelle personalizzate create dagli utenti, sono costituite da più dizionari. Includono dizionari di tipo, dizionari di sostituzione (sinonimi ed elementi facoltativi) e dizionari di esclusione.
Una volta importati e convertiti i dati, il motore di estrazione inizierà a identificare i termini candidati per l'estrazione. I termini candidati sono parole o gruppi di
parole che vengono utilizzate per identificare i concetti nel testo. Durante l'elaborazione del testo, singole parole (uni - terms) che non si trovano nelle risorse compilate vengono considerate come estrazioni di termini candidati. Le parole composte candidate (termini multipli) vengono identificate utilizzando gli estrattori del modello di parte del discorso. Ad esempio, il modello di parte del discorso sports car
a più termini, che segue il nome aggettivo , ha due componenti. Il termine multiplo fast
sports car
, che segue il modello di parte del discorso nome aggettivo , ha tre componenti.
Infine, viene utilizzato un algoritmo speciale per gestire le stringhe di lettere maiuscole, ad esempio titoli professionali, in modo tale che questi particolari pattern possano essere estratti.
Passaggio 3. Identificazione delle classi di equivalenza e integrazione dei sinonimi
Dopo aver identificato i termini uni e multi - termini candidati, il software utilizza una serie di algoritmi per confrontarli e identificare le classi di equivalenza. Una classe di equivalenza è una
forma di base di una frase o una singola forma di due varianti della stessa frase. Lo scopo di assegnare frasi alle classi di equivalenza è garantire che, ad esempio, president of the
company
e company president
non vengano trattati come concetti separati. Per stabilire quale concetto utilizzare per la classe di equivalenza - ossia, se president of the
company
o company president
viene utilizzato come termine guida, il motore di estrazione applica le seguenti regole nell'ordine elencato:
- La forma specificata dall'utente in una libreria.
- La forma più frequente nell'intero corpo del testo.
- La forma più breve nell'intero corpo del testo (che normalmente corrisponde alla forma di base).
Passaggio 4. Assegnazione del tipo
Successivamente, i tipi vengono assegnati ai concetti estratti. Un tipo è un raggruppamento semantico di concetti. Sia le risorse compilate che le librerie vengono utilizzate in questo passo. I tipi includono elementi quali concetti di livello superiore, parole positive e negative, nomi propri, luoghi, organizzazioni e altro. Ulteriori tipi possono essere definiti dall'utente.
Passo 5. Indicizzazione
L'intera serie di record o documenti viene indicizzata stabilendo un puntatore tra una posizione del testo e il termine rappresentativo per ogni classe di equivalenza. Ciò presuppone che tutte le istanze di forme coniugate di un concetto candidato vengano indicizzate come forma di base candidata. La frequenza globale viene calcolata per ogni forma di base.
Passo 6. Corrispondenza di pattern ed estrazione di eventi
Text Analytics può rilevare non solo tipi e concetti ma anche relazioni tra di essi. Con questo strumento sono disponibili numerosi algoritmi e librerie che offrono la possibilità di estrarre pattern di relazione tra tipi e concetti. Sono particolarmente utili quando si tenta di rilevare le opinioni specifiche (ad esempio, reazioni al prodotto) o le relazioni tra persone o oggetti (ad esempio, i collegamenti tra gruppi politici o genomi).