Da un nodo di estrazione testo, è possibile scegliere di avviare la sessione del workbench di Text Analytics quando viene eseguito il flusso. Il workbench di Text Analytics è una sessione interattiva in cui è possibile esplorare i risultati di estrazione e ottimizzare la configurazione per il nodo di estrazione testo.
Il text mining è un processo iterativo in base al quale i risultati dell'estrazione vengono esaminati in base al contesto dei dati di testo, ottimizzati per produrre nuovi risultati e quindi rivalutati. Quando si esegue il nodo estrazione testo, il motore di estrazione legge i dati di testo, identifica i concetti rilevanti e assegna un tipo a ciascuno.
Quando il nodo Text Mining termina l'esecuzione, si apre il Text Analytics Workbench per esaminare i risultati dell'estrazione. Il workbench di Text Analytics è organizzato in schede. In ogni scheda è possibile concentrarsi su diverse aree del processo di text mining.
- Concetti
- I concetti sono parole e frasi importanti che sono state identificate ed estratte dai dati di testo. Vengono anche indicati come risultati di estrazione. Questi concetti sono raggruppati in tipi. È possibile utilizzare questi concetti per esplorare i dati e creare le categorie. È possibile gestire i concetti nella scheda Concetti .
- Link di testo
- È possibile estrarre i pattern dai dati di testo se si dispone di regole TLA (text link analysis) nelle risorse linguistiche. Ad esempio, il modello di risorsa ha già alcune regole TLA. Questi pattern possono aiutare a scoprire relazioni interessanti tra i concetti presenti nei dati. È anche possibile utilizzare tali pattern come descrittori nelle categorie. È possibile gestire questi pattern nella scheda Link di testo .
- Categorie
- Utilizzando i descrittori (ad esempio i risultati di estrazione, i pattern e le regole) come definizione, è possibile creare manualmente o automaticamente una serie di categorie. I documenti e i record vengono assegnati a queste categorie in base al fatto che contengano o meno una parte della definizione di categoria. È possibile gestire le categorie nella scheda Categorie .
- Risorse
- Il processo di estrazione si basa su una serie di parametri e definizioni dalle risorse linguistiche per gestire il modo in cui il testo viene estratto e gestito. È possibile sintonizzare queste risorse linguistiche (come i modelli e le librerie) nella scheda Resource editor.
Il workbench può essere utilizzato per eseguire le seguenti operazioni di text mining:
- Estrarre i concetti chiave dai dati di testo
- Crea categorie
- Esplora pattern in TLA (text link analysis)
- Genera nugget del modello di categorie
- Salvare le risorse messe a punto o utilizzate durante il processo di estrazione come pacchetto di analisi del testo (TAP).