Text Analytics acquisisce in modo rapido e accurato i concetti chiave dai dati di testo utilizzando un processo di estrazione. Questo processo si basa sulle risorse linguistiche per stabilire come analizzare e interpretare grandi quantità di dati testuali non strutturati.
È possibile utilizzare la scheda Resource editor per visualizzare le risorse linguistiche utilizzate nel processo di estrazione. Queste risorse vengono memorizzate sotto forma di modelli e librerie, utilizzati per estrarre concetti, raggrupparli in tipi, rilevare modelli nei dati di testo e altri processi. Text Analytics offre diversi modelli di risorse preconfigurati e, in alcune lingue, è anche possibile utilizzare le risorse nei package di analisi del testo.
Nella scheda Editore risorse, si lavora con termini e tipi per identificare i concetti da estrarre da un documento. Questi termini tecnici sono definiti come segue.
- Concetti
- I concetti sono parole e frasi importanti che sono state identificate ed estratte dai dati di testo. Vengono anche indicati come risultati di estrazione. Questi concetti sono raggruppati in tipi. È possibile utilizzare questi concetti per esplorare i dati e creare le categorie.
- Termini
- I termini sono le parole specifiche che costituiscono un concetto. I termini sono parole singole come
airport
olocation
e frasi di parole comeairport pick-up
. Vengono utilizzati per identificare i concetti nel testo. I termini possono essere forme plurali o singolari di parole, parti di parole più grandi, sinonimi o variazioni ortografiche. - Tipi
- I tipi sono raggruppamenti semantici per concetti. Quando vengono estratti i concetti, vengono assegnati ad un
tipo per contribuire a raggruppare concetti simili. Ad esempio, alcuni dei tipi predefiniti sono
<Location>
,<Organization>
,<Person>
,<Positive>
e<Negative>
.
È possibile utilizzare la scheda Editore risorse per personalizzare e mettere a punto le risorse linguistiche. È inoltre possibile utilizzare i controlli per gestire la corrispondenza dei termini con i dati di testo e definire le regole per TLA (text link analysis).
riquadro Termini / sinonimi
Il riquadro Termini / sinonimi mostra tutte le librerie utilizzate come risorse linguistiche durante il processo di estrazione. Se si desidera personalizzare il modo in cui termini specifici vengono raggruppati in concetti, è possibile modificare i termini nelle librerie. È anche possibile aggiungere termini alle librerie. Ad esempio, se i dati di testo sono specifici di un campo o di una disciplina, è possibile aggiungere eventuali termini tecnici mancanti.
Librerie e modelli personalizzati
Poiché queste risorse potrebbero non adattarsi perfettamente al contesto dei vostri dati, potete creare e gestire le vostre risorse per un particolare contesto o dominio nella scheda Editor di risorse.
È possibile salvare tutte le modifiche apportate a una libreria o a un modello come asset di progetto, che è possibile riutilizzare in altri flussi. È anche possibile importare librerie o modelli personalizzati nel caso in cui si gestiscano le risorse utilizzando i file locali.
Raggruppamento fuzzy e raggruppamento per inflessione
È possibile utilizzare le tecniche di raggruppamento fuzzy e di raggruppamento per inflessione quando si analizzano i dati di testo. La tecnica di raggruppamento fuzzy raggruppa le parole comunemente scritte o le parole strettamente scritte, mentre la tecnica di raggruppamento dell'inflessione raggruppa le varianti inflesse delle parole in base alla radice.
Se si nota che due parole con un'ortografia simile vengono raggruppate in modo errato quando si attivano queste funzioni, è possibile escludere le parole da queste tecniche di raggruppamento. È possibile aggiungere le coppie non correttamente abbinate nella sezione Eccezioni della scheda Risorse avanzate.