SPSS Modeler utilizza un processo di estrazione che si basa su risorse linguistiche. Queste risorse linguistiche servono come base per elaborare i dati del testo ed estrarre informazioni per ottenere concetti, tipi e talvolta modelli.
Le risorse linguistiche possono essere suddivise in diversi tipi:
- Insiemi di categorie
- Le categorie sono un gruppo di idee e modelli strettamente correlati a cui vengono assegnati i dati del testo attraverso un processo di assegnazione di un punteggio.
- Librerie
- Le librerie sono utilizzate come blocchi di creazione per entrambi i TAP e i modelli. Ogni biblioteca è composta da diversi dizionari, utilizzati per definire e gestire termini, sinonimi ed elenchi di esclusione. Mentre le librerie vengono fornite anche singolarmente esse sono anche precompresse in modelli e TAP.
- Modelli
- I modelli sono costituiti da un insieme di librerie e da alcune risorse linguistiche e non linguistiche avanzate. Queste risorse formano un insieme specializzato che si adatta a un particolare dominio o contesto, come le opinioni sui prodotti.
- Pacchetti di analisi del testo (TAP)
- Un pacchetto di analisi del testo è un modello predefinito che viene fornito con uno o più set di categorie. I TAP raggruppano queste risorse in modo che le categorie e le risorse utilizzate per generarle siano conservate insieme e riutilizzabili. È possibile riutilizzare un TAP per applicare le stesse categorie e risorse ad altri flussi.
Risorse linguistiche personalizzate
SPSS Modeler dispone di un set predefinito di risorse linguistiche specializzate. È possibile utilizzare queste risorse linguistiche per beneficiare della ricerca e della messa a punto per lingue specifiche e applicazioni specifiche. Tuttavia, queste risorse linguistiche potrebbero non essere ottimizzate per il vostro contesto o per i vostri dati. È possibile modificare e salvare le modifiche a queste risorse linguistiche per ottimizzare il processo di estrazione per il proprio flusso.
È inoltre possibile creare e importare risorse linguistiche personalizzate, adattate in modo esclusivo ai dati dell'organizzazione. È possibile utilizzare file locali per condividere queste risorse linguistiche tra utenti e progetti. È possibile aggiungere un modello, una libreria o un TAP come risorsa del progetto da un file locale.