Quando si creano le categorie, è possibile selezionare da un numero di tecniche di creazione di categorie linguistiche avanzate come inclusione di concetto e reti semantiche (solo testo inglese). Queste tecniche possono essere utilizzate singolarmente o in combinazione con altre per creare le categorie.
Tenere presente che ogni dataset è unico e, quindi, il numero di metodi e l'ordine in cui si applicano possono variare nel tempo. Inoltre, poiché gli obiettivi di text mining possono essere diversi da una serie di dati a quella successiva, potrebbe essere necessario sperimentare tecniche differenti per vedere quale produce i migliori risultati per i dati di testo forniti. Nessuna delle tecniche automatiche è in grado di classificare perfettamente i dati; di conseguenza si consiglia di trovare e applicare una o più tecniche automatiche che gestiscano bene i dati.
Le seguenti impostazioni avanzate sono disponibili per l'opzione Utilizza tecniche linguistiche per creare categorie nelle impostazioni di categoria.
Input categoria
Selezionare da cosa verranno create le categorie:
- Risultati dell'estrazione non utilizzati. Questa opzione consente di creare categorie dai risultati dell'estrazione che non sono utilizzati in nessuna categoria esistente. Ciò riduce al minimo la tendenza dei record a corrispondere a più categorie e limita il numero di categorie prodotte.
- Tutti i risultati dell'estrazione. Questa opzione consente di creare le categorie utilizzando uno qualsiasi dei risultati dell'estrazione. Questo è particolarmente utile quando non esistono già categorie o esistono poche categorie.
Output categoria
Selezionare la struttura generale per le categorie che verranno create:
- Gerarchico con sottocategorie. Questa opzione crea sottocategorie e sottocategorie secondarie. È possibile impostare la profondità delle categorie scegliendo il numero massimo di livelli che possono essere creati. Ad esempio, se si sceglie 3, le categorie potrebbero contenere sottocategorie e quelle sottocategorie potrebbero a loro volta avere sottocategorie.
- Categorie flat (solo livello singolo). Questa opzione crea un solo livello di categorie, ovvero non verranno generate sottocategorie.
Tecniche di raggruppamento
Ognuna delle tecniche disponibili è adatta a determinati tipi di dati e situazioni, ma spesso è utile combinare le tecniche nella stessa analisi per catturare l'intera gamma di documenti o record. È possibile individuare un concetto in più categorie o trovare categorie ridondanti.
- Raggruppa per inclusione concetti. Questa tecnica crea categorie raggruppando concetti a
termini multipli (parole composte) basati sul fatto che contengono parole che sono sottoinsiemi o soprainsiemi
di una parola nell'altra. Ad esempio, il concetto
seat
viene raggruppato consafety seat
,seat belt
eseat belt buckle
. - Raggruppa per rete semantica. Questa tecnica inizia a individuare i possibili sensi di ciascun
concetto dall'indice estensivo di relazioni di parole e poi crea le categorie raggruppando i concetti
correlati. Questa tecnica è migliore quando i concetti sono noti alla rete semantica e non sono troppo
ambigui. La tecnica è meno utile quando il testo contiene una terminologia specialistica o un gergo
sconosciuto alla rete. In un esempio, il concetto
granny smith apple
potrebbe essere raggruppato congala apple
ewinesap apple
poiché sono elementi di pari livello del granny smith. In un altro esempio, il concettoanimal
potrebbe essere raggruppato concat
ekangaroo
poiché sono iponimi dianimal
. Questa tecnica è disponibile solo per il testo in inglese. - Scostamento massimo nella ricerca. Questa impostazione è disponibile solo se si seleziona l'opzione Raggruppa per rete semantica. Selezionare quanto si desidera che le tecniche effettuino la ricerca prima di produrre le categorie. Più basso è il valore, meno risultati vengono prodotti; e comunque questi risultati saranno meno di disturbo e avranno maggiori probabilità di essere significativamente associati o collegati tra loro. Maggiore è il valore, più risultati si ottengono; tuttavia questi risultati possono essere meno affidabili o pertinenti. Sebbene questa opzione venga applicata globalmente a tutte le tecniche, il suo effetto è maggiore sulle co-occorrenze e reti semantiche.
- Impedisci accoppiamenti di concetti specifici. Selezionare questa opzione per impedire al processo di raggruppare o accoppiare due concetti nell'output. Per creare o gestire le coppie di concetti, fare clic su Gestisci coppie.
- Generalizza con caratteri jolly dove possibile. Selezionare questa opzione per
consentire a Modeler di generare regole generiche nelle categorie utilizzando il carattere jolly asterisco. Ad esempio, invece di produrre più descrittori come
[apple tart + .]
e[apple sauce + .]
, l'utilizzo di caratteri jolly potrebbe produrre[apple * + .]
. Se si generalizza con i caratteri jolly, spesso si otterrà esattamente lo stesso numero di record o documenti di prima. Tuttavia, questa opzione ha il vantaggio di ridurre il numero e semplificare i descrittori di categoria. Inoltre, questa opzione aumenta la possibilità di categorizzare più record o documenti utilizzando queste categorie su nuovi dati di testo (ad esempio negli studi longitudinali/onda).
Altre opzioni per la creazione delle categorie
Numero minimo di categorie di livello massimo create. Utilizzare questa opzione per limitare il numero di categorie che possono essere generate la prossima volta che si fa clic su Crea nel riquadro delle categorie. In alcuni casi, si potrebbero ottenere risultati migliori se si imposta un valore elevato e poi si eliminano le categorie meno interessanti.
Numero minimo di descrittori e/o sottocategorie per descrittore. Utilizzare questa opzione per definire il numero minimo di descrittori e sottocategorie che una categoria deve contenere per essere creata. Questa opzione consente di limitare la creazione di categorie che non catturano un numero significativo di record o documenti.
Consenti ai descrittori di essere presenti in più di una categoria. Se selezionata, questa opzione consente ai descrittori di essere utilizzati in più di una delle categorie che
verranno create successivamente. Questa opzione è generalmente selezionata poiché gli elementi comunemente o
"naturalmente" rientrano in due o più categorie e in questo modo si ottengono categorie di
qualità superiore. Se non si seleziona questa opzione, si riduce la sovrapposizione di record in più
categorie e, a seconda del tipo di dati presenti, questo potrebbe essere positivo. Tuttavia, con la maggior
parte dei tipi di dati, limitando i descrittori ad una singola categoria si ottiene una perdita di
qualità o di copertura di categoria. Ad esempio, supponiamo di avere il concetto car seat manufacturer
. Con questa opzione, questo concetto potrebbe apparire in una categoria basata sul testo car seat
e in un'altra basata su manufacturer
. Ma se questa opzione non è selezionata, anche se è ancora possibile ottenere entrambe le categorie, il concetto car seat manufacturer
apparirà solo come un descrittore nella categoria che meglio corrisponde in base a diversi fattori, incluso il numero di record in cui si verificano car seat
e manufacturer
.
Modifica i nomi di categoria duplicati per. Selezionare la modalità di gestione di eventuali nuove categorie o sottocategorie i cui nomi sono gli stessi di categorie esistenti. È possibile unire le nuove categorie (e i relativi descrittori) con le categorie esistenti con lo stesso nome oppure è possibile scegliere di ignorare la creazione di qualsiasi categoria se si trova un nome duplicato nelle categorie esistenti.