0 / 0
Torna alla versione inglese della documentazione
Impostazioni linguistiche avanzate
Ultimo aggiornamento: 07 giu 2024
Impostazioni linguistiche avanzate (SPSS Modeler)

Quando si creano le categorie, è possibile selezionare da un numero di tecniche di creazione di categorie linguistiche avanzate come inclusione di concetto e reti semantiche (solo testo inglese). Queste tecniche possono essere utilizzate singolarmente o in combinazione con altre per creare le categorie.

Tenere presente che ogni dataset è unico e, quindi, il numero di metodi e l'ordine in cui si applicano possono variare nel tempo. Inoltre, poiché gli obiettivi di text mining possono essere diversi da una serie di dati a quella successiva, potrebbe essere necessario sperimentare tecniche differenti per vedere quale produce i migliori risultati per i dati di testo forniti. Nessuna delle tecniche automatiche è in grado di classificare perfettamente i dati; di conseguenza si consiglia di trovare e applicare una o più tecniche automatiche che gestiscano bene i dati.

Le seguenti impostazioni avanzate sono disponibili per l'opzione Utilizza tecniche linguistiche per creare categorie nelle impostazioni di categoria.

Input categoria

Selezionare da cosa verranno create le categorie:

  • Risultati dell'estrazione non utilizzati. Questa opzione consente di creare categorie dai risultati dell'estrazione che non sono utilizzati in nessuna categoria esistente. Ciò riduce al minimo la tendenza dei record a corrispondere a più categorie e limita il numero di categorie prodotte.
  • Tutti i risultati dell'estrazione. Questa opzione consente di creare le categorie utilizzando uno qualsiasi dei risultati dell'estrazione. Questo è particolarmente utile quando non esistono già categorie o esistono poche categorie.

Output categoria

Selezionare la struttura generale per le categorie che verranno create:

  • Gerarchico con sottocategorie. Questa opzione crea sottocategorie e sottocategorie secondarie. È possibile impostare la profondità delle categorie scegliendo il numero massimo di livelli che possono essere creati. Ad esempio, se si sceglie 3, le categorie potrebbero contenere sottocategorie e quelle sottocategorie potrebbero a loro volta avere sottocategorie.
  • Categorie flat (solo livello singolo). Questa opzione crea un solo livello di categorie, ovvero non verranno generate sottocategorie.

Tecniche di raggruppamento

Ognuna delle tecniche disponibili è adatta a determinati tipi di dati e situazioni, ma spesso è utile combinare le tecniche nella stessa analisi per catturare l'intera gamma di documenti o record. È possibile individuare un concetto in più categorie o trovare categorie ridondanti.

  • Raggruppa per inclusione concetti. Questa tecnica crea categorie raggruppando concetti a termini multipli (parole composte) basati sul fatto che contengono parole che sono sottoinsiemi o soprainsiemi di una parola nell'altra. Ad esempio, il concetto seat viene raggruppato con safety seat, seat belte seat belt buckle.
  • Raggruppa per rete semantica. Questa tecnica inizia a individuare i possibili sensi di ciascun concetto dall'indice estensivo di relazioni di parole e poi crea le categorie raggruppando i concetti correlati. Questa tecnica è migliore quando i concetti sono noti alla rete semantica e non sono troppo ambigui. La tecnica è meno utile quando il testo contiene una terminologia specialistica o un gergo sconosciuto alla rete. In un esempio, il concetto granny smith apple potrebbe essere raggruppato con gala apple e winesap apple poiché sono elementi di pari livello del granny smith. In un altro esempio, il concetto animal potrebbe essere raggruppato con cat e kangaroo poiché sono iponimi di animal. Questa tecnica è disponibile solo per il testo in inglese.
  • Scostamento massimo nella ricerca. Questa impostazione è disponibile solo se si seleziona l'opzione Raggruppa per rete semantica. Selezionare quanto si desidera che le tecniche effettuino la ricerca prima di produrre le categorie. Più basso è il valore, meno risultati vengono prodotti; e comunque questi risultati saranno meno di disturbo e avranno maggiori probabilità di essere significativamente associati o collegati tra loro. Maggiore è il valore, più risultati si ottengono; tuttavia questi risultati possono essere meno affidabili o pertinenti. Sebbene questa opzione venga applicata globalmente a tutte le tecniche, il suo effetto è maggiore sulle co-occorrenze e reti semantiche.
  • Impedisci accoppiamenti di concetti specifici. Selezionare questa opzione per impedire al processo di raggruppare o accoppiare due concetti nell'output. Per creare o gestire le coppie di concetti, fare clic su Gestisci coppie.
  • Generalizza con caratteri jolly dove possibile. Selezionare questa opzione per consentire a Modeler di generare regole generiche nelle categorie utilizzando il carattere jolly asterisco. Ad esempio, invece di produrre più descrittori come [apple tart + .] e [apple sauce + .], l'utilizzo di caratteri jolly potrebbe produrre [apple * + .]. Se si generalizza con i caratteri jolly, spesso si otterrà esattamente lo stesso numero di record o documenti di prima. Tuttavia, questa opzione ha il vantaggio di ridurre il numero e semplificare i descrittori di categoria. Inoltre, questa opzione aumenta la possibilità di categorizzare più record o documenti utilizzando queste categorie su nuovi dati di testo (ad esempio negli studi longitudinali/onda).

Altre opzioni per la creazione delle categorie

Numero minimo di categorie di livello massimo create. Utilizzare questa opzione per limitare il numero di categorie che possono essere generate la prossima volta che si fa clic su Crea nel riquadro delle categorie. In alcuni casi, si potrebbero ottenere risultati migliori se si imposta un valore elevato e poi si eliminano le categorie meno interessanti.

Numero minimo di descrittori e/o sottocategorie per descrittore. Utilizzare questa opzione per definire il numero minimo di descrittori e sottocategorie che una categoria deve contenere per essere creata. Questa opzione consente di limitare la creazione di categorie che non catturano un numero significativo di record o documenti.

Consenti ai descrittori di essere presenti in più di una categoria. Se selezionata, questa opzione consente ai descrittori di essere utilizzati in più di una delle categorie che verranno create successivamente. Questa opzione è generalmente selezionata poiché gli elementi comunemente o "naturalmente" rientrano in due o più categorie e in questo modo si ottengono categorie di qualità superiore. Se non si seleziona questa opzione, si riduce la sovrapposizione di record in più categorie e, a seconda del tipo di dati presenti, questo potrebbe essere positivo. Tuttavia, con la maggior parte dei tipi di dati, limitando i descrittori ad una singola categoria si ottiene una perdita di qualità o di copertura di categoria. Ad esempio, supponiamo di avere il concetto car seat manufacturer. Con questa opzione, questo concetto potrebbe apparire in una categoria basata sul testo car seat e in un'altra basata su manufacturer. Ma se questa opzione non è selezionata, anche se è ancora possibile ottenere entrambe le categorie, il concetto car seat manufacturer apparirà solo come un descrittore nella categoria che meglio corrisponde in base a diversi fattori, incluso il numero di record in cui si verificano car seat e manufacturer .

Modifica i nomi di categoria duplicati per. Selezionare la modalità di gestione di eventuali nuove categorie o sottocategorie i cui nomi sono gli stessi di categorie esistenti. È possibile unire le nuove categorie (e i relativi descrittori) con le categorie esistenti con lo stesso nome oppure è possibile scegliere di ignorare la creazione di qualsiasi categoria se si trova un nome duplicato nelle categorie esistenti.

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni