È possibile personalizzare diverse parti del processo di estrazione nel workbench di Text Analytics. Nelle schede Concetti, Link di testoe Categorie , è possibile accedere a diverse impostazioni del workbench per cambiare il modo in cui i termini vengono estratti dai dati di testo.
Impostazioni per i risultati di estrazione
Quando si esegue il nodo estrazione testo, il motore di estrazione legge i dati di testo, identifica i concetti rilevanti e assegna un tipo a ciascuno. È possibile cambiare le impostazioni per il processo di estrazione per ottimizzare la modalità di creazione dei risultati di estrazione.
Dalla scheda Concetti o Link di testo , fare clic sull'icona Impostazioni per modificare l'impostazione per l'estrazione di concetti, modelli e link di testo.
- Abilita estrazione del pattern TLA (Text Link Analysis)
- Se si dispone di regole TLA (text link analysis) in una delle proprie librerie, selezionare la casella di spunta per estrarre i modelli TLA dai dati di testo. Questa opzione può allungare notevolmente il tempo di estrazione.
- Limita l'estrazione ai concetti con una frequenza globale di almeno:
- È possibile utilizzare questa opzione per estrarre un termine come concetto solo se il termine appare un numero impostato di volte nei dati di testo.
- Correggi errori di punteggiatura
- Questa opzione normalizza temporaneamente il testo con errori di punteggiatura per migliorare l'estraibilità dei concetti durante il processo di estrazione. Questa opzione è utile quando un testo è di qualità breve e scarsa. Ad esempio, i dati di testo provenienti da risposte aperte al sondaggio, e-mail e dati CRM possono avere punteggiatura non corretta. È utile anche quando il testo contiene molte abbreviazioni.
- Correggi l'ortografia per un limite minimo di caratteri radice
- Questa opzione applica una tecnica di raggruppamento fuzzy che consente di raggruppare parole comunemente scritte in modo errato o parole scritte in modo molto stretto in un unico concetto. L'algoritmo di raggruppamento sfocato rimuove temporaneamente tutte le vocali (tranne la prima) e rimuove le consonanti doppie / triple dalle parole estratte. Quindi confronta le parole estratte per vedere se sono le stesse. Ad esempio:modelingemodellingsono raggruppati insieme. Tuttavia, se ogni termine è assegnato a un tipo diverso, escludendo<Unknown>, la tecnica di raggruppamento fuzzy non viene applicata.
- Estrai termini singoli
- È possibile utilizzare questa opzione per estrarre singole parole (termini singoli) come concetti quando soddisfano i seguenti criteri:
- Estrai entità non linguistiche
- Questa opzione estrae le entità non linguistiche, ad esempio le seguenti entità:
- Numeri di telefono
- Numeri di previdenza sociale
- Orari
- Date
- Valute
- Percentuali
- Indirizzi email
- Indirizzi HTTP
È possibile includere o escludere determinati tipi di entità non linguistiche. Disabilitando eventuali entità non necessarie, il motore di estrazione consente di risparmiare tempo di elaborazione.
- Algoritmo lettere maiuscole
- Questa opzione estrae i termini semplici e composti che non si trovano nei dizionari incorporati, purché la prima lettera del termine sia in maiuscolo. Questa opzione può essere utile se si desidera estrarre i nomi più appropriati.
- Raggruppa nomi di persona parziali e completi quando possibile
- Questa opzione raggruppa i nomi che appaiono in modo diverso nel testo. Questa funzione è utile poiché i nomi
vengono spesso indicati nel formato completo all'inizio del testo e poi solo da una versione abbreviata. Questa opzione tenta di mettere in corrispondenza qualsiasi valore unitario con il tipo
<Unknown>
con l'ultima parola di qualsiasi termine composto immesso come<Person>
. Ad esempio, se doe viene trovato e inizialmente immesso come<Unknown>
, il motore di estrazione controlla se alcuni termini composti nel tipo<Person>
includono doe come ultima parola, come john doe. Questa opzione non si applica ai nomi propri poiché la maggior parte non viene mai estratta come termine singolo. - Numero massimo di permutazioni di parole di contenuto
- Questa opzione specifica il numero massimo di parole di contenuto che possono essere presenti quando si applica la tecnica di permutazione. Questa tecnica di permutazione raggruppa frasi simili che differiscono tra loro solo per parole non funzionali (ad esempio, di e una) contenute, indipendentemente dall'inflessione. Ad esempio, diciamo che è stato impostato questo valore per almeno due parole e sono stati estratti entrambi i termini funzionari aziendali e funzionari di una azienda. In questo caso, entrambi i termini estratti verrebbero raggruppati insieme nell'elenco dei concetti poiché entrambi i termini vengono considerati uguali quando di una viene ignorato.
- Utilizza derivazione durante il raggruppamento di termini multipli.
- Durante l'elaborazione dei Big Data, selezionare questa opzione per raggruppare i termini multipli utilizzando le regole di derivazione.
Impostazioni per le categorie
Le categorie vengono create da descrittori derivati da tipi o modelli di tipo. Nella tabella, è possibile selezionare i singoli tipi o modelli tipo da includere nel processo di creazione della categoria.
Dalla scheda Categorie, andare su per modificare le seguenti impostazioni.
- Crea categorie da
- Se si seleziona Tipi, le categorie vengono create dai concetti che appartengono ai tipi selezionati. Quindi, se si seleziona il<Budget>nella tabella, categorie comecostoppurepricepotrebbe essere prodotto a partire dacostepricesono concetti assegnati al<Budget>tipo.
Per impostazione predefinita, vengono selezionati solo i tipi che racchiudono la maggior parte dei record o dei documenti. Questa preselezione consente di concentrarsi sui tipi più interessanti ed evitare la creazione di categorie non rilevanti. La tabella visualizza i tipi in ordine decrescente a partire da quello con il maggior numero di record o documenti (Doc. conteggio).
L'input scelto influisce sulle categorie ottenute. Quando si sceglie di utilizzare i tipi come input, è possibile visualizzare i concetti chiaramente correlati più facilmente. Ad esempio, se si creano categorie utilizzando i tipi come input, è possibile ottenere una categoriaFruitcon concetti qualiapple,pear,citrus fruitse adorange. Se si sceglie Modelli tipo come input e si seleziona il modello<Unknown> + <Positive>, ad esempio, è possibile ottenere una categoriafruit + <Positive>con uno o due tipi di frutta comefruit + tastyeapple + good. Questo secondo risultato mostra solo 2 modelli di concetto perché le altre ricorrenze di frutta non sono necessariamente qualificate positivamente. Mentre questo potrebbe funzionare per i dati di testo correnti, negli studi longitudinali in cui si utilizzano diverse serie di documenti, si potrebbe voler aggiungere manualmente altri descrittori comecitrus fruit + positiveo utilizzare i tipi. Utilizzare i tipi da soli come input ti aiuta a trovare tutti i frutti possibili.
Se si seleziona Pattern di tipo, le categorie sono create dai pattern piuttosto che da soli tipi e concetti. Tutti i record o documenti che contengono un modello di concetto che appartengono al modello di tipo selezionato vengono categorizzati. Quindi, se si seleziona il<Budget>e<Positive>modello di tipo nella tabella, categorie comecost & <Positive>oppurerates & excellentpotrebbe essere prodotto.
Quando si utilizzano i modelli di tipo come input per la creazione automatica della categoria, a volte le tecniche identificano più modi per formare la struttura della categoria. Tecnicamente, non vi è un unico modo giusto per produrre le categorie; tuttavia è possibile trovare una struttura più adatta alle proprie analisi rispetto a un'altra. Per facilitare, in questo caso, la personalizzazione dell'output, è possibile designare un tipo come focus preferito. Tutte le categorie di primo livello prodotte scaturiranno da un concetto del tipo selezionato qui (e nessun altro tipo). Ogni sottocategoria conterrà un pattern di collegamento di testo da questo tipo. Scegliere questo tipo nelle categorie Struttura per tipo di pattern: il campo e la tabella verranno aggiornati per mostrare solo i pattern applicabili che contengono il tipo selezionato. Il più delle volte,<Unknown>è preselezionato per voi. Quando<Unknown>è selezionato, risulta in tutti i pattern che contengono il tipo<Unknown>selezionato. La tabella visualizza i tipi in ordine decrescente, a partire da quello con il maggior numero di record o documenti (Doc. conteggio).
- Tecniche
- Poiché ogni dataset è univoco, il numero di metodi e l'ordine in cui vengono applicati potrebbero cambiare nel tempo. Gli obiettivi per il text mining potrebbero essere diversi da una serie di dati all'altra, pertanto potrebbe essere necessario sperimentare tecniche diverse per vedere quale produce i migliori risultati con i dati di testo.
Non è necessario essere un esperto di queste impostazioni per utilizzarle. Per impostazione predefinita, le impostazioni più comuni e nella media sono già selezionate. Pertanto, è possibile ignorare le finestre di impostazione avanzate e andare direttamente a creare le proprie categorie. Allo stesso modo, se si apportano modifiche qui, non è necessario tornare alla finestra di dialogo delle impostazioni ogni volta, poiché le impostazioni più recenti vengono sempre conservate.
Selezionare una delle seguenti tecniche e poi fare clic su Impostazioni avanzate. Nessuna delle tecniche automatiche può categorizzare perfettamente i tuoi dati. Potrebbe essere necessario trovare e applicare una o più tecniche automatiche che funzionano bene con i propri dati. Non si può costruire usando tecniche linguistiche e di frequenza contemporaneamente.- Utilizza tecniche linguistiche per creare categorie. Vedere Impostazioni linguistiche avanzate.
- Utilizza le frequenze per creare categorie. Vedere Impostazioni avanzate della frequenza.
Sono disponibili le seguenti impostazioni di Estensione:
- Input categoria
- Selezionare Risultati di estrazione non utilizzati se si desidera che le categorie vengano create dai risultati di estrazione non utilizzati in alcuna categoria esistente. Questa opzione riduce al minimo la tendenza dei record a corrispondere a più categorie e limita il numero di categorie prodotte. Oppure selezionare Tutti i risultati di estrazione se si desidera che le categorie vengano create utilizzando uno qualsiasi dei risultati di estrazione. Questa opzione è più utile quando non si dispone già di categorie o di poche categorie.
Ciascuna delle tecniche di raggruppamento si adatta meglio a determinati tipi di dati e situazioni. È spesso utile combinare tecniche nella stessa analisi per acquisire l'intera gamma di documenti o record. Potresti visualizzare un concetto in più categorie o trovare categorie ridondanti.
La tecnica inclusione concetti crea categorie raggruppando concetti a termini multipli (parole composte) in base al fatto che contengono parole che sono sottoinsiemi o soprainsiemi di una parola nell'altra. Ad esempio, il concetto di sedile è raggruppato con sedile di sicurezza, cintura di sicurezza e fibbia della cintura di sicurezza.
La tecnica rete semantica inizia a individuare i possibili sensi di ciascun concetto dall'indice estensivo di relazioni di parole e poi crea le categorie raggruppando i concetti correlati. Ad esempio, i concetti subacquea, vela, snorkeling, kayake kayak d'acqua bianca potrebbero essere tutti raggruppati nella categoria
sports/sports by type/water sports
. Oppure il concetto animale potrebbe essere raggruppato con gatto e canguro poiché sono iponimi di animale. La tecnica della rete semantica funziona meglio quando i concetti sono noti alla rete semantica e non sono troppo ambigui. È meno utile quando il testo contiene una terminologia specializzata o un gergo sconosciuto alla rete. Questa tecnica è disponibile solo per il testo in inglese.L'opzione Massimo distanza di ricerca è disponibile solo se si seleziona la tecnica di rete semantica. Selezionare la misura in cui si desidera che le tecniche vengano ricercate prima che producano le categorie. Più basso è il valore, minori sono i risultati che si potrebbero ottenere. Tuttavia, questi risultati sono meno rumorosi e hanno maggiori probabilità di essere significativamente collegati o associati tra loro. Maggiore è il valore, maggiori saranno i risultati. Tuttavia, questi risultati potrebbero essere meno affidabili o pertinenti. Sebbene questa opzione venga applicata globalmente a tutte le tecniche, il suo effetto è maggiore sulle co-occorrenze e reti semantiche.
Selezionare Impedisci accoppiamenti di concetti specifici se si desidera impedire al processo di raggruppare o accoppiare due concetti nell'output. Per creare o gestire le coppie di concetti, fare clic su Gestisci coppie.
- Quando possibile
- Scegliere se estendere o generalizzare i descrittori utilizzando i caratteri jolly o entrambi.
- Estendi e generalizza
- Questa opzione estende le categorie selezionate e generalizza i descrittori. Quando si sceglie di generalizzare, il processo di creazione della categoria crea regole di categoria generiche che utilizzano il carattere jolly asterisco. Ad esempio, invece di più descrittori come
[apple tart + .]
e[apple sauce + .]
, una regola di categoria generica potrebbe utilizzare caratteri jolly per produrre[apple * + .]
. Se si generalizza con caratteri jolly, spesso si ottiene lo stesso numero di record o documenti di prima. Tuttavia, questa opzione ha il vantaggio di ridurre il numero e semplificare i descrittori di categoria. Inoltre, questa opzione aumenta la possibilità di categorizzare più record o documenti utilizzando queste categorie su nuovi dati di testo (ad esempio, in studi longitudinali o ondulati). - Estendi solo
- Questa opzione estende le categorie senza generalizzare. Può essere utile scegliere prima l'opzione Estendi solo per le categorie create manualmente e poi estendere di nuovo le stesse categorie utilizzando l'opzione Estendi e generalizza.
- Solo generalizzazione
- Questa opzione generalizza i descrittori senza estendere le categorie in altro modo.
- Numero massimo di elementi per estendere un descrittore per
- Quando si estende un descrittore con elementi (concetti, tipi e altre espressioni), definire il numero massimo di elementi che possono essere aggiunti a un singolo descrittore. Se si imposta questo limite su 10, non è possibile aggiungere più di 10 elementi supplementari ad un descrittore esistente. Se esistono più di 10 elementi da aggiungere, le tecniche smettono di aggiungere nuovi elementi dopo che è stato aggiunto il decimo. In tal modo è possibile creare un elenco di descrittori più breve ma ciò non garantisce che gli elementi più interessanti vengano utilizzati per primi.
- Estendi anche sottocategorie
- Questa opzione estende tutte le sottocategorie incluse nelle categorie selezionate.
- Estendi categorie vuote con i descrittori generati dal nome categoria
- Questo metodo si applica solo alle categorie vuote, che hanno 0 descrittori. Se una categoria contiene già descrittori, non viene estesa in questo modo. Questa opzione tenta di creare automaticamente i descrittori per ciascuna categoria in base alle parole che costituiscono il nome della categoria. Il nome della categoria viene sottoposto a scansione per verificare se le parole nel nome corrispondono ai concetti estratti. Se viene riconosciuto un concetto, è utilizzato per trovare pattern di concetto corrispondenti e entrambi sono utilizzati per formare i descrittori per la categoria. Questa opzione produce i migliori risultati quando i nomi categoria sono lunghi e descrittivi. Si tratta di un metodo rapido per la generazione di descrittori di categoria, che a sua volta consentono alla categoria di catturare i record che contengono tali descrittori. Questa opzione è molto utile quando si desidera importare categorie esterne o quando si creano manualmente le categorie con lunghi nomi descrittivi.
- Genera descrittori come
- Questa opzione è valida solo se è stata selezionata l'opzione precedente. Scegliere l'opzione Concetti per produrre i descrittori risultanti sotto forma di concetti, indipendentemente dal fatto che siano stati estratti dal testo di origine. Oppure scegliere l'opzione Pattern per produrre i descrittori risultanti sotto forma di pattern, indipendentemente dal fatto che siano stati estratti i pattern risultanti o altri pattern.