Con il nodo TLA (Text Link Analysis), l'estrazione dei risultati del pattern TLA è abilitata automaticamente. Nelle proprietà del nodo, le opzioni avanzate includono alcuni parametri aggiuntivi che influenzano il modo in cui il testo viene estratto e gestito. I parametri avanzati controllano il comportamento di base del processo di estrazione, nonché alcuni comportamenti avanzati. Ci sono inoltre alcune risorse e opzioni linguistiche che influenzano anche i risultati di estrazione, che sono controllate dal modello di risorsa selezionato.
Limita l'estrazione a concetti con frequenza globale di almeno [n]. Questa opzione specifica il numero minimo di volte che una parola o una frase deve ricorrere nel testo per poterla estrarre. In questo modo, un valore di 5 limita l'estrazione a quelle parole o frasi che ricorrono almeno cinque volte nell'intera serie di record o documenti.
In alcuni casi, la modifica di questo limite può fare una grande differenza nei risultati di estrazione e,
di conseguenza, nelle categorie. Diciamo che stai lavorando con alcuni dati del ristorante e non aumenti il limite oltre 1 per questa opzione. In questo caso, è possibile trovare pizza (1),
thin pizza (2), spinach pizza (2)
e favorite pizza (2)
nei risultati dell'estrazione. Tuttavia, se si
limita l'estrazione ad una frequenza globale di 5 o superiore e si riesegue l'estrazione, non
otterrebbero più questi tre concetti. Invece si otterrebbe pizza
(7)
, poiché pizza
è la forma più semplice e questa parola già esisteva come possibile candidato. A
seconda del resto del testo, si potrebbe effettivamente avere una frequenza superiore a sette, se
ci sono ancora altre frasi con pizza nel testo. Inoltre, se spinach pizza
era già un descrittore di categoria, potrebbe essere necessario aggiungere pizza
come descrittore per catturare tutti i record. Per questo
motivo, modificare questo limite con attenzione in funzione delle categorie già create.
Notare che questa è una funzione di sola estrazione; se il modello contiene termini (di solito è così) e nel testo viene trovato un termine per il modello, il termine verrà poi indicizzato a prescindere dalla sua frequenza.
Ad esempio, si supponga di utilizzare un modello Risorse di base che include "los angeles" nel tipo <Location>
nella libreria principale; se il documento contiene Los Angeles una sola volta, Los Angeles farà parte dell'elenco di concetti. Per prevenirlo, sarà necessario impostare un filtro per
visualizzare i concetti presenti almeno lo stesso numero di volte del valore immesso nel campo
Limita l'estrazione a concetti con frequenza globale di almeno [n].
Correggi errori di punteggiatura. Questa opzione normalizza temporaneamente testo contenente errori di punteggiatura (ad esempio, l'uso improprio) durante l'estrazione per migliorare la possibilità di estrazione dei concetti. Questa opzione risulta estremamente utile quando il testo è breve e di scarsa qualità (ad esempio, risposte di un sondaggio aperto, e-mail e dati CRM), o quando il testo contiene molte abbreviazioni.
Correggi ortografia per un minimo di caratteri di una parola di [n]. Questa opzione applica una tecnica di raggruppamento che consente di raggruppare parole errate o parole simili in un unico concetto. L'algoritmo di raggruppamento fuzzy toglie temporaneamente tutte le vocali (tranne la prima)
e toglie le consonanti doppie/triple dalle parole estratte, e poi le confronta per vedere se sono uguali, ad
esempio, modeling
e modelling
verrebbero raggruppate. Tuttavia, se ogni termine è assegnato a un altro tipo, escluso il tipo <Unknown>
, la tecnica di raggruppamento confuso non verrà applicata.
È possibile inoltre definire il numero minimo di caratteri radice richiesti prima di
utilizzare il raggruppamento fuzzy. Il numero di caratteri radice in un termine è calcolato sommando tutti i
caratteri e sottraendo quelli che formano i suffissi di desinenza e, nel caso di parole composte, i
pronomi e le preposizioni. Ad esempio, il termine exercises
viene conteggiato come 8
caratteri root nell'ambito del modulo "exercise", poiché la lettera s
alla fine
della parola è un'inflessione (forma plurale). In modo simile, apple sauce
conta come 10
caratteri root ("apple sauce") e manufacturing of cars
conta come 16 (“manufacturing car”). Questo metodo di conteggio viene utilizzato solo per verificare se il raggruppamento fuzzy deve essere
applicato, ma non influenza la corrispondenza delle parole.
Estrai termini singoli. Questa opzione estrae parole singole (termini singoli) purché il termine non sia già parte di una parola composta e se è un nome o una parte del discorso non riconosciuta.
Estrai entità non linguistiche. Questa opzione estrae entità non linguistiche, ad esempio numeri di telefono, numeri di codice fiscale, orari, date, valute, cifre, percentuali, indirizzi e-mail e indirizzi HTTP. È possibile includere o escludere determinati tipi di entità non linguistiche nella sezione Entità non linguistiche: Configurazione sotto le proprietà Risorse avanzate. Disabilitando qualsiasi entità non necessaria, il motore di estrazione non spreca tempo di elaborazione.
Algoritmo maiuscolo. Questa opzione estrae i termini semplici e composti che non si trovano nei dizionari incorporati, purché la prima lettera del termine sia in maiuscolo. Questa opzione fornisce un modo efficace di estrarre la maggior parte dei nomi propri.
Raggruppa nomi di persona parziali e completi quando possibile. Questa opzione raggruppa i nomi che vengono visualizzati insieme diversamente nel testo. Questa funzione è utile poiché i nomi
vengono spesso indicati nel formato completo all'inizio del testo e poi solo da una versione abbreviata. Questa opzione tenta di mettere in corrispondenza qualsiasi valore unitario con il tipo <Unknown>
con l'ultima parola di qualsiasi termine composto immesso come <Person>
. Ad esempio, se doe
viene trovato e inizialmente immesso come <Unknown>
, il motore di estrazione controlla se alcuni termini composti nel tipo <Person>
includono doe
come ultima parola, ad esempio john doe
. Questa opzione non si applica ai nomi propri poiché la maggior parte non
viene mai estratta come termine singolo.
Numero massimo di permutazioni di parole senza funzione. Questa opzione specifica il numero massimo di parole di contenuto che possono essere presenti quando si applica la tecnica di permutazione. Questa tecnica di permutazione raggruppa frasi simili che differiscono tra loro solo per le parole non funzionali (ad esempio, of
e the
) contenute, indipendentemente dall'inflessione. Ad esempio, si supponga di impostare questo valore su un massimo di due parole e che company officials
e officials of the company
siano stati estratti. In questo caso, entrambi i termini estratti vengono raggruppati nell'elenco dei concetti finali poiché entrambi i termini vengono considerati uguali quando of the
viene ignorato.
Utilizza derivazione durante il raggruppamento di termini multipli. Durante l'elaborazione dei Big Data, selezionare questa opzione per raggruppare i termini multipli utilizzando le regole di derivazione.