Translation not up to date
Pomocí uzlu Analýza textových odkazů (TLA) je extrakce výsledků vzorku analýzy odkazů textu automaticky povolena. Ve vlastnostech uzlu zahrnují volby experta určité další parametry, které ovlivňují způsob extrahování a zpracování textu. Odborné parametry řídí základní chování, stejně jako několik pokročilých chování, procesu extrakce. Existuje také řada jazykových prostředků a voleb, které mají vliv také na výsledky extrakce, které jsou řízeny vámi požadovanou šablonou prostředků.
Omezit extrakci na koncepty s globální frekvencí nejméně [ n]. Tato volba uvádí minimální počet výskytů slova nebo fráze v textu, aby mohla být extrahována. Tímto způsobem, hodnota 5 omezuje extrakci na tato slova nebo fráze, které se vyskytují nejméně pětkrát v celé sadě záznamů nebo dokumentů.
V některých případech může změna tohoto limitu znamenat velký rozdíl ve výsledných výsledcích extrakce a v důsledku toho i vašich kategorií. Řekněme, že pracujete s některými restauracemi dat a pro tuto volbu neprodlužujete limit nad 1. V takovém případě můžete ve výsledcích extrakce najít pizza (1),
thin pizza (2), spinach pizza (2)
a favorite pizza (2)
. Pokud byste však měli omezit těžbu na globální frekvenci 5 nebo více a re-extract, už byste si tři z těchto pojmů. Místo toho byste získali pizza
(7)
, protože pizza
je nejjednodušší forma a toto slovo již existuje jako možný kandidát. A v závislosti na zbytku textu můžete ve skutečnosti mít frekvenci více než sedm, v závislosti na tom, zda existují i jiné fráze s pizzou v textu. Navíc, pokud spinach pizza
již byl deskriptorem kategorie, možná budete muset přidat pizza
jako deskriptor, abyste zachytili všechny záznamy. Z tohoto důvodu změňte tento limit s opatrností, kdykoli již kategorie byly vytvořeny.
Všimněte si, že toto je funkce pouze pro extrakci; pokud vaše šablona obsahuje termíny (obvykle se jedná) a termín pro šablonu se v textu nachází, pak bude tento termín indexován bez ohledu na jeho frekvenci.
Předpokládejme například, že používáte šablonu Základní prostředky, která obsahuje "los angeles" pod typem <Location>
v knihovně Core; pokud váš dokument obsahuje pouze jednou Los Angeles, pak je Los Angeles součástí seznamu konceptů. Chcete-li tomu zabránit, budete muset nastavit filtr tak, aby zobrazoval koncepty, které se vyskytují alespoň ve stejné četnosti jako hodnota zadaná v poli Omezit extrakci na koncepty s globální frekvencí alespoň [ n] .
Zkontrolujte interpunkční chyby. Tato volba dočasně normalizuje text obsahující interpunkční chyby (například nesprávné použití) během extrakce, aby se zlepšila přenositelnost konceptů. Tato volba je velmi užitečná, je-li text krátký a má špatnou kvalitu (například v odpovědích otevřených průzkumů, e-mailu a datech CRM) nebo když text obsahuje mnoho zkratek.
Zajištění pravopisu pro minimální délku slova znaku [ n]. Tato volba používá techniku seskupení fuzzy, která pomáhá seskupovat běžně pravopisná slova nebo těsně zadaná slova pod jedním konceptem. Fuzzy seskupující algoritmus dočasně odstraní všechny samohlásky (kromě prvního) a odstraní dvojité/trojité souhlásky z extrahovaných slov a pak je porovná, aby zjistili, zda jsou stejné, takže modeling
a modelling
by byly seskupeny dohromady. Je-li však každý člen přiřazen jinému typu, kromě typu <Unknown>
, nedojde k uplatnění metody seskupení fuzzy.
Můžete také definovat minimální počet požadovaných znaků root , než se použije fuzzy seskupení. Počet kořenových znaků ve výrazu se vypočítá celkovým součtem všech znaků a odečte se všechny znaky, které tvoří zánětlivé přípony, a v případě složených slov determinery a pozice. Termín exercises
se například počítá jako 8 kořenových znaků ve formuláři "excvik,", protože písmeno s
na konci slova je inflexní (plural form). Podobně apple sauce
počítá jako 10 kořenových znaků ("apple sauce") a manufacturing of cars
počítá jako 16 kořenových znaků ("výrobní vůz"). Tato metoda počítání se používá pouze ke kontrole toho, zda by se mělo použít neurčité seskupení, ale nemá vliv na to, jak by se slova shodovala.
Extrakce neitermů. Tato volba extrahuje jednotlivá slova (neiteruje), pokud již slovo není součástí složeného slova, a pokud je to buď podstatné jméno nebo nerozpoznaná část řeči.
Extrahujte nelingvistické objekty. Tato volba extrahuje nelingvistické objekty, jako jsou telefonní čísla, čísla sociálního zabezpečení, časy, data, měny, číslice, procenta, e-mailové adresy a adresy HTTP. Do sekce Rozšířené prostředky můžete zahrnout nebo vyloučit určité typy nelingvistických entit v sekci Nelingvistické objekty: Konfigurace . Vypnutím nepotřebných entit stroj pro extrakci neplýtne časem zpracování.
Algoritmus s velkými písmeny. Tato volba extrahuje jednoduché a složené výrazy, které nejsou ve vestavěných slovnících, pokud je první písmeno daného výrazu velkými písmeny. Tato volba nabízí dobrý způsob, jak extrahovat nejvíce příslušných podstatných jmen.
Pokud je to možné, jména skupinových dílčích a úplných osob. Tato volba seskupuje názvy, které se v textu zobrazují jinak. Tato funkce je užitečná, protože názvy jsou často uváděny v jejich úplném tvaru na začátku textu a pak pouze kratší verzí. Tato volba se pokouší o shodu s neiterativním typem s typem <Unknown>
na poslední slovo některého z složených výrazů, které jsou zadány jako <Person>
. Například, pokud je doe
nalezen a původně zadán jako <Unknown>
, generátor extrakce zkontroluje, zda některé složené výrazy v typu <Person>
obsahují doe
jako poslední slovo, jako např. john doe
. Tato volba se nevztahuje na první názvy, protože většina z nich není nikdy extrahována jako neiterms.
Maximální počet nefunkčních slov permutace. Tato volba uvádí maximální počet nefunkčních slov, která mohou být přítomna při použití techniky permutace. Tato permutace technika seskupuje podobné fráze, které se liší od sebe jen o nefunkčních slov (například, of
a the
) obsažených, bez ohledu na inflexe. Řekněme například, že jste nastavili tuto hodnotu na-nejvýše dvě slova, a že byly extrahovány jak company officials
, tak officials of the company
. V tomto případě jsou obě extrahované výrazy seskupeny v konečném seznamu pojmů, protože oba výrazy jsou považovány za stejné, když je of the
ignorován.
Použití odvozování při seskupování multivýrazů. Při zpracování dat Big Data vyberte tuto volbu, chcete-li seskupit více výrazů pomocí pravidel odvozování.