0 / 0
Go back to the English version of the documentation
nastavení voleb
Last updated: 03. 11. 2023
Nastavení voleb (SPSS Modeler)

K nastavením můžete přistupovat v různých podoknech pracovní plochy analýzy textu, například v nastavení extrakce pro koncepty.

Na kartách Koncepty, Textové odkazya Kategorie jsou kategorie sestaveny z deskriptorů odvozených z typů nebo vzorů typů. V tabulce můžete vybrat jednotlivé typy nebo vzory, které se mají zahrnout do procesu vytváření kategorií. Následuje popis všech nastavení na každé kartě.

Nastavení pro výsledky extrakce (data koncepcí)

Na kartě Koncepty nebo Textové odkazy klepněte na ikonu Nastavení a změňte následující nastavení:

  • Povolit extrakci vzorku analýzy textových odkazů. Uvádí, že chcete extrahovat vzorky TLA z textových dat. Také předpokládá, že máte pravidla vzoru TLA v jedné z vašich knihoven v editoru prostředků. Tato volba může výrazně prodloužit dobu extrakce.
  • Přizpůsobit chyby interpunkce. Tato volba dočasně normalizuje text obsahující chyby interpunkce (například nesprávné použití) během extrakce, aby se zlepšila extrahovatelnost konceptů. Tato volba je velmi užitečná, když je text krátký a má špatnou kvalitu (například v otevřených odpovědích průzkumu, e-mailu a datech CRM), nebo když text obsahuje mnoho zkratek.
  • Přizpůsobit pravopis pro minimální limit počtu kořenových znaků. Tato volba používá techniku fuzzy seskupení, která pomáhá seskupit běžně chybně napsaná slova nebo přesně napsaná slova pod jedním pojmem. Algoritmus fuzzy seskupování dočasně odstraní všechny samohlásky (kromě prvního) a proužky dvojitých/trojitých souhlásek z extrahovaných slov a pak je porovná, aby zjistili, zda jsou stejné, například,modelingamodellingby byly seskupeny dohromady. Je-li však každý výraz přiřazen k jinému typu, s výjimkou<Unknown>typ, technika fuzzy seskupování nebude použita.
  • Extrahovat uniterms (uniterms). Tato volba extrahuje jednotlivá slova (uniterms), pokud toto slovo již není součástí složeného slova a pokud se jedná o podstatné jméno nebo nerozpoznanou část řeči.
  • Extrahujte nelingvistické entity. Tato volba extrahuje nelingvistické entity, jako jsou telefonní čísla, čísla sociálního zabezpečení, časy, data, měny, číslice, procenta, e-mailové adresy a adresy HTTP. Můžete zahrnout nebo vyloučit určité typy nelingvistických entit. Vypnutím nepotřebných entit nebude extrakční stroj ztrácet čas zpracování.
  • Algoritmus velkých písmen. Tato volba extrahuje jednoduché a složené výrazy, které nejsou ve vestavěných slovnících, pokud je první písmeno výrazu uvedeno velkými písmeny. Tato možnost nabízí dobrý způsob, jak extrahovat většinu správné podstatná jména.
  • Seskupit dílčí a úplná jména osob dohromady, je-li to možné. Tato volba seskupuje názvy, které se v textu zobrazují odlišně. Tato funkce je užitečná, protože jména jsou často odkazována v plné podobě na začátku textu a pak pouze v kratší verzi. Tato volba se pokusí o porovnání libovolného znaku uniterm s typem <Unknown> s posledním slovem libovolného složeného výrazu zadaného jako <Person>. Je-li například nalezen řetězec doe a původně byl zadán jako <Unknown>, stroj pro extrakci zkontroluje, zda některé složené výrazy v typu <Person> obsahují jako poslední slovo doe , například john doe. Tato volba se nevztahuje na křestní jména, protože většina z nich není nikdy extrahována jako uniterms.
  • Maximální počet permutací nefunkčních slov. Tato volba určuje maximální počet nefunkčních slov, která mohou být přítomna při použití techniky permutace. Tato technika permutace seskupuje podobné fráze, které se od sebe liší pouze nefunkčními slovy (například z a z) obsaženými bez ohledu na skloňování. Řekněme například, že tuto hodnotu nastavíte nanejvýš na dvě slova a extrahovali jste jak úředníky společnosti , tak úředníky společnosti . V tomto případě by oba extrahované výrazy byly seskupeny v konečném seznamu konceptů, protože oba termíny jsou považovány za stejné, když je z ignorováno.
  • Použít odvození při seskupování více titulů. Při zpracování velkých dat vyberte tuto volbu, chcete-li seskupit multitermy pomocí pravidel odvozování.

Nastavení pro kategorie (data kategorie)

Na kartě Kategorie přejděte na volbu Sestavení > Změnit nastavení a změňte následující nastavení:

  • Kategorie sestavení z. Vyberete-li volbu Typy, kategorie budou sestaveny z koncepcí, které patří k vybraným typům. Takže pokud vyberete<Budget>typ v tabulce, kategorie jako např.costnebopriceby mohly být vyrobeny, protožecostapricejsou koncepty přiřazené k<Budget>typ.

    Standardně jsou vybrány pouze typy, které zachycují většinu záznamů nebo dokumentů. Tento předběžný výběr vám umožní rychle se zaměřit na nejzajímavější typy a vyhnout se vytváření nezajímavých kategorií. Tabulka zobrazuje typy v sestupném pořadí počínaje typem s největším počtem záznamů nebo dokumentů (Doc. počet). Typy zOpinionsv tabulce typů je standardně zrušen výběr knihovny.

    Vámi zvolený vstup ovlivní kategorie, které získáte. Rozhodnete-li se používat typy jako vstup, můžete snáze vidět jasně související koncepty. Pokud například sestavíte kategorie pomocí volby Typy jako vstup, můžete získat kategoriiFruits koncepcemi, jako jsouapple,pear,citrus fruits,orangea tak dále. Pokud místo toho zvolíte Typ vzorů jako vstup a vyberete vzor<Unknown> + <Positive>, například, pak můžete získat kategoriifruit + <Positive>s jedním nebo dvěma druhy ovoce, jako jefruit + tastyaapple + goodTento druhý výsledek ukazuje pouze 2 koncepční vzory, protože ostatní výskyty ovoce nejsou nutně pozitivně kvalifikovány. A i když to může být dost dobré pro vaše aktuální textové údaje, v podélných studiích, kde používáte různé sady dokumentů, můžete ručně přidat další deskriptory, jako je napříkladcitrus fruit + positivenebo použít typy. Použití typů samotných jako vstup vám pomůže najít všechny možné ovoce.

    Vyberete-li volbu Vzory typů, kategorie budou sestaveny ze vzorů, nikoli z typů a konceptů. Tímto způsobem jsou kategorizovány všechny záznamy nebo dokumenty obsahující vzor koncepce patřící k vybranému vzoru typu. Takže, pokud vyberete<Budget>a<Positive>vzor typu v tabulce, kategorie jako např.cost & <Positive>neborates & excellentby mohly být vyrobeny.

    Při použití vzorů typu jako vstupu pro automatizovanou tvorbu kategorií existují časy, kdy techniky identifikují více způsobů, jak vytvořit strukturu kategorií. Technicky vzato neexistuje jediný správný způsob, jak vytvořit kategorie; nicméně můžete najít jednu strukturu vhodnější pro vaši analýzu než jinou. Chcete-li v tomto případě pomoci upravit výstup, můžete určit typ jako upřednostňovaný fokus. Všechny kategorie nejvyšší úrovně budou pocházet z konceptu typu, který zde vyberete (a žádný jiný typ). Každá podkategorie bude obsahovat vzor textového odkazu z tohoto typu. Vyberte tento typ v kategoriích Struktura podle typu vzoru: pole a tabulka bude aktualizována tak, aby zobrazovala pouze použitelné vzory obsahující vybraný typ. Častěji než ne,<Unknown>bude pro vás předvybrána. To má za následek všechny vzory obsahující typ<Unknown>probíhá výběr. Tabulka zobrazuje typy v sestupném pořadí počínaje typem s největším počtem záznamů nebo dokumentů (Doc. počet).

  • Techniky. Vzhledem k tomu, že každá datová sada je jedinečná, počet metod a pořadí, ve kterém je použijete, se mohou v průběhu času měnit. Vzhledem k tomu, že vaše cíle v oblasti dolování textu se mohou lišit od jedné sady dat k druhé, budete možná muset experimentovat s různými technikami, abyste zjistili, který z nich vytváří nejlepší výsledky pro daná textová data.

    Nemusíte být odborníkem na tato nastavení, abyste je mohli používat. Standardně jsou již vybrána nejběžnější a průměrná nastavení. Proto můžete obejít dialogová okna s pokročilým nastavením a přejít přímo na vytváření vašich kategorií. Podobně, pokud zde provedete změny, nemusíte se pokaždé vracet do dialogového okna nastavení, protože jsou vždy zachována nejnovější nastavení.

    Vyberte jednu z následujících technik a poté klepněte na volbu Rozšířená nastavení. Žádná z automatických technik nebude vaše data dokonale kategorizovat; proto doporučujeme najít a použít jednu nebo více automatických technik, které dobře fungují s vašimi daty. Nemůžete stavět pomocí lingvistických a frekvenčních technik současně.

K dispozici jsou následující nastavení Rozšířit :

  • Vstup kategorie. Vyberte volbu Nepoužité výsledky extrakce , chcete-li, aby byly kategorie sestaveny z výsledků extrakce, které nejsou použity v žádných existujících kategoriích. To minimalizuje tendenci záznamů k porovnání více kategorií a omezuje počet vytvořených kategorií. Nebo vyberte volbu Všechny výsledky extrakce , chcete-li, aby byly kategorie sestaveny pomocí výsledků extrakce. To je nejužitečnější, když již neexistuje žádná nebo několik kategorií.

    Každá z dostupných technik seskupování je vhodná pro určité typy dat a situací, ale často je užitečné kombinovat techniky ve stejné analýze a zachytit celou řadu dokumentů nebo záznamů. Můžete vidět koncept ve více kategoriích nebo najít nadbytečné kategorie. Technika zahrnutí konceptů sestavuje kategorie seskupením konceptů s více titry (složených slov) na základě toho, zda obsahují slova, která jsou podmnožinami nebo nadmnožinami slov v druhém. Například koncepční sedadlo by bylo seskupeno s bezpečnostním sedadlem, bezpečnostním pásem a sponou bezpečnostního pásu. Technika sémantické sítě začíná identifikací možných smyslů jednotlivých konceptů z rozsáhlého indexu slovních vztahů a poté vytváří kategorie seskupením souvisejících konceptů. Tato technika je nejlepší, když jsou koncepty známé sémantické síti a nejsou příliš nejednoznačné. Je méně užitečné, když text obsahuje specializovanou terminologii nebo žargon neznámý síti. V jednom příkladu by koncept babička smith apple mohl být seskupen s gala apple a winesap apple , protože jsou sourozenci babičky smith. V jiném příkladu může být koncept zvíře seskupen s kočkou a klokanem , protože se jedná o hyponymy zvířete. Tato technika je k dispozici pouze pro anglický text.

    Volba Maximální vzdálenost vyhledávání je k dispozici pouze v případě, že vyberete sémantickou síťovou techniku. Vyberte, jak daleko chcete, aby techniky prohledávaly před vytvářením kategorií. Čím nižší hodnota, tím méně výsledků získáte-tyto výsledky však budou méně hlučné a s větší pravděpodobností budou navzájem výrazně propojeny nebo spojeny. Čím vyšší je hodnota, tím více výsledků můžete získat-tyto výsledky však mohou být méně spolehlivé nebo relevantní. I když je tato volba globálně aplikována na všechny techniky, její efekt je největší na souběžné výskyty a sémantické sítě.

    Vyberte volbu Zabránit párování specifických koncepcí , chcete-li zastavit proces v seskupování nebo párování dvou koncepcí ve výstupu. Chcete-li vytvořit nebo spravovat dvojice konceptů, klepněte na volbu Spravovat dvojice.

  • Kde je to možné. Zvolte, zda chcete jednoduše rozšířit, zobecnit deskriptory pomocí zástupných znaků, nebo obojí.
    • Rozšířit a zobecnit. Tato volba rozšíří vybrané kategorie a poté zobecní deskriptory. Když se rozhodnete zobecnit, produkt vytvoří generická pravidla kategorií v kategoriích pomocí zástupného znaku hvězdičky. Například místo vytvoření více deskriptorů, jako např. [apple tart + .] a [apple sauce + .], může použití zástupných znaků vytvořit [apple * + .]. Pokud generalizujete pomocí zástupných znaků, často získáte přesně stejný počet záznamů nebo dokumentů jako dříve. Tato možnost však má tu výhodu, že snižuje počet a zjednodušuje deskriptory kategorií. Navíc tato volba zvyšuje schopnost kategorizovat více záznamů nebo dokumentů pomocí těchto kategorií na nových textových datech (například v podélných/vlnových studiích).
    • Pouze rozšířit. Tato volba rozšíří vaše kategorie bez zobecnění. Může být užitečné nejprve vybrat volbu Rozšířit pouze pro ručně vytvořené kategorie a poté znovu rozšířit stejné kategorie pomocí volby Rozšířit a zobecnit .
    • Pouze generalizovat. Tato volba zobecní deskriptory bez rozšíření vašich kategorií jiným způsobem.
    • Maximální počet položek, o které se má rozšířit deskriptor. Při rozšiřování deskriptoru o položky (koncepty, typy a další výrazy) definujte maximální počet položek, které lze přidat do jednoho deskriptoru. Nastavíte-li tento limit na hodnotu 10, nebude možné do existujícího deskriptoru přidat více než 10 dalších položek. Pokud existuje více než 10 položek, které se mají přidat, techniky zastaví přidávání nových položek po desátém přidání. Pokud tak učiníte, může se seznam deskriptorů zkrátit, ale nezaručuje se, že nejzajímavější položky byly použity jako první.
    • Rozšiřte také podkategorie. Tato volba také rozšíří všechny podkategorie pod vybrané kategorie.
    • Rozšiřte prázdné kategorie o deskriptory generované z názvu kategorie. Tato metoda platí pouze pro prázdné kategorie, které mají 0 deskriptorů. Pokud kategorie již obsahuje deskriptory, nebude tímto způsobem rozšířena. Tato volba se pokusí automaticky vytvořit deskriptory pro každou kategorii na základě slov, která tvoří název kategorie. Název kategorie je skenován, aby se zjistily, zda slova v názvu odpovídají jakýmkoli extrahovaným konceptům. Je-li koncept rozpoznán, používá se k nalezení odpovídajících koncepčních vzorů a oba se používají k vytvoření deskriptorů pro kategorii. Tato volba vytvoří nejlepší výsledky, pokud jsou názvy kategorií dlouhé a popisné. Jedná se o rychlou metodu pro generování deskriptorů kategorií, která umožňuje kategorii zachytávat záznamy obsahující tyto deskriptory. Tato volba je nejužitečnější při importu kategorií odjinud nebo při ručním vytváření kategorií s dlouhými popisnými názvy.
    • Generovat deskriptory jako. Tato volba se použije pouze v případě, že je vybrána předchozí volba. Volbu Koncepty vyberte, chcete-li vytvořit výsledné deskriptory ve formě koncepcí bez ohledu na to, zda byly extrahovány ze zdrojového textu. Nebo vyberte volbu Vzory , abyste vytvořili výsledné deskriptory ve formě vzorů, bez ohledu na to, zda byly výsledné vzory nebo nějaké vzory extrahovány.
Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more