Rozšířená lingvistická nastavení (SPSS Modeler) | IBM Cloud Pak for Data as a Service

Translation not up to date

The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.

Go back to the English version of the documentation

Rozšířená jazyková nastavení

Last updated: 12. 1. 2023

Rozšířená lingvistická nastavení (SPSS Modeler)

Když sestavujete kategorie, můžete vybírat z řady pokročilých metod lingvistických kategorií, jako je zahrnutí koncepce a sémantické sítě (pouze text v angličtině). Tyto techniky lze použít samostatně nebo v kombinaci s ostatními k vytváření kategorií.

Mějte na paměti, že protože každá datová sada je jedinečná, počet metod a pořadí, ve kterém je použijete, se mohou časem měnit. Vzhledem k tomu, že vaše cíle dolování textu mohou být různé od jedné sady dat na další, budete možná muset experimentovat s různými technikami a zjistit, který z nich vyprodukuje nejlepší výsledky pro daná textová data. Žádná z automatických technik dokonale nekategorizuje vaše data; proto doporučujeme vyhledat a aplikovat jednu nebo více automatických technik, které dobře fungují s vašimi daty.

Následující rozšířená nastavení jsou k dispozici pro volbu Použít lingvistické techniky k sestavení kategorií v nastavení kategorie.

Vstup kategorie

Vyberte, z čeho budou kategorie sestaveny:

Nepoužité výsledky extrakce. Tato volba umožňuje sestavovat kategorie z výsledků extrakce, které nejsou použity v žádných existujících kategoriích. To minimalizuje tendenci záznamů tak, aby odpovídaly více kategoriím a limitovaly počet vyprodukovaných kategorií.
Všechny výsledky extrakce. Tato volba umožňuje sestavení kategorií pomocí libovolné z výsledků extrakce. To je nejužitečnější, když neexistuje nebo jen málo kategorií již existuje.

Výstup kategorie

Vyberte obecnou strukturu pro kategorie, které budou sestaveny:

Hierarchický s podkategoriemi. Tato volba vytváří podkategorie a podkategorie podkategorií. Hloubka vašich kategorií můžete nastavit výběrem maximálního počtu úrovní, které lze vytvořit. Vyberete-li například 3, kategorie mohou obsahovat podkategorie a tyto podkategorie mohou mít také podkategorie.
Prosté kategorie (pouze na jedné úrovni). Tato volba sestaví pouze jednu úroveň kategorií, což znamená, že nebudou generovány žádné podkategorie.

Metody seskupování

Každá z dostupných technik je velmi vhodná pro určité typy dat a situací, ale často je užitečné kombinovat metody v rámci stejné analýzy k zachycení úplného rozsahu dokumentů nebo záznamů. Můžete se podívat na koncept ve více kategoriích nebo najít redundantní kategorie.

Seskupit podle zahrnutí koncepce. Tato technika sestavuje kategorie seskupením víceslovných konceptů (složených slov) na základě toho, zda obsahují slova, která jsou podmnožinou nebo nadřazená slova v druhém slově. Například koncept seat by byl seskupen s safety seat, seat belta seat belt buckle.
Seskupit podle sémantické sítě. Tato technika začíná tím, že identifikuje možné smysly každého konceptu ze svého rozsáhlého indexu vztahů slov a poté vytvoří kategorie seskupením souvisejících koncepcí. Tato technika je nejlepší, když jsou koncepce známy se sémantickou sítí a nejsou příliš nejednoznačné. To je méně užitečné, když text obsahuje specializovanou terminologii nebo žargon neznámý na síti. V jednom příkladu by koncepce granny smith apple mohla být seskupena s gala apple a winesap apple , protože jsou sourozenci od babičkovského smáře. V jiném příkladě může být koncept animal seskupen s cat a kangaroo , protože jsou hyponyma animal. Tato technika je k dispozici pouze pro anglický text.
Maximální vzdálenost hledání. Toto nastavení je dostupné pouze tehdy, vyberete-li volbu Seskupit podle sémantické sítě . Vyberte, jak daleko chcete, aby techniky hledaly před vytvořením kategorií. Čím nižší je hodnota, tím méně výsledků se dostanete-nicméně, tyto výsledky budou méně hlučné a je pravděpodobnější, že budou výrazně propojeny nebo spojeny s sebou navzájem. Čím vyšší je hodnota, tím více výsledků můžete získat-nicméně tyto výsledky mohou být méně spolehlivé nebo relevantní. Zatímco tato volba je globálně použita pro všechny techniky, její vliv je největší na společných výskytech a sémantických sítích.
Zabránit párování určitých koncepcí. Vyberte tuto volbu, chcete-li zastavit proces seskupování nebo párování dvou konceptů dohromady ve výstupu. Chcete-li vytvořit nebo spravovat dvojice koncepcí, klepněte na volbu Spravovat dvojice.
Je-li to možné, zobecňovat se Vyberte tuto volbu, chcete-li produktu Modeler povolit generování generických pravidel v kategoriích pomocí zástupného znaku hvězdičky. Například místo vytvoření více deskriptorů jako např. [apple tart + .] a [apple sauce + .]mohou použití zástupných znaků [apple * + .]vytvořit zástupné znaky. Pokud zevšeobecníte se zástupnými znaky, budete často mít přesně stejný počet záznamů nebo dokumentů, jako jste to udělali dříve. Tato volba však má tu výhodu, že snižuje počet a zjednodušuje deskriptory kategorií. Kromě toho tato volba zvyšuje schopnost kategorizovat více záznamů nebo dokumentů pomocí těchto kategorií na nových textových datech (například v případě longitudinálních/vlnových studií).

Další možnosti pro budování kategorií

Maximální počet vytvořených kategorií nejvyšší úrovně. Tuto volbu použijte k omezení počtu kategorií, které lze generovat při příštím klepnutí na volbu Sestavit v podokně kategorií. V některých případech můžete dosáhnout lepších výsledků, pokud nastavíte tuto hodnotu vysoko a pak odstraníte některou z nezajímavých kategorií.

Minimální počet deskriptorů a/nebo podkategorií na deskriptor. Tuto volbu použijte k definování minimálního počtu deskriptorů a podkategorií, které musí kategorie obsahovat, aby bylo možné je vytvořit. Tato volba pomáhá omezit vytváření kategorií, které nezachytí významný počet záznamů nebo dokumentů.

Povolit, aby se deskriptory objevoval ve více než jedné kategorii. Je-li tato volba vybrána, tato volba umožňuje použití deskriptorů ve více než jedné z kategorií, které budou sestaveny dále. Tato volba je obvykle vybrána, protože položky běžně nebo "přirozeně" spadají do dvou nebo více kategorií, a umožňují jim tak obvykle vede k vyšším kategoriím kvality. Pokud tuto volbu nevyberete, omezíte překrytí záznamů ve více kategoriích a-v závislosti na typu dat, které máte-to může být žádoucí. Avšak u většiny typů dat obvykle omezení počtu deskriptorů do jediné kategorie obvykle vede ke ztrátě kvality nebo pokrytí kategorií. Řekněme například, že máte koncept car seat manufacturer. Při použití této volby by se tento koncept mohl objevit v jedné kategorii na základě textu car seat a v jiném založeném na manufacturer. Pokud však tato volba není vybrána, bude koncept car seat manufacturer zobrazen pouze jako deskriptor v kategorii, který nejlépe odpovídá na základě několika faktorů, včetně počtu záznamů, ve kterých car seat a manufacturer každá z nich se vyskytuje.

Vyřešit duplicitní názvy kategorií podle. Vyberte způsob zpracování všech nových kategorií nebo podkategorií, jejichž názvy by byly stejné jako existující kategorie. Můžete buď sloučit ty nové (a jejich deskriptory) s existujícími kategoriemi se stejným názvem, nebo můžete zvolit přeskočení vytvoření všech kategorií, pokud se v existujících kategoriích nachází duplicitní název.