Dolování konceptů a kategorií (SPSS Modeler) | IBM Cloud Pak for Data as a Service

Translation not up to date

The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.

Go back to the English version of the documentation

Dolování pro koncepty a kategorie

Last updated: 03. 11. 2023

Dolování konceptů a kategorií (SPSS Modeler)

Uzel dolování textu používá lingvistické a frekvenční techniky k extrahování klíčových konceptů z textu a k vytváření kategorií s těmito koncepty a dalšími daty. Použijte uzel k prozkoumání obsahu textových dat nebo k vytvoření buď nugetu modelu koncepce, nebo nugetu modelu kategorie.

Při spuštění tohoto uzlu modelování extrahuje interní lingvistický stroj pro extrakci a organizuje koncepty, vzory a/nebo kategorie pomocí metod zpracování přirozeného jazyka. Ve vlastnostech uzlu dolování textu jsou k dispozici dva režimy sestavení:

Režim Generovat přímo (nugget modelu koncepce) automaticky vytvoří koncept nebo nugget modelu kategorie při spuštění uzlu.
Alternativně můžete použít více hands-on, průzkumný přístup s použitím režimu Sestavit interaktivně (nugget modelu kategorie) , ve kterém můžete nejen extrahovat koncepty, vytvářet kategorie a upřesňovat své lingvistické prostředky, ale také provádět analýzu textových odkazů a zkoumat klastry. Tento režim sestavení spustí pracovní plochu pro analýzu textu.

Požadavky. Uzly modelování dolování textu přijímají textová data z uzlů importu.

Uzel dolování textu použijte ke generování jednoho ze dvou nugetů modelu dolování textu:

Koncepční modelové nugety odhalují a extrahují z vašich strukturovaných nebo nestrukturovaných textových dat alientní koncepty.
nugety modelu kategorií skórují a přiřazují dokumenty a záznamy do kategorií, které jsou tvořeny extrahovanými koncepty (a vzory).

Extrahované koncepty a vzory a kategorie z vašich modelových nugetů lze všechny kombinovat s existujícími strukturovanými daty, jako jsou demografické údaje, a zajistit tak lepší a cílenější rozhodování. Pokud například zákazníci často uvádějí problémy s přihlašováním jako primární překážku při provádění úloh správy online účtů, můžete do svých modelů začlenit "problémy s přihlašováním".

V textové analýze často odkazujeme na extrahované koncepty a kategorie. Je důležité porozumět významu pojmů a kategorií, protože vám mohou pomoci při rozhodování při průzkumné práci a při vytváření modelů.

Koncepty a koncepty modelů nugetů

Během procesu extrakce se skenují a analyzují textová data, aby se identifikovala zajímavá nebo relevantní jednotlivá slova, jako např. election nebo peace, a slovní fráze, jako např. presidential election, election of the presidentnebo peace treaties. Tato slova a fráze jsou souhrnně označovány jako výrazy. Pomocí lingvistických prostředků jsou příslušné výrazy extrahovány a podobné výrazy jsou seskupeny dohromady pod hlavním termínem nazvaným koncept.

Tímto způsobem může koncept představovat více základních pojmů v závislosti na vašem textu a sadě jazykových prostředků, které používáte. Řekněme například, že máme průzkum spokojenosti zaměstnanců a koncept salary byl extrahován. Řekněme také, že když jste se podívali na záznamy přidružené k produktu salary, všimli jste si, že produkt salary není vždy přítomen v textu, ale místo toho některé záznamy obsahovaly něco podobného, jako např. výrazy wage, wagesa salaries. Tyto výrazy jsou seskupeny pod položkou salary , protože extrakční stroj je považoval za podobné nebo zjistil, že se jedná o synonyma založená na pravidlech zpracování nebo lingvistických prostředcích. V tomto případě by se s jakýmikoli dokumenty nebo záznamy obsahujícími některý z těchto výrazů zacházelo tak, jako by obsahovaly slovo salary.

Chcete-li vidět, které termíny jsou seskupeny pod konceptem, můžete prozkoumat koncept v pracovní ploše analýzy textu nebo se podívat, která synonyma jsou zobrazena v modelu konceptu.

Nugget koncepčního modelu obsahuje sadu konceptů, které můžete použít k identifikaci záznamů nebo dokumentů, které také obsahují koncept (včetně synonym nebo seskupených výrazů). Koncepční model lze použít dvěma způsoby. Prvním by bylo prozkoumat a analyzovat koncepty, které byly objeveny v původním zdrojovém textu, nebo rychle identifikovat dokumenty, které vás zajímají. Druhým by bylo použít tento model na nové textové záznamy nebo dokumenty, aby bylo možné rychle identifikovat stejné klíčové koncepty v nových dokumentech/záznamech, jako je například zjišťování klíčových konceptů v reálném čase v datech pomocné oblasti z call centra.

Kategorie a kategorie modelové nugety

Můžete vytvořit kategorie , které v podstatě představují koncepty na vyšší úrovni nebo témata pro zachycení klíčových myšlenek, znalostí a postojů vyjádřených v textu. Kategorie jsou tvořeny sadou deskriptorů, jako např. koncepty, typya pravidla. Společně se tyto deskriptory používají k identifikaci, zda záznam nebo dokument patří do dané kategorie. Dokument nebo záznam lze skenovat, aby se zjistilo, zda některý z jeho textu odpovídá deskriptoru. Pokud je nalezena shoda, dokument/záznam je přiřazen k této kategorii. Tento proces se nazývá kategorizace.

Kategorie mohou být sestaveny automaticky pomocí robustní sady automatizovaných technik produktu SPSS Modeler, ručně s využitím dalších poznatků, které můžete mít ohledně dat, nebo kombinace obojího. Můžete také načíst sadu předem sestavených kategorií z balíku analýzy textu prostřednictvím nastavení modelu tohoto uzlu. Ruční vytváření kategorií nebo upřesňování kategorií lze provádět pouze prostřednictvím pracovní plochy analýzy textu.

Nugget modelu kategorie obsahuje sadu kategorií spolu s deskriptory. Model lze použít ke kategorizaci sady dokumentů nebo záznamů na základě textu v každém dokumentu/záznamu. Každý dokument nebo záznam je načten a poté přiřazen ke každé kategorii, pro kterou byl nalezen odpovídající deskriptor. Tímto způsobem může být dokument nebo záznam přiřazen k více než jedné kategorii. Pomocí modelových nugetů kategorie můžete vidět základní nápady například v otevřených odpovědích na průzkum nebo v sadě položek blogu.