0 / 0
Go back to the English version of the documentation
Dolování pro koncepty a kategorie
Last updated: 03. 11. 2023
Dolování konceptů a kategorií (SPSS Modeler)

Uzel dolování textu používá lingvistické a frekvenční techniky k extrahování klíčových konceptů z textu a k vytváření kategorií s těmito koncepty a dalšími daty. Použijte uzel k prozkoumání obsahu textových dat nebo k vytvoření buď nugetu modelu koncepce, nebo nugetu modelu kategorie.

Uzel dolování textu
Při spuštění tohoto uzlu modelování extrahuje interní lingvistický stroj pro extrakci a organizuje koncepty, vzory a/nebo kategorie pomocí metod zpracování přirozeného jazyka. Ve vlastnostech uzlu dolování textu jsou k dispozici dva režimy sestavení:
  • Režim Generovat přímo (nugget modelu koncepce) automaticky vytvoří koncept nebo nugget modelu kategorie při spuštění uzlu.
  • Alternativně můžete použít více hands-on, průzkumný přístup s použitím režimu Sestavit interaktivně (nugget modelu kategorie) , ve kterém můžete nejen extrahovat koncepty, vytvářet kategorie a upřesňovat své lingvistické prostředky, ale také provádět analýzu textových odkazů a zkoumat klastry. Tento režim sestavení spustí pracovní plochu pro analýzu textu.

Požadavky. Uzly modelování dolování textu přijímají textová data z uzlů importu.

Uzel dolování textu použijte ke generování jednoho ze dvou nugetů modelu dolování textu:

  • Koncepční modelové nugety odhalují a extrahují z vašich strukturovaných nebo nestrukturovaných textových dat alientní koncepty.
  • nugety modelu kategorií skórují a přiřazují dokumenty a záznamy do kategorií, které jsou tvořeny extrahovanými koncepty (a vzory).

Extrahované koncepty a vzory a kategorie z vašich modelových nugetů lze všechny kombinovat s existujícími strukturovanými daty, jako jsou demografické údaje, a zajistit tak lepší a cílenější rozhodování. Pokud například zákazníci často uvádějí problémy s přihlašováním jako primární překážku při provádění úloh správy online účtů, můžete do svých modelů začlenit "problémy s přihlašováním".

V textové analýze často odkazujeme na extrahované koncepty a kategorie. Je důležité porozumět významu pojmů a kategorií, protože vám mohou pomoci při rozhodování při průzkumné práci a při vytváření modelů.

Koncepty a koncepty modelů nugetů

Během procesu extrakce se skenují a analyzují textová data, aby se identifikovala zajímavá nebo relevantní jednotlivá slova, jako např. election nebo peace, a slovní fráze, jako např. presidential election, election of the presidentnebo peace treaties. Tato slova a fráze jsou souhrnně označovány jako výrazy. Pomocí lingvistických prostředků jsou příslušné výrazy extrahovány a podobné výrazy jsou seskupeny dohromady pod hlavním termínem nazvaným koncept.

Tímto způsobem může koncept představovat více základních pojmů v závislosti na vašem textu a sadě jazykových prostředků, které používáte. Řekněme například, že máme průzkum spokojenosti zaměstnanců a koncept salary byl extrahován. Řekněme také, že když jste se podívali na záznamy přidružené k produktu salary, všimli jste si, že produkt salary není vždy přítomen v textu, ale místo toho některé záznamy obsahovaly něco podobného, jako např. výrazy wage, wagesa salaries. Tyto výrazy jsou seskupeny pod položkou salary , protože extrakční stroj je považoval za podobné nebo zjistil, že se jedná o synonyma založená na pravidlech zpracování nebo lingvistických prostředcích. V tomto případě by se s jakýmikoli dokumenty nebo záznamy obsahujícími některý z těchto výrazů zacházelo tak, jako by obsahovaly slovo salary.

Chcete-li vidět, které termíny jsou seskupeny pod konceptem, můžete prozkoumat koncept v pracovní ploše analýzy textu nebo se podívat, která synonyma jsou zobrazena v modelu konceptu.

Nugget koncepčního modelu obsahuje sadu konceptů, které můžete použít k identifikaci záznamů nebo dokumentů, které také obsahují koncept (včetně synonym nebo seskupených výrazů). Koncepční model lze použít dvěma způsoby. Prvním by bylo prozkoumat a analyzovat koncepty, které byly objeveny v původním zdrojovém textu, nebo rychle identifikovat dokumenty, které vás zajímají. Druhým by bylo použít tento model na nové textové záznamy nebo dokumenty, aby bylo možné rychle identifikovat stejné klíčové koncepty v nových dokumentech/záznamech, jako je například zjišťování klíčových konceptů v reálném čase v datech pomocné oblasti z call centra.

Kategorie a kategorie modelové nugety

Můžete vytvořit kategorie , které v podstatě představují koncepty na vyšší úrovni nebo témata pro zachycení klíčových myšlenek, znalostí a postojů vyjádřených v textu. Kategorie jsou tvořeny sadou deskriptorů, jako např. koncepty, typya pravidla. Společně se tyto deskriptory používají k identifikaci, zda záznam nebo dokument patří do dané kategorie. Dokument nebo záznam lze skenovat, aby se zjistilo, zda některý z jeho textu odpovídá deskriptoru. Pokud je nalezena shoda, dokument/záznam je přiřazen k této kategorii. Tento proces se nazývá kategorizace.

Kategorie mohou být sestaveny automaticky pomocí robustní sady automatizovaných technik produktu SPSS Modeler, ručně s využitím dalších poznatků, které můžete mít ohledně dat, nebo kombinace obojího. Můžete také načíst sadu předem sestavených kategorií z balíku analýzy textu prostřednictvím nastavení modelu tohoto uzlu. Ruční vytváření kategorií nebo upřesňování kategorií lze provádět pouze prostřednictvím pracovní plochy analýzy textu.

Nugget modelu kategorie obsahuje sadu kategorií spolu s deskriptory. Model lze použít ke kategorizaci sady dokumentů nebo záznamů na základě textu v každém dokumentu/záznamu. Každý dokument nebo záznam je načten a poté přiřazen ke každé kategorii, pro kterou byl nalezen odpovídající deskriptor. Tímto způsobem může být dokument nebo záznam přiřazen k více než jedné kategorii. Pomocí modelových nugetů kategorie můžete vidět základní nápady například v otevřených odpovědích na průzkum nebo v sadě položek blogu.

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more