Translation not up to date
Uzel dolování textu používá lingvistické a frekvenční techniky k extrahování klíčových konceptů z textu a k vytváření kategorií s těmito koncepty a dalšími daty. Použijte uzel k prozkoumání obsahu textových dat nebo k vytvoření buď nugetu modelu koncepce, nebo nugetu modelu kategorie.
- Režim Generovat přímo (nugget modelu koncepce) automaticky vytvoří koncept nebo nugget modelu kategorie při spuštění uzlu.
- Alternativně můžete použít více hands-on, průzkumný přístup s použitím režimu Sestavit interaktivně (nugget modelu kategorie) , ve kterém můžete nejen extrahovat koncepty, vytvářet kategorie a upřesňovat své lingvistické prostředky, ale také provádět analýzu textových odkazů a zkoumat klastry. Tento režim sestavení spustí pracovní plochu pro analýzu textu.
Požadavky. Uzly modelování dolování textu přijímají textová data z uzlů importu.
Uzel dolování textu použijte ke generování jednoho ze dvou nugetů modelu dolování textu:
- Koncepční modelové nugety odhalují a extrahují z vašich strukturovaných nebo nestrukturovaných textových dat alientní koncepty.
- nugety modelu kategorií skórují a přiřazují dokumenty a záznamy do kategorií, které jsou tvořeny extrahovanými koncepty (a vzory).
Extrahované koncepty a vzory a kategorie z vašich modelových nugetů lze všechny kombinovat s existujícími strukturovanými daty, jako jsou demografické údaje, a zajistit tak lepší a cílenější rozhodování. Pokud například zákazníci často uvádějí problémy s přihlašováním jako primární překážku při provádění úloh správy online účtů, můžete do svých modelů začlenit "problémy s přihlašováním".
V textové analýze často odkazujeme na extrahované koncepty a kategorie. Je důležité porozumět významu pojmů a kategorií, protože vám mohou pomoci při rozhodování při průzkumné práci a při vytváření modelů.
Koncepty a koncepty modelů nugetů
Během procesu extrakce se skenují a analyzují textová data, aby se identifikovala zajímavá nebo relevantní jednotlivá slova, jako např. election
nebo peace
, a slovní fráze, jako např. presidential election
, election of the
president
nebo peace treaties
. Tato slova a fráze jsou souhrnně označovány jako výrazy. Pomocí lingvistických prostředků jsou příslušné výrazy extrahovány a podobné výrazy jsou seskupeny dohromady pod hlavním termínem nazvaným koncept.
Tímto způsobem může koncept představovat více základních pojmů v závislosti na vašem textu a sadě jazykových prostředků, které používáte. Řekněme například, že máme průzkum spokojenosti zaměstnanců a koncept salary
byl extrahován. Řekněme také, že když jste se podívali na záznamy přidružené k produktu salary
, všimli jste si, že produkt salary
není vždy přítomen v textu, ale místo toho některé záznamy obsahovaly něco podobného, jako např. výrazy wage
, wages
a salaries
. Tyto výrazy jsou seskupeny pod položkou salary
, protože extrakční stroj je považoval za podobné nebo zjistil, že se jedná o synonyma založená na pravidlech zpracování nebo lingvistických prostředcích. V tomto případě by se s jakýmikoli dokumenty nebo záznamy obsahujícími některý z těchto výrazů zacházelo tak, jako by obsahovaly slovo salary
.
Chcete-li vidět, které termíny jsou seskupeny pod konceptem, můžete prozkoumat koncept v pracovní ploše analýzy textu nebo se podívat, která synonyma jsou zobrazena v modelu konceptu.
Nugget koncepčního modelu obsahuje sadu konceptů, které můžete použít k identifikaci záznamů nebo dokumentů, které také obsahují koncept (včetně synonym nebo seskupených výrazů). Koncepční model lze použít dvěma způsoby. Prvním by bylo prozkoumat a analyzovat koncepty, které byly objeveny v původním zdrojovém textu, nebo rychle identifikovat dokumenty, které vás zajímají. Druhým by bylo použít tento model na nové textové záznamy nebo dokumenty, aby bylo možné rychle identifikovat stejné klíčové koncepty v nových dokumentech/záznamech, jako je například zjišťování klíčových konceptů v reálném čase v datech pomocné oblasti z call centra.
Kategorie a kategorie modelové nugety
Můžete vytvořit kategorie , které v podstatě představují koncepty na vyšší úrovni nebo témata pro zachycení klíčových myšlenek, znalostí a postojů vyjádřených v textu. Kategorie jsou tvořeny sadou deskriptorů, jako např. koncepty, typya pravidla. Společně se tyto deskriptory používají k identifikaci, zda záznam nebo dokument patří do dané kategorie. Dokument nebo záznam lze skenovat, aby se zjistilo, zda některý z jeho textu odpovídá deskriptoru. Pokud je nalezena shoda, dokument/záznam je přiřazen k této kategorii. Tento proces se nazývá kategorizace.
Kategorie mohou být sestaveny automaticky pomocí robustní sady automatizovaných technik produktu SPSS Modeler, ručně s využitím dalších poznatků, které můžete mít ohledně dat, nebo kombinace obojího. Můžete také načíst sadu předem sestavených kategorií z balíku analýzy textu prostřednictvím nastavení modelu tohoto uzlu. Ruční vytváření kategorií nebo upřesňování kategorií lze provádět pouze prostřednictvím pracovní plochy analýzy textu.
Nugget modelu kategorie obsahuje sadu kategorií spolu s deskriptory. Model lze použít ke kategorizaci sady dokumentů nebo záznamů na základě textu v každém dokumentu/záznamu. Každý dokument nebo záznam je načten a poté přiřazen ke každé kategorii, pro kterou byl nalezen odpovídající deskriptor. Tímto způsobem může být dokument nebo záznam přiřazen k více než jedné kategorii. Pomocí modelových nugetů kategorie můžete vidět základní nápady například v otevřených odpovědích na průzkum nebo v sadě položek blogu.