0 / 0
Go back to the English version of the documentation
O dolování textu
Last updated: 04. 7. 2023
Informace o dolování textu (SPSS Modeler)

Dnes je stále větší množství informací drženo v nestrukturovaných a semistrukturovaných formátech, jako jsou elektronické e-maily, poznámky k centrálu telefonické podpory, odpovědi na otevřené odpovědi, kanály zpráv, webové formuláře atd. Tento hojnost informací představuje problém pro mnoho organizací, které se ptají: Jak můžeme tyto informace shromažďovat, zkoumat a využívat?

Dolování textu je proces analýzy kolekcí textových materiálů s cílem zachytit klíčové koncepty a motivy a odhalovat skryté vztahy a trendy, aniž byste museli znát přesná slova nebo termíny, které autoři použili k vyjádření těchto konceptů. I když jsou zcela odlišné, dolování textu je někdy zaměňována s načítáním informací. Zatímco přesné vyhledávání a uchovávání informací je obrovská výzva, získávání a správa obsahu kvality, terminologie a vztahů obsažených v rámci informací jsou zásadní a kritické procesy.

Dolování textu a dobývání dat

Pro každý článek textu vrací lingvistické dolování textu rejstřík konceptů a také informace o těchto koncepcích. Tato destilovaná, strukturovaná informace může být kombinována s jinými zdroji dat k řešení otázek jako jsou:

  • Které koncepce se vyskytují společně?
  • Na co jiného jsou napojeni?
  • Jaké kategorie vyšší úrovně lze provádět z extrahovaných informací?
  • Co předpovídají koncepce nebo kategorie?
  • Jak koncepty nebo kategorie předpovídají chování?

Sloučení dolování textu s vytěžováním dat nabízí větší pochopení, než je k dispozici v rámci strukturovaných nebo nestrukturovaných dat samostatně. Tento proces obvykle zahrnuje následující kroky:

  1. Identifikujte text, který má být vytěžen. Připravte si text pro dolování dat. Pokud text existuje ve více souborech, uložte tyto soubory do jednoho umístění. Pro databáze určete pole obsahující text.
  2. Zaminuje text a extrahuje strukturovaná data. Použijte algoritmus dolování textu na zdrojový text.
  3. Sestavit koncept a modely kategorií. Identifikujte klíčové koncepce a/nebo vytvořte kategorie. Počet konceptů vrácených z nestrukturovaných dat je obvykle velmi velký. Identifikujte nejlepší koncepty a kategorie pro přidělení skóre.
  4. Analyzujte strukturovaná data. Využívá tradiční metody dolování dat, jako je klastrování, klasifikace a prediktivní modelování, pro zjištění vztahů mezi koncepcemi. Sloučit extrahované koncepce s jinými strukturovanými daty pro předpovídání budoucího chování na základě koncepcí.

Analýza textu a kategorizace

Analýza textu, forma kvalitativní analýzy, je získávání užitečných informací z textu tak, že klíčové myšlenky nebo pojmy obsažené v tomto textu mohou být seskupeny do odpovídajícího počtu kategorií. Analýza textu může být provedena na všech typech a délkách textu, ačkoli přístup k analýze se poněkud liší.

Kratší záznamy nebo dokumenty jsou nejvíce snadno kategorizovány, protože nejsou tak složité a obvykle obsahují méně nejednoznačných slov a odpovědí. Například s krátkými a otevřítými otázkami průzkumu, pokud požádáme lidi, aby pojmenovali své tři oblíbené rekreační aktivity, mohli bychom očekávat, že se zobrazí mnoho krátkých odpovědí, jako například přechod na pláž, hostující národní parkynebo nedělat nic. Delší, otevřené odpovědi na druhou stranu mohou být poměrně složité a velmi zdlouhavé, zejména pokud jsou respondenti vzdělaní, motivovaní a mají dostatek času na vyplnění dotazníku. Pokud požádáme lidi, aby nám řekli o svých politických názorech v rámci průzkumu nebo měli blog o politice, mohli bychom očekávat některé dlouhé komentáře o všech typech otázek a postojů.

Schopnost extrahovat klíčové koncepty a vytvořit zasvěcené kategorie z těchto delších textových zdrojů za velmi krátkou dobu je klíčovou výhodou použití produktu Text Analytics. Tato výhoda je získávána kombinací automatizovaných lingvistických jazyků a statistických metod k získání nejspolehlivějších výsledků pro každou fázi procesu textové analýzy.

Lingvistické zpracování a NLP

Primárním problémem správy všech těchto nestrukturovaných textových dat je to, že zde nejsou žádná standardní pravidla pro zápis textu, aby mu počítač mohl porozumět. Jazyk, a tudíž význam, se liší pro každý dokument a každý kus textu. Jediný způsob, jak přesně načíst a organizovat taková nestrukturovaná data, je analyzovat jazyk a tím odhalit jeho význam. K dispozici je několik různých automatizovaných přístupů k extrakci koncepcí z nestrukturovaných informací. Tyto přístupy mohou být rozděleny do dvou druhů, lingvistických a nelingvistických.

Některé organizace se snažily využívat automatizovaných nelingvistických řešení založených na statistikách a nervových sítích. Díky počítačové technologii mohou tato řešení rychleji skenovat a kategorizovat klíčové koncepce rychleji, než mohou čtenáři lidských dat. Bohužel, přesnost těchto řešení je poměrně nízká. Většina systémů založených na statistice jednoduše spočítá počet výskytů slov a vypočítá jejich statistickou blízkost k souvisejícím koncepcím. Oni produkují mnoho nepodstatných výsledků, nebo hluk, a chybí výsledky, které by měly mít nalezeny, odkazoval se na jako ticho.

Pro kompenzaci jejich omezené přesnosti obsahují některá řešení složitá nelingvistická pravidla, která pomáhají rozlišovat mezi relevantními a nerelevantními výsledky. To se označuje jako dolování textu založená na pravidlech.

Lingvistika-založená dolování textuna druhé straně uplatňuje principy zpracování přirozeného jazyka (NLP)-počítačově asistovaná analýza lidských jazyků-na analýzu slov, frází a syntaxe či struktury textu. Systém, který obsahuje NLP, může inteligentně extrahovat koncepty, včetně složených frází. Kromě toho znalost základního jazyka umožňuje klasifikaci koncepcí do souvisejících skupin, jako jsou produkty, organizace nebo lidé používající smysl a kontext.

Lingvistika založená na dolování textu najde v textu význam to, jak lidé dělají-tím, že rozpoznává různé tvary slova jako s podobným významem a analýzou struktury vět, aby poskytly rámec pro pochopení textu. Tento přístup nabízí rychlost a nákladnost statistických systémů založených na statistice, ale nabízí daleko vyšší stupeň přesnosti a vyžaduje mnohem méně lidského zásahu.

Chcete-li ilustrovat rozdíl mezi přístupy založenými na statistice a lingvisticky během procesu extrakce, zvažte, jak by každá z nich mohla reagovat na dotaz týkající se produktu reproduction of documents. Jak statistická, tak lingvisticky založená řešení by měla rozbalit slovo reproduction , aby zahrnovala synonyma, jako například copy a duplication. V opačném případě budou přehlédnuty příslušné informace. Ale pokud se řešení založené na statistice pokusí tento typ synonymy hledat za jiných podmínek se stejným významem-je pravděpodobné, že bude zahrnovat i výraz birth , a vygeneruje tak řadu nepodstatných výsledků. Porozumění jazykovým škrtům prostřednictvím nejednoznačnosti textu, díky definici lingvisticky založené těžby textu, tím spolehlivějšího přístupu.

Pochopení toho, jak proces extrakce funguje, vám může pomoci při rozhodování při finalizaci lingvistických zdrojů (knihoven, typů, synonym a dalších). Kroky při extrakci zahrnují:

  • Převod zdrojových dat na standardní formát
  • Identifikace kandidátských výrazů
  • Identifikace tříd ekvivalence a integrace synonym
  • Přiřazení typu
  • Indexace a, je-li požadována, shoda se vzorem se sekundárním analyzátorem

Krok 1. Převod zdrojových dat na standardní formát

V tomto prvním kroku jsou data, která importujete, převedena na jednotný formát, který lze použít k další analýze. Tento převod se provádí interně a nemění původní data.

Krok 2. Identifikace kandidátských výrazů

Je důležité pochopit úlohu jazykových zdrojů při identifikaci kandidátských pojmů během lingvistické těžby. Lingvistické prostředky se používají při každém spuštění extrakce. Existují ve formě šablon, knihoven a kompilovaných prostředků. Knihovny obsahují seznamy slov, vztahů a další informace použité k určení nebo vylaďování extrakce. Kompilované prostředky nelze zobrazit nebo upravit. Zbývající prostředky však lze upravit v editoru šablon nebo, pokud jste v relaci nástroje Text Analytics Workbench, v editoru prostředků.

Kompilované prostředky jsou jádro, vnitřní komponenty stroje pro extrakci v rámci analýzy textu. Tyto prostředky zahrnují obecný slovník obsahující seznam základních formulářů s částečným kódem (podstatné jméno, sloveso, přídavné jméno, atd.).

Kromě těchto kompilovaných prostředků se s produktem dodává několik knihoven a lze je použít k doplnění definic a definic konceptu v kompilovaných prostředcích a také k nabízení synonym. Tyto knihovny-a všechny vlastní, které vytvoříte-jsou vytvořeny z několika slovníků. Mezi ně patří slovníky typů, slovníky synonym a vylučovací slovníky.

Po importu a převodu dat začne extrakční stroj identifikovat kandidátské podmínky pro extrakci. Kandidátské výrazy jsou slova nebo skupiny slov, která se používají k identifikaci koncepcí v textu. Během zpracování textu jsou jednotlivá slova (neiterms) a složená slova (multiterms) identifikovány pomocí extraktorů části slovního vzoru. Klíčová slova cílí vyznění jsou poté identifikována pomocí analýzy odkazů textu vyznění.

Pozn.: Výrazy ve výše uvedeném kompilovaném obecném slovníku představují seznam všech slov, která mohou být nezajímavá nebo lingvisticky nejednoznačná jako neitermy. Tato slova jsou vyloučena z extrakce, když označujete neitermy. Jsou však přehodnocovány, když určujete slovní druhy nebo se díváte na delší kandidátské složené slovo (víceslovné výrazy).

Krok 3. Identifikace tříd ekvivalence a integrace synonym

Po identifikaci kandidátských nefunkčních a víceslovných výrazů používá software slovník normalizace k identifikaci tříd ekvivalence. Třída ekvivalence je základní tvar fráze nebo jediný tvar dvou variant stejné fráze.Účelem přiřazení frází k třídám ekvivalence je zajistit, aby se například side effect a 副作用 nepovažovali za samostatné koncepty. Chcete-li určit, který koncept použít pro třídu ekvivalence-that is, whether side effect or 副作用 is used as the lead term- , bude generátor extrakce používat následující pravidla v uvedeném pořadí:

  • Uživatelem zadaný formulář v knihovně.
  • Nejčastější formou, jak je definováno předkompilovanými prostředky.

Krok 4 Přiřazování typu

Dále jsou typy přiřazeny k extrahovaným konceptům. Typ je sémantické seskupení konceptů. V tomto kroku se používají jak kompilované prostředky, tak i knihovny. Typy zahrnují takové věci jako pojmy higher-level, kladná a záporná slova, první jména, místa, organizace a další.

Lingvistické systémy jsou citlivé na znalosti-čím více informací jsou obsaženy ve svých slovnících, tím vyšší kvalita výsledků. Úprava obsahu slovníku, jako např. definice synonym, může zjednodušit výsledné informace. To je často iterativní proces a je nezbytný pro přesné načtení koncepce. NLP je základní prvek analýzy textu.

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more