0 / 0
Go back to the English version of the documentation
Jak extrakční práce
Last updated: 04. 7. 2023
Jak extrakce funguje (SPSS Modeler)

Během získávání klíčových konceptů a nápadů z vašich odpovědí se analýza textu spoléhá na lingvisticky založenou textovou analýzu. Tento přístup nabízí rychlost a nákladovou efektivnost systémů založených na statistice. Nabízí však daleko vyšší stupeň přesnosti a přitom vyžaduje mnohem méně lidského zásahu. Jazyková analýza založená na lingvistice je založena na oboru studie známém jako zpracování přirozeného jazyka, také známý jako počítačová lingvistika.

Pochopení toho, jak proces extrakce funguje, vám může pomoci při rozhodování při finalizaci lingvistických zdrojů (knihoven, typů, synonym a dalších). Kroky při extrakci zahrnují:

  • Převod zdrojových dat na standardní formát
  • Identifikace kandidátských výrazů
  • Identifikace tříd ekvivalence a integrace synonym
  • Přiřazení typu
  • Indexování
  • Porovnávání vzorů a extrakce událostí

Krok 1. Převod zdrojových dat na standardní formát

V tomto prvním kroku jsou data, která importujete, převedena na jednotný formát, který lze použít k další analýze. Tento převod se provádí interně a nemění původní data.

Krok 2. Identifikace kandidátských výrazů

Je důležité pochopit úlohu jazykových zdrojů při identifikaci kandidátských pojmů během lingvistické těžby. Lingvistické prostředky se používají při každém spuštění extrakce. Existují ve formě šablon, knihoven a kompilovaných prostředků. Knihovny obsahují seznamy slov, vztahů a další informace použité k určení nebo vylaďování extrakce. Kompilované prostředky nelze zobrazit nebo upravit. Zbývající prostředky (šablony) však lze upravit v editoru šablon nebo, pokud jste v relaci nástroje Text Analytics Workbench, v editoru prostředků.

Kompilované zdroje jsou jádro, vnitřní součásti extrakčního motoru. Tyto prostředky zahrnují obecný slovník obsahující seznam základních tvarů s kódem části (podstatné jméno, sloveso, přídavné jméno, příslovce, účastníka, koordinátor, determiner nebo předumístění). Mezi prostředky patří také vyhrazené, vestavěné typy používané k přiřazení mnoha extrahovaných výrazů k následujícím typům, <Location>, <Organization>nebo <Person>.

Kromě těchto kompilovaných prostředků je s produktem dodáváno několik knihoven a lze je použít k doplnění definic a definic konceptu v kompilovaných prostředcích a také k nabídkovým dalším typům a synonymům. Tyto knihovny-a všechny vlastní, které vytvoříte-jsou vytvořeny z několika slovníků. Mezi ně patří slovníky typů, distituční slovníky (synonyma a volitelné prvky) a slovníky vyloučení.

Po importu a převodu dat začne extrakční stroj identifikovat kandidátské podmínky pro extrakci. Kandidátské výrazy jsou slova nebo skupiny slov, která se používají k identifikaci koncepcí v textu. Během zpracování textu jsou jednoslovná slova (uni-terms), která nejsou v kompilovaných prostředcích, považována za extrakty pro kandidáty na kandidáty. Kandidátská složená slova (multi-terms) jsou identifikována pomocí extraktorů dílčího vzorku projevů. Například víceslovný sports car, který následuje výraz adjective podstatné jméno vzoru proslovu má dvě komponenty. Víceterm fast sports car, který následuje výraz adjective adjective podstatn vzoru, má tři komponenty.

Poznámka: Výrazy ve výše uvedeném kompilovaném obecném slovníku představují seznam všech slov, která mohou být nezajímavá nebo lingvisticky nejednoznačná jako jednoslovné výrazy. Tato slova jsou vyloučena z extrakce, když se určujete na uniformě. Jsou však přehodnocovány, když určujete slovní druhy nebo se díváte na delší kandidátské složené slovo (víceslovné termíny).

Nakonec se používá speciální algoritmus pro zpracování řetězců velkých písmen, jako jsou názvy úloh, aby bylo možné tyto speciální vzory extrahovat.

Krok 3. Identifikace tříd ekvivalence a integrace synonym

Po kandidátních jednotermínech a multi-terms jsou identifikovány, že software používá sadu algoritmů pro porovnání a identifikace tříd ekvivalence. Třída ekvivalence je základní tvar fráze nebo forma jedné formy dvou variant stejné fráze. Účelem přiřazení frází k třídám ekvivalence je zajistit, aby se například president of the company a company president nepovažovali za samostatné koncepty. Chcete-li určit, který koncept použít pro třídu ekvivalence-tj. zda president of the company nebo company president se používá jako hlavní výraz, generátor extrakce použije následující pravidla v pořadí uvedeném v seznamu:

  • Uživatelem zadaný formulář v knihovně.
  • Nejčastější formou v celém textu textu.
  • Nejkratší formulář v celém textu textu (který obvykle odpovídá základnímu tvaru).

Krok 4 Přiřazování typu

Dále jsou typy přiřazeny k extrahovaným konceptům. Typ je sémantické seskupení konceptů. V tomto kroku se používají jak kompilované prostředky, tak i knihovny. Typy zahrnují takové věci jako pojmy higher-level, kladná a záporná slova, první jména, místa, organizace a další. Další typy mohou být definovány uživatelem.

Krok 5. Indexování

Celá sada záznamů nebo dokumentů je indexována tak, že se vytvoří ukazatel mezi pozicí textu a reprezentativním výrazem pro každou třídu ekvivalence. Předpokládá se, že všechny nafukované instance formuláře kandidátské koncepce jsou indexovány jako kandidátský základní formulář. Globální frekvence se vypočítává pro každý základní formulář.

Krok 6. Porovnávání vzorů a extrakce událostí

Analýza textu může odhalit nejen typy a koncepce, ale také vztahy mezi nimi. K dispozici je několik algoritmů a knihoven s tímto nástrojem a poskytují schopnost extrahovat vzory vztahů mezi typy a koncepty. Jsou zvláště užitečné při pokusu o zjištění konkrétních stanovisek (například reakcí produktu) nebo relačních vazeb mezi lidmi nebo objekty (například vazby mezi politickými skupinami nebo genomy).

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more