0 / 0
Go back to the English version of the documentation
Jak działa wyodrębnianie
Last updated: 12 sty 2023
Jak działa ekstrakcja (SPSS Modeler)

W trakcie wyodrębniania kluczowych pojęć i pomysłów z Twoich odpowiedzi, Text Analytics opiera się na lingwistyce opartej na analizie tekstu. Ta strategia zapewnia szybkość i ekonomiczność typową dla systemów statystycznych. Ale oferuje znacznie wyższy poziom dokładności i wymaga mniejszego zaangażowania użytkownika. Lingwistyczna analiza tekstu jest oparta jest na przetwarzaniu języka naturalnego (spotyka się też nazwę: lingwistyka komputerowa).

Zrozumienie działania procesu wyodrębniania pomoże w podejmowaniu kluczowych decyzji dotyczących optymalizacji zasobów lingwistycznych (biblioteki, typy, synonimy itd.). Oto etapy procesu wyodrębniania:

  • Przekształcenie danych źródłowych do formatu standardowego
  • Identyfikacja terminów kandydackich
  • Identyfikacja klas równoważności i integracja synonimów
  • Przypisanie typów
  • Indeksowanie
  • Dopasowywanie wzorców i wyodrębnianie zdarzeń

Krok 1. Przekształcenie danych źródłowych do formatu standardowego

W pierwszym etapie zaimportowane dane są przekształcane do jednolitego formatu, który może być używany do dalszej analizy. To przekształcenie odbywa się wewnętrznie i nie powoduje zmiany oryginalnych danych.

Krok 2. Identyfikacja terminów kandydackich

Ważne jest zrozumienie roli zasobów lingwistycznych w identyfikacji terminów kandydackich podczas wyodrębniania lingwistycznego. Zasoby lingwistyczne są używane przy każdym wyodrębnianiu. Mają postać szablonów, bibliotek i zasobów skompilowanych. Biblioteki zawierają listy wyrazów, relacji i inne informacje służące do definiowania i optymalizacji wyodrębniania. Skompilowanych zasobów nie można przeglądać ani edytować. Jednak pozostałe zasoby (szablony) mogą być edytowane w edytorze szablonów lub, jeśli użytkownik jest w sesji środowiska roboczego analizy tekstu, w edytorze zasobów.

Zasoby skompilowane są podstawowymi, wewnętrznymi komponentami mechanizmu wyodrębniania. Do zasobów tych należy ogólny słownik zawierający listę form podstawowych z kodami części mowy (rzeczownik, czasownik, przymiotnik, przysłówek, imiesłów przymiotnikowy, spójnik, określnik lub przyimek). Do zasobów należą także zastrzeżone typy wbudowane, które umożliwiają przypisywanie wielu wyodrębnionych terminów do typów <Location> (miejsce), <Organization> (organizacja) lub <Person> (osoba).

Oprócz tych zasobów skompilowanych razem z produktem dostarczanych jest kilka bibliotek, które można wykorzystać jako dopełnienie definicji typów i pojęć zawartych w zasobach skompilowanych, a także jako źródła innych typów i synonimów. Biblioteki te — oraz biblioteki utworzone samodzielnie przez użytkownika — składają się z kilku słowników. Są to: słowniki typów, słowniki zastąpień (synonimów i elementów opcjonalnych) oraz słowniki wykluczeń.

Po zaimportowaniu i przekształceniu danych mechanizm wyodrębniania rozpocznie identyfikowanie terminów kandydackich do wyodrębnienia. Terminy kandydackie to wyrazy lub grupy wyrazów identyfikujące pojęcia w tekście. Podczas przetwarzania tekstu pojedyncze słowa (uni-terms), które nie znajdują się w skompilowanych zasobach, są traktowane jako ekstrakcje terminów kandydackich. Kandydackie słowa złożone (wieloskładnikowe) są identyfikowane za pomocą ekstraktorów wzorca części mowy. Na przykład: wielowykadowe sports car, które jest zgodne ze wzorcem części mowy rzeczownik przymiotnik , ma dwa komponenty. Wielotermin fast sports car, który jest zgodny ze wzorcem części mowy adjective adjective rzeczownik , składa się z trzech komponentów.

Uwaga: Warunki w wyżej wymienionym zestawionym słowniku ogólnym przedstawiają listę wszystkich słów, które mogą być nieinteresujące lub językowo niejednoznaczne jako terminy jednoznaczne. Słowa te są wyłączone z ekstrakcji, gdy identyfikujesz się z uni-warunkami. Są one jednak rewartościowane podczas określania części mowy lub wyszukiwania w dłuższych kandydackich słowach złożonych (wiele terminów).

Wreszcie, specjalny algorytm analizuje łańcuchy zapisane wielkimi literami, takie jak nazwy działów, co pozwala na wyodrębnienie takich specjalnych wzorców.

Krok 3. Identyfikacja klas równoważności i integracja synonimów

Po zidentyfikowaniu kandydackich terminów i wielu terminów, oprogramowanie korzysta z zestawu algorytmów, aby je porównać i zidentyfikować klasy równoważności. Klasa równoważności to podstawowa forma frazy lub jedna forma dwóch wariantów tej samej frazy. Celem przypisywania fraz do klas równoważności jest zapewnienie, że na przykład president of the company i company president nie są traktowane jako oddzielne pojęcia. Aby określić, którego pojęcia użyć w klasie równoważności, tj. czy terminem wiodącym ma być president of the company, czy company president, mechanizm wyodrębniania stosuje poniższe reguły w kolejności, w jakiej zostały tutaj wymienione:

  • Forma określona przez użytkownika w bibliotece.
  • Forma występująca najczęściej w całej treści tekstu.
  • Najkrótsza forma występująca w całej treści tekstu (która zwykle odpowiada formie podstawowej).

Krok 4. Przypisywanie typu

Następnie do wyodrębnionych pojęć przypisywane są typy. Typ jest semantyczną grupą pojęć. Na tym etapie używane są zarówno zasoby skompilowane, jak i biblioteki. Typy odzwierciedlają pojęcia poziomowe, kwalifikatory i określenia o wydźwięku pozytywnym i negatywnym, imiona, miejsca, organizacje i nie tylko. Użytkownik może zdefiniować dodatkowe typy.

Krok 5. Indeksowanie

Cały zestaw rekordów lub dokumentów jest indeksowany poprzez ustalenie wskaźnika między pozycją tekstową a reprezentacyjnym terminem dla każdej klasy równoważności. Zakłada się przy tym, że wszystkie odmienione wystąpienia pojęcia kandydackiego są indeksowane jako forma podstawowa tego pojęcia. Obliczana jest globalna liczebność wystąpień każdej formy podstawowej.

Krok 6. Dopasowywanie wzorców i wyodrębnianie zdarzeń

Funkcja Text Analytics może wykrywać nie tylko typy i pojęcia, ale także relacje między nimi. Za pomocą tego narzędzia dostępnych jest kilka algorytmów i bibliotek, a także umożliwia wyodrębnianie wzorców relacji między typami i pojęciami. Są szczególnie przydatne, gdy interesują nas określone opinie (np. reakcje na produkt) lub powiązania odzwierciedlające relacje między osobami lub obiektami (na przykład powiązania między grupami politycznymi lub genomami).

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more