0 / 0
Go back to the English version of the documentation
Informacje o eksploracji tekstu
Last updated: 12 sty 2023
Informacje o eksploracji tekstu (SPSS Modeler)

Obecnie coraz większa ilość informacji odbywa się w formatach nieustrukturyzowanych i częściowo ustrukturyzowanych, takich jak wiadomości e-mail klientów, notatki z call center, odpowiedzi na pytania otwarte ankiety, kanały informacyjne, formularze stron internetowych itp. Ta obfitość informacji stanowi problem dla wielu organizacji, które zadają sobie pytanie: W jaki sposób możemy zbierać, eksplorować i wykorzystywać te informacje?

Eksploracja tekstu to proces polegający na analizowaniu zbiorów materiałów tekstowych w celu wychwycenia w nich najważniejszych pojęć, tematów i motywów oraz ujawnienia ukrytych relacji i trendów bez uprzedniej znajomości konkretnych wyrazów lub terminów, których autorzy tekstu użyli do wyrażenia tych pojęć. Eksploracja tekstu niekiedy niesłusznie mylona jest z wyszukiwaniem informacji, jest jednak zupełnie innym procesem. Precyzyjne wyszukiwanie i niezawodne przechowywanie informacji jest olbrzymim wyzwaniem; równie ważnymi procesami jest wyodrębnianie wysokiej jakości treści, terminologii i relacji ukrytych w tych informacjach oraz zarządzanie nimi.

Eksploracja tekstu a eksploracja danych

Wynikiem lingwistycznej eksploracji każdego pojedynczego tekstu, np. artykułu, jest indeks pojęć oraz informacje o tych pojęciach. Te oczyszczone i ustrukturyzowane informacje można powiązać z innymi źródłami danych, by uzyskać odpowiedzi na takie pytania, jak:

  • Które pojęcia występują razem?
  • Z jakimi innymi pojęciami są powiązane?
  • Jakie kategorie wyższego poziomu można utworzyć na podstawie wyodrębnionych informacji?
  • Co można przewidzieć na podstawie pojęć lub kategorii?
  • Jak można przewidzieć zachowania na podstawie pojęć lub kategorii?

Łączne zastosowanie technik eksploracji tekstu i eksploracji danych umożliwia bardziej pogłębioną analizę informacji niż operowanie wyłącznie na danych ustrukturyzowanych albo wyłącznie na danych nieustrukturyzowanych. Taki proces zwykle składa się z następujących etapów:

  1. Identyfikacja tekstu do eksploracji. Przygotowanie tekstu do eksploracji. Jeśli tekst jest zapisany w wielu plikach — zapisanie plików w jednym miejscu. W przypadku baz danych — określenie, w których polach (zmiennych) znajduje się tekst.
  2. Eksploracja tekstu i wyodrębnienie danych ustrukturyzowanych. Zastosowanie algorytmów eksploracji do tekstu źródłowego.
  3. Zbudowanie modeli pojęć i kategorii. Zidentyfikowanie kluczowych pojęć i/lub uklasyfikowanie. Zwykle wynikiem eksploracji danych nieustrukturyzowanych jest bardzo duża liczba pojęć. Identyfikacja najlepszych pojęć i kategorii, które należałoby wykorzystać do oceny.
  4. Analiza danych ustrukturyzowanych. Zastosowanie tradycyjnych technik eksploracji danych, takich jak tworzenie i analiza skupień, klasyfikacja i modelowanie predykcyjne do ujawnienia relacji między pojęciami. Scalenie wyodrębnionych pojęć z pozostałymi danymi ustrukturyzowanymi w celu prognozowania przyszłych zachowań na podstawie pojęć.

Analiza i kategoryzacja tekstu

Analiza tekstu, forma analizy jakościowej, to wyodrębnienie użytecznych informacji z tekstu tak, aby kluczowe idee lub pojęcia zawarte w tym tekście mogły być pogrupowane w odpowiednią liczbę kategorii. Analizę tekstu można prowadzić na tekstach dowolnego rodzaju i dowolnej długości, jednak strategie analizy będą różne w zależności od charakteru tekstu.

Krótsze rekordy lub dokumenty są najłatwiej kategoryzowane, ponieważ nie są tak złożone i zwykle zawierają mniej niejednoznaczne słowa i odpowiedzi. Na przykład jeśli poprosimy respondentów o wskazanie trzech ulubionych form spędzania wakacji w krótkiej odpowiedzi na pytanie otwarte, to możemy spodziewać się wielu krótkich odpowiedzi, takich jak opalanie się na plaży, zwiedzanie parków narodowych lub nicnierobienie. Z kolei dłuższe, otwarte odpowiedzi mogą być złożone i długie, zwłaszcza jeśli respondenci są wykształceni, zmotywowani i mają dość czasu na wypełnienie kwestionariusza. Jeśli poprosimy respondentów o opisanie ich przekonań politycznych lub analizujemy blogi o tematyce politycznej, możemy spodziewać się długich komentarzy na przeróżne tematy oraz bardzo różnych stanowisk.

Możliwość wyodrębnienia kluczowych pojęć i tworzenia wnikliwych kategorii z tych dłuższych źródeł tekstowych w bardzo krótkim czasie jest kluczową zaletą korzystania z Text Analytics. Korzyść ta wynika z zastosowania kombinacji zautomatyzowanych technik lingwistycznych i statystycznych w celu uzyskania najbardziej wiarygodnych wyników na każdym etapie procesu analizy tekstu.

Przetwarzanie lingwistyczne i przetwarzanie języka naturalnego (NLP)

Głównym problemem przy pracy z tekstem nieustrukturyzowanym jest brak standardowych reguł pisania tekstu w sposób zrozumiały dla komputera. Wypowiedzi językowe, a tym samym także znaczenia, bardzo różnią się między dokumentami i fragmentami tekstu. Jedynym sposobem na precyzyjne wyszukanie i uporządkowanie informacji w takich danych nieustrukturyzowanych jest analiza wypowiedzi i interpretacja ich znaczenia. Istnieje kilka zautomatyzowanych metod wyodrębniania pojęć z informacji nieustrukturyzowanych. Strategie te można ogólnie podzielić na dwie grupy: lingwistyczne i nielingwistyczne.

Niektóre organizacje próbowały stosować zautomatyzowane rozwiązania nielingwistyczne oparte na statystyce i sieciach neuronowych. Rozwiązania te, gdy zostaną zaimplementowane w systemie komputerowym, przeglądają i kategoryzują kluczowe pojęcia szybciej niż ludzie. Niestety, dokładność wyników uzyskiwanych za pomocą tych rozwiązań jest raczej niska. Większość systemów statystycznych po prostu zlicza wystąpienia wyrazów i oblicza ich statystyczne bliskości do pojęć pokrewnych. Systemy takie generują liczne wyniki bezwartościowe (tzw. szum) i nie wychwytują wyników, które powinny znaleźć (tzw. cisza).

Aby skompensować tę ograniczoną dokładność w niektórych rozwiązaniach stosuje się złożone reguły nielingwistyczne, które pomagają w odróżnianiu wyników istotnych od nieistotnych. Takie techniki nazywa się eksploracją tekstu w oparciu o reguły.

Natomiast lingwistyczna eksploracja tekstu polega na zastosowaniu technik przetwarzania języka naturalnego (NLP — natural language processing), czyli komputerowej analizy ludzkich wypowiedzi, do analizy wyrazów, fraz i składni lub struktury tekstu. System, który wykorzystuje NLP, może inteligentnie wyodrębniać pojęcia, a wśród nich frazy złożone. Co więcej, znajomość języka tekstu umożliwia klasyfikowanie pojęć w grupy pojęć pokrewnych, takich jak produkty, organizacje lub osoby, na podstawie znaczenia i kontekstu.

Lingwistyczna eksploracja tekstu znajduje znaczenia w tekście podobnie, jak robią to ludzie — rozpoznając różne formy wyrazów jako bliskoznaczne i analizując strukturę zdań będącą rusztowaniem, na którym opiera się interpretacja tekstu. Ta strategia jest równie szybka i ekonomiczna, jak systemy statystyczne, ale oferuje znacznie większą dokładność i wymaga mniejszego zaangażowania człowieka.

Aby zilustrować różnice między podejściami statystycznymi i lingwistycznymi podczas procesu wyodrębniania, należy wziąć pod uwagę, w jaki sposób każdy z nich odpowie na zapytanie dotyczące produktu reproduction of documents. Zarówno rozwiązania oparte na statystykach, jak i lingwistyce musiałyby rozszerzać słowo reproduction , aby uwzględnić synonimy, takie jak copy i duplication. Nieuwzględnienie synonimów prowadziłoby do potencjalnego pominięcia ważnych informacji. Jeśli rozwiązanie statystyczne spróbuje wyszukać inne terminy o tym samym znaczeniu, to prawdopodobnie zwróci także termin birth, generując liczne nieistotne wyniki. Interpretacja języka pozwala pokonać niejednoznaczności, czyniąc z lingwistycznej eksploracji tekstu strategię z definicji bardziej niezawodną.

Zrozumienie działania procesu wyodrębniania pomoże w podejmowaniu kluczowych decyzji dotyczących optymalizacji zasobów lingwistycznych (biblioteki, typy, synonimy itd.). Oto etapy procesu wyodrębniania:

  • Przekształcenie danych źródłowych do formatu standardowego
  • Identyfikacja terminów kandydackich
  • Identyfikacja klas równoważności i integracja synonimów
  • Przypisanie typów
  • Indeksowanie, a następnie — w razie potrzeby — dopasowanie wzorców przy użyciu dodatkowego analizatora.

Krok 1. Przekształcenie danych źródłowych do formatu standardowego

W pierwszym etapie zaimportowane dane są przekształcane do jednolitego formatu, który może być używany do dalszej analizy. To przekształcenie odbywa się wewnętrznie i nie powoduje zmiany oryginalnych danych.

Krok 2. Identyfikacja terminów kandydackich

Ważne jest zrozumienie roli zasobów lingwistycznych w identyfikacji terminów kandydackich podczas wyodrębniania lingwistycznego. Zasoby lingwistyczne są używane przy każdym wyodrębnianiu. Mają postać szablonów, bibliotek i zasobów skompilowanych. Biblioteki zawierają listy wyrazów, relacji i inne informacje służące do definiowania i optymalizacji wyodrębniania. Skompilowanych zasobów nie można przeglądać ani edytować. Jednak pozostałe zasoby mogą być edytowane w edytorze szablonów lub, jeśli użytkownik jest w sesji środowiska roboczego analizy tekstu, w edytorze zasobów.

Zasoby skompilowane są podstawowymi, wewnętrznymi komponentami mechanizmu wyodrębniania w analizach tekstowych. Zasoby te obejmują słownik ogólny zawierający listę formularzy podstawowych z kodem części mowy (rzeczownik, czasownik, przymiotnik, itp.).

Oprócz tych zasobów skompilowanych razem z produktem dostarczanych jest kilka bibliotek, które można wykorzystać jako dopełnienie definicji typów i pojęć zawartych w zasobach skompilowanych, a także jako źródła synonimów. Biblioteki te — oraz biblioteki utworzone samodzielnie przez użytkownika — składają się z kilku słowników. Są to: słowniki typów, słowniki synonimów oraz słowniki wykluczeń.

Po zaimportowaniu i przekształceniu danych mechanizm wyodrębniania rozpocznie identyfikowanie terminów kandydackich do wyodrębnienia. Terminy kandydackie to wyrazy lub grupy wyrazów identyfikujące pojęcia w tekście. W trakcie przetwarzania tekstu pojedyncze wyrazy (terminy pojedyncze) i złożenia wyrazów (terminy wielowyrazowe) są identyfikowane na podstawie wzorców części mowy. Następnie poprzez analizę powiązań opartych na sentymencie identyfikowane są kandydackie słowa kluczowe sentymentu.

Uwaga: Warunki w wyżej wymienionym zestawionym słowniku ogólnym przedstawiają listę wszystkich słów, które mogą być nieinteresujące lub językowo niejednoznaczne jako uniterminy. Wyrazy te są wykluczane z wyników wyodrębniania terminów pojedynczych. Jednak są ponownie analizowane przy określaniu części mowy lub wyszukiwaniu dłuższych terminów wielowyrazowych.

Krok 3. Identyfikacja klas równoważności i integracja synonimów

Po zidentyfikowaniu terminów pojedynczych i terminów wielowyrazowych oprogramowanie, korzystając ze słownika normalizacji, tworzy klasy równoważności. Klasa równoważności jest to podstawowa forma frazy lub pojedyncza forma dwóch wariantów tego samego wyrażenia. Celem przypisywania fraz do klas równoważności jest zapewnienie, że na przykład side effect i 副作用 nie będą traktowane jako osobne pojęcia. Aby określić, która koncepcja ma być używana dla klasy równoważności-czyli czy jako termin główny używany jest produkt side effect lub 副作用 - mechanizm wyodrębniania zastosuje następujące reguły w podanej kolejności:

  • Forma określona przez użytkownika w bibliotece.
  • Najczęściej używana forma, zgodnie z prekompilowanymi zasobami.

Krok 4. Przypisywanie typu

Następnie do wyodrębnionych pojęć przypisywane są typy. Typ jest semantyczną grupą pojęć. Na tym etapie używane są zarówno zasoby skompilowane, jak i biblioteki. Typy odzwierciedlają pojęcia poziomowe, kwalifikatory i określenia o wydźwięku pozytywnym i negatywnym, imiona, miejsca, organizacje i nie tylko.

Systemy lingwistyczne są zależne od ilości wiedzy — im więcej informacji zawierają ich słowniki, tym wyższa jest jakość wyników. Odpowiednia modyfikacja zawartości słowników, np. definicji synonimów, może uprościć uzyskane wyniki. Często mamy tu do czynienia z procesem iteracyjnym, który jest niezbędny do precyzyjnego wyszukania pojęć. NLP jest podstawowym elementem funkcji Text Analytics.

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more