Translation not up to date
Węzeł Text Mining przy użyciu technik analizy lingwistycznej i analizy liczebności występowania wyodrębnia kluczowe pojęcia z tekstu i tworzy kategorie zawierające te pojęcia oraz inne dane. Użyj węzła, aby eksplorować zawartość danych tekstowych lub utworzyć model użytkowy pojęć lub model użytkowy kategorii.
- Tryb Generuj bezpośrednio (model użytkowy pojęć) automatycznie generuje model użytkowy pojęć lub kategorii po uruchomieniu węzła.
- Alternatywnie można użyć bardziej aktywnego, eksploracyjnego podejścia, korzystając z trybu Buduj interaktywnie (model użytkowy kategorii) , w którym można nie tylko wyodrębniać pojęcia, tworzyć kategorie i udoskonalać zasoby lingwistyczne, ale również przeprowadzać analizę powiązań w tekście i eksplorować skupienia. Ten tryb budowania uruchamia środowisko robocze analizy tekstu.
Wymagania. Węzły modelowania Text Mining akceptują dane tekstowe z węzłów importu.
Użyj węzła Text Mining, aby wygenerować jeden z dwóch modeli użytkowych eksploracji tekstu:
- Modele użytkowe pojęć ujawniają i wyodrębniają pojęcia wyróżniające się wśród ustrukturyzowanych i nieustrukturyzowanych danych tekstowych.
- Modele użytkowe kategorii oceniają dokumenty oraz rekordy i przypisują je do kategorii, które są tworzone z wyodrębnionych pojęć (i wzorców).
Wyodrębnione pojęcia i wzorce oraz kategorie z modeli użytkowych można łączyć z istniejącymi danymi ustrukturyzowanymi, takimi jak dane demograficzne, w celu podejmowania lepszych i bardziej ukierunkowanych decyzji. Na przykład, jeśli klienci często wymieniają problemy z logowaniem jako główną przeszkodę w wykonywaniu zadań zarządzania kontami online, można włączyć "problemy z logowaniem" do swoich modeli.
W analizach tekstu często odwołujemy się do wyodrębnionych pojęć i kategorii. Ważne jest zrozumienie znaczenia pojęć i kategorii, ponieważ mogą one ułatwiać podejmowanie bardziej świadomych decyzji podczas eksploracji i tworzenia modeli.
Pojęcia i modele użytkowe pojęć
Podczas wyodrębniania dane tekstowe są skanowane i analizowane w celu zidentyfikowania interesujących lub istotnych pojedynczych słów, takich jak election
lub peace
, oraz fraz, takich jak presidential election
, election of the
president
lub peace treaties
. Te słowa i frazy są zbiorczo określane jako terminy. Istotne terminy są wyodrębniane z wykorzystaniem zasobów lingwistycznych, a podobne terminy są grupowane pod terminem wiodącym, nazywanym pojęciem.
W ten sposób jedno pojęcie może reprezentować różne terminy w zależności od tekstu i zestawu wykorzystywanych zasobów językowych. Załóżmy na przykład, że mamy ankietę dotyczącą zadowolenia pracowników i wyodrębniono pojęcie salary
. Załóżmy również, że przy wyszukiwaniu wszystkich rekordów związanych z pojęciem salary
zauważyliśmy, że wyraz salary
nie zawsze jest obecny w tekście — niektóre rekordy zawierały podobne terminy, takie jak wage
, wages
i salaries
. Terminy te są zgrupowane pod pojęciem salary
, ponieważ na podstawie reguł przetwarzania lub zasobów lingwistycznych mechanizm wyodrębniania uznał je za podobne lub stwierdził, że są synonimami. W takim przypadku wszystkie dokumenty lub rekordy zawierające dowolne z tych terminów będą traktowane tak, jakby zawierały słowo salary
.
Aby zobaczyć, które terminy są pogrupowane pod pojęciem, można zapoznać się z pojęciem w środowisku roboczym Text Analytics Workbench lub sprawdzić, które synonimy są wyświetlane w modelu pojęć.
Model użytkowy pojęć zawiera zestaw pojęć, których można używać do identyfikowania rekordów lub dokumentów zawierających pojęcie (w tym dowolne z jego synonimów lub pogrupowanych terminów). Model pojęcia może być używany na dwa sposoby. Pierwszym jest eksploracja i analiza pojęć wykrytych w oryginalnym tekście źródłowym albo szybka identyfikacja interesujących dokumentów. Drugim jest zastosowanie tego modelu względem nowych rekordów lub dokumentów tekstowych w celu szybkiej identyfikacji tych samych pojęć kluczowych w nowych dokumentach/rekordach, np. wykrywanie w czasie rzeczywistym pojęć kluczowych w danych z notatników w centrum zgłoszeniowym.
Kategorie i modele użytkowe kategorii
Możliwe jest tworzenie kategorii, które w gruncie rzeczy reprezentują bardziej ogólne pojęcia albo tematy przeznaczone do przechwytywania kluczowych idei, informacji i postaw wyrażonych w tekście. Kategorie składają się z zestawu deskryptorów, takich jak pojęcia, typyi reguły. Razem te deskryptory służą do określania, czy konkretny rekord lub dokument należy do danej kategorii. Dokument lub rekord można przeskanować, aby sprawdzić, czy jakikolwiek fragment tekstu jest zgodny z deskryptorem. W przypadku znalezienia dopasowania dokument/rekord jest przypisywany do tej kategorii. Ten proces jest nazywany klasyfikowaniem.
Kategorie mogą być tworzone automatycznie przy użyciu stabilnego zestawu technik zautomatyzowanych programu SPSS Modeler, ręcznie przy użyciu dodatkowych spostrzeżeń dotyczących danych lub kombinacji obu tych metod. Można również załadować zestaw wstępnie zbudowanych kategorii z pakietu analizy tekstu za pomocą ustawień modelu tego węzła. Ręczne tworzenie kategorii lub precyzowanie kategorii może być wykonywane tylko za pomocą środowiska roboczego Text Analytics.
Model użytkowy kategorii zawiera zestaw kategorii wraz z jego deskryptorami. Ten model może służyć do klasyfikowania zestawu dokumentów lub rekordów na podstawie tekstu zawartego w każdym z nich. Każdy dokument lub rekord jest czytany, a następnie przypisywany do każdej kategorii, dla której znalezione zostało dopasowanie z deskryptorem. W ten sposób dokument lub rekord może zostać przypisany do więcej niż jednej kategorii. Modele użytkowe kategorii mogą również służyć na przykład do zapoznawania się z kluczowymi ideami w odpowiedziach na otwarte pytania do ankiet albo w serii wpisów w blogu.