Analiza tekstu (SPSS Modeler) | IBM Cloud Pak for Data as a Service

Translation not up to date

The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.

Go back to the English version of the documentation

Analiza tekstu

Last updated: 03 lis 2023

Analiza tekstu (SPSS Modeler)

Program SPSS Modeler oferuje węzły wyspecjalizowane w obsłudze tekstu.

Węzły analizy tekstu udostępniają zaawansowane funkcje analizy tekstu, wykorzystujące zaawansowane technologie lingwistyczne i przetwarzanie języka naturalnego (NLP), które umożliwiają szybkie przetwarzanie wielu różnych nieustrukturyzowanych danych tekstowych, a także wyodrębnianie i porządkowanie kluczowych pojęć z tego tekstu. Analiza tekstu może również pogrupować te pojęcia w kategorie.

Około 80% danych przechowywanych w organizacji ma postać dokumentów tekstowych i są to na przykład raporty, strony WWW, wiadomości e-mail i notatki z centrów zgłoszeniowych. Tekst jest kluczowym czynnikiem umożliwiającym organizacji lepsze zrozumienie zachowania klientów. System, który wykorzystuje NLP, może inteligentnie wyodrębniać pojęcia, a wśród nich frazy złożone. Ponadto znajomość języka bazowego umożliwia przypisywanie terminów do powiązanych z nimi grup, takich jak produkty, organizacje i osoby — na podstawie znaczeń i kontekstów. W rezultacie można szybko określić istotność informacji w odniesieniu do konkretnych potrzeb. Wyodrębnione pojęcia i kategorie można łączyć z istniejącymi danymi ustrukturyzowanymi, takimi jak dane demograficzne, i stosować do modelowania w programie SPSS Modeler , aby podejmować lepsze i bardziej ukierunkowane decyzje.

Systemy lingwistyczne są zależne od ilości wiedzy — im więcej informacji zawierają ich słowniki, tym wyższa jest jakość wyników. Analiza tekstu udostępnia zestaw zasobów lingwistycznych, takich jak słowniki terminów i synonimów, bibliotek i szablonów. Te węzły umożliwiają tworzenie i precyzowanie tych zasobów lingwistycznych w kontekście. Precyzyjne dostosowywanie zasobów lingwistycznych to często proces interaktywny, niezbędny do dokładnego odczytywania i klasyfikowania pojęć. Produkt zawiera również niestandardowe szablony, biblioteki i słowniki dla konkretnych domen, takich jak CRM i genomika.

Wskazówki dotyczące pierwszych kroków:

Obejrzyj następujący film wideo, aby zapoznać się z analizą tekstu.
Patrz Przykład zadowolenia z hotelu dla analizy tekstu.

Ten film wideo udostępnia metodę wizualną jako alternatywę dla treści w tej dokumentacji.

Zastrzeżenie dotyczące filmu wideo: Niektóre kroki i elementy graficzne w tym filmie wideo mogą różnić się od platformy.

https://video.ibm.com/embed/channel/23952663/video/spss-text-analytics-workbench

aplikacji

Ogólnie rzecz biorąc, każdy, kto rutynowo musi przeglądać duże ilości dokumentów, aby zidentyfikować kluczowe elementy do dalszej eksploracji, może skorzystać z analizy tekstu. Przykłady konkretnych aplikacji:

Badania naukowe i medyczne. Eksploracja materiałów pomocniczych, takich jak raporty patentowe i artykuły w czasopismach specjalistycznych. Wykrywanie powiązań, które były dotychczas nieznane (np. powiązanie między lekarzem a określonym produktem), i wytyczanie na ich podstawie kierunków dalszej eksploracji. Przyspieszenie prac nad nowymi lekami. Badania genetyczne.
Badania inwestycyjne. Analiza codziennych raportów analitycznych, artykułów prasowych i informacji dla prasy publikowanych przez spółki w celu wykrycia kluczowych elementów strategii i zmian na rynku. Analiza trendów w zbiorach takich informacji ujawnia potencjalne problemy lub szanse stojące przed jedną firmą lub całą branżą w danym okresie.
Wykrywanie oszustw. Wykrywanie anomalii i potencjalnych zagrożeń oszustwem w obszernych danych tekstowych w sektorze bankowości lub służby zdrowia.
Badania rynku. Badania mające na celu rozpoznanie najważniejszych tematów w odpowiedziach respondentów na pytania otwarte.
Analiza bloków i kanałów WWW. Eksploracja i budowanie modeli na podstawie kluczowych pojęć pojawiających się w kanałach z wiadomościami, blogach itd.
CRM. Budowanie modeli na podstawie danych z wszystkich punktów interakcji z klientem, takich jak poczta elektroniczna, transakcje i ankiety.

Węzły

Wraz z wieloma standardowymi węzłami w programie SPSS Modelermożna również pracować z węzłami eksploracji tekstu , aby wykorzystać potencjał analizy tekstu w swoich przepływach. Te węzły są dostępne na palecie węzłów w obszarze Analiza tekstu:

Węzeł Language Identifier to węzeł procesu, który skanuje tekst źródłowy w celu określenia języka, w którym został napisany, a następnie oznacza go w nowej zmiennej. Węzeł ten, wykorzystywany głównie podczas pracy z dużymi ilościami danych, okazuje się bardzo przydatny, gdy w źródłach danych występuje kilka języków, z których przetworzony ma być tylko jeden.
Węzeł Text Link Analysis pozwala na wyodrębnianie pojęć, a także identyfikuje relacje między pojęciami na podstawie znanych wzorców w tekście. Wyodrębnianie wzorca umożliwia wykrywanie relacji między pojęciami, a także dowolnych opinii lub kwalifikatorów dołączonych do tych pojęć. Węzeł Text Link Analysis (TLA) oferuje bardziej bezpośredni sposób identyfikowania i wyodrębniania wzorców z tekstu, a następnie dodawania wyników wzorca do zbioru danych w przepływie. Można również wykonać analizę TLA za pomocą sesji środowiska roboczego analizy tekstu za pośrednictwem węzła modelowania Text Mining.
Węzeł Test Mining używa metod lingwistycznych, aby wyodrębnić kluczowe pojęcia z tekstu, tworzy kategorie na podstawie tych pojęć i innych danych i oferuje możliwość identyfikowania relacji i powiązań między pojęciami na podstawie znanych wzorców (jest to tzw. analiza powiązań w tekście). Za pomocą tego węzła można eksplorować treść danych tekstowych lub tworzyć model pojęć lub model kategorii. Pojęcia i kategorie można łączyć z istniejącymi danymi ustrukturyzowanymi, takimi jak dane demograficzne, a następnie stosować w modelowaniu.