0 / 0
Go back to the English version of the documentation
Analiza tekstu
Last updated: 03 lis 2023
Analiza tekstu (SPSS Modeler)

Program SPSS Modeler oferuje węzły wyspecjalizowane w obsłudze tekstu.

Węzły analizy tekstu udostępniają zaawansowane funkcje analizy tekstu, wykorzystujące zaawansowane technologie lingwistyczne i przetwarzanie języka naturalnego (NLP), które umożliwiają szybkie przetwarzanie wielu różnych nieustrukturyzowanych danych tekstowych, a także wyodrębnianie i porządkowanie kluczowych pojęć z tego tekstu. Analiza tekstu może również pogrupować te pojęcia w kategorie.

Około 80% danych przechowywanych w organizacji ma postać dokumentów tekstowych i są to na przykład raporty, strony WWW, wiadomości e-mail i notatki z centrów zgłoszeniowych. Tekst jest kluczowym czynnikiem umożliwiającym organizacji lepsze zrozumienie zachowania klientów. System, który wykorzystuje NLP, może inteligentnie wyodrębniać pojęcia, a wśród nich frazy złożone. Ponadto znajomość języka bazowego umożliwia przypisywanie terminów do powiązanych z nimi grup, takich jak produkty, organizacje i osoby — na podstawie znaczeń i kontekstów. W rezultacie można szybko określić istotność informacji w odniesieniu do konkretnych potrzeb. Wyodrębnione pojęcia i kategorie można łączyć z istniejącymi danymi ustrukturyzowanymi, takimi jak dane demograficzne, i stosować do modelowania w programie SPSS Modeler , aby podejmować lepsze i bardziej ukierunkowane decyzje.

Systemy lingwistyczne są zależne od ilości wiedzy — im więcej informacji zawierają ich słowniki, tym wyższa jest jakość wyników. Analiza tekstu udostępnia zestaw zasobów lingwistycznych, takich jak słowniki terminów i synonimów, bibliotek i szablonów. Te węzły umożliwiają tworzenie i precyzowanie tych zasobów lingwistycznych w kontekście. Precyzyjne dostosowywanie zasobów lingwistycznych to często proces interaktywny, niezbędny do dokładnego odczytywania i klasyfikowania pojęć. Produkt zawiera również niestandardowe szablony, biblioteki i słowniki dla konkretnych domen, takich jak CRM i genomika.

Wskazówki dotyczące pierwszych kroków:

Ten film wideo udostępnia metodę wizualną jako alternatywę dla treści w tej dokumentacji.

Zastrzeżenie dotyczące filmu wideo: Niektóre kroki i elementy graficzne w tym filmie wideo mogą różnić się od platformy.

  
https://video.ibm.com/embed/channel/23952663/video/spss-text-analytics-workbench

aplikacji

Ogólnie rzecz biorąc, każdy, kto rutynowo musi przeglądać duże ilości dokumentów, aby zidentyfikować kluczowe elementy do dalszej eksploracji, może skorzystać z analizy tekstu. Przykłady konkretnych aplikacji:

  • Badania naukowe i medyczne. Eksploracja materiałów pomocniczych, takich jak raporty patentowe i artykuły w czasopismach specjalistycznych. Wykrywanie powiązań, które były dotychczas nieznane (np. powiązanie między lekarzem a określonym produktem), i wytyczanie na ich podstawie kierunków dalszej eksploracji. Przyspieszenie prac nad nowymi lekami. Badania genetyczne.
  • Badania inwestycyjne. Analiza codziennych raportów analitycznych, artykułów prasowych i informacji dla prasy publikowanych przez spółki w celu wykrycia kluczowych elementów strategii i zmian na rynku. Analiza trendów w zbiorach takich informacji ujawnia potencjalne problemy lub szanse stojące przed jedną firmą lub całą branżą w danym okresie.
  • Wykrywanie oszustw. Wykrywanie anomalii i potencjalnych zagrożeń oszustwem w obszernych danych tekstowych w sektorze bankowości lub służby zdrowia.
  • Badania rynku. Badania mające na celu rozpoznanie najważniejszych tematów w odpowiedziach respondentów na pytania otwarte.
  • Analiza bloków i kanałów WWW. Eksploracja i budowanie modeli na podstawie kluczowych pojęć pojawiających się w kanałach z wiadomościami, blogach itd.
  • CRM. Budowanie modeli na podstawie danych z wszystkich punktów interakcji z klientem, takich jak poczta elektroniczna, transakcje i ankiety.

Węzły

Wraz z wieloma standardowymi węzłami w programie SPSS Modelermożna również pracować z węzłami eksploracji tekstu , aby wykorzystać potencjał analizy tekstu w swoich przepływach. Te węzły są dostępne na palecie węzłów w obszarze Analiza tekstu:
  • Węzeł Language Identifier to węzeł procesu, który skanuje tekst źródłowy w celu określenia języka, w którym został napisany, a następnie oznacza go w nowej zmiennej. Węzeł ten, wykorzystywany głównie podczas pracy z dużymi ilościami danych, okazuje się bardzo przydatny, gdy w źródłach danych występuje kilka języków, z których przetworzony ma być tylko jeden.
  • Węzeł Text Link Analysis pozwala na wyodrębnianie pojęć, a także identyfikuje relacje między pojęciami na podstawie znanych wzorców w tekście. Wyodrębnianie wzorca umożliwia wykrywanie relacji między pojęciami, a także dowolnych opinii lub kwalifikatorów dołączonych do tych pojęć. Węzeł Text Link Analysis (TLA) oferuje bardziej bezpośredni sposób identyfikowania i wyodrębniania wzorców z tekstu, a następnie dodawania wyników wzorca do zbioru danych w przepływie. Można również wykonać analizę TLA za pomocą sesji środowiska roboczego analizy tekstu za pośrednictwem węzła modelowania Text Mining.
  • Węzeł Test Mining używa metod lingwistycznych, aby wyodrębnić kluczowe pojęcia z tekstu, tworzy kategorie na podstawie tych pojęć i innych danych i oferuje możliwość identyfikowania relacji i powiązań między pojęciami na podstawie znanych wzorców (jest to tzw. analiza powiązań w tekście). Za pomocą tego węzła można eksplorować treść danych tekstowych lub tworzyć model pojęć lub model kategorii. Pojęcia i kategorie można łączyć z istniejącymi danymi ustrukturyzowanymi, takimi jak dane demograficzne, a następnie stosować w modelowaniu.
Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more