0 / 0
Go back to the English version of the documentation
Jak działa kategoryzacja
Last updated: 12 sty 2023
Jak działa kategoryzacja (SPSS Modeler)

Podczas tworzenia modeli kategorii w Text Analytics istnieje kilka różnych technik, które można wybrać, aby utworzyć kategorie. Ponieważ każdy zbiór danych jest inny, liczba metod tworzenia kategorii i kolejność ich stosowania może się z czasem zmieniać.

Jako że każdy użytkownik może inaczej interpretować te same wyniki, konieczne może być wypróbowanie różnych technik i wybranie tej, która przynosi najlepsze wyniki w analizie konkretnych danych tekstowych. W produkcie Text Analytics można tworzyć modele kategorii w sesji środowiska roboczego, w której można eksplorować i precyzyjnie dostrajać kategorie.

W tej dokumentacji budowanie kategorii odnosi się do generowania definicji kategorii i klasyfikacji przez użycie jednej lub kilku wbudowanych technik, a kategoryzacja odnosi się do oceny lub do procesu, w którym unikalne identyfikatory (nazwa/ID/wartość) są przypisywane do definicji kategorii dla każdego rekordu lub dokumentu.

W trakcie budowania kategorii wyodrębnione pojęcia i typy są używana jako elementy składowe kategorii. W przypadku budowania kategorii rekordy lub dokumenty są automatycznie przypisywane do kategorii, jeśli zawierają one tekst zgodny z elementem definicji kategorii.

Funkcja Text Analytics oferuje kilka zautomatyzowanych technik budowania kategorii, które ułatwiają szybkie kategoryzowanie dokumentów lub rekordów.

Techniki grupowania

Każda z dostępnych technik jest dobrze dopasowana do określonych typów danych i sytuacji, jednak często pomocne jest łączenie technik w tej samej analizie w celu uchwycenia pełnego zakresu zapisów dokumentów. Pojęcie może znaleźć się w więcej niż jednej kategorii, mogą też pojawić się kategorie nadmiarowe.

Sieć semantyczna. Ta technika najpierw rozpoznaje możliwe sensy każdego pojęcia na podstawie obszernego indeksu relacji między wyrazami, a potem tworzy kategorie poprzez grupowanie pojęć pokrewnych. Sprawdza się najlepiej, gdy pojęcia są znane sieci semantycznej i nie są zbyt niejednoznaczne. Jest mniej użyteczna, gdy tekst zawiera terminologię specjalistyczną lub żargon nieznany sieci. W jednym przykładzie pojęcie granny smith apple może być zgrupowane razem z gala apple i winesap apple, ponieważ są one elementami równorzędnymi dla Granny Smith. Natomiast pojęcie animal mogłoby zostać połączone w grupę z pojęciami cat i kangaroo, ponieważ są one hiponimami słowa animal (tj. zawężają jego znaczenie). Technika ta jest dostępna tylko dla tekstu angielskiego.

Uwzględnienie Pojęcia. Ta technika buduje kategorie, łącząc z w grupę z jednym pojęciem inne pojęcia złożone z wielu terminów (wielu wyrazów) w zależności od tego, czy zawierają one wyrazy będące podzbiorami czy nadzbiorami występującego w nim wyrazu. Na przykład pojęcie seat byłoby zgrupowane z safety seat, seat belt i seat belt buckle.

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more