Translation not up to date
Podczas tworzenia modeli kategorii w Text Analytics istnieje kilka różnych technik, które można wybrać, aby utworzyć kategorie. Ponieważ każdy zbiór danych jest inny, liczba metod tworzenia kategorii i kolejność ich stosowania może się z czasem zmieniać.
Jako że każdy użytkownik może inaczej interpretować te same wyniki, konieczne może być wypróbowanie różnych technik i wybranie tej, która przynosi najlepsze wyniki w analizie konkretnych danych tekstowych. W produkcie Text Analytics można tworzyć modele kategorii w sesji środowiska roboczego, w której można eksplorować i precyzyjnie dostrajać kategorie.
W tej dokumentacji budowanie kategorii odnosi się do generowania definicji kategorii i klasyfikacji przez użycie jednej lub kilku wbudowanych technik, a kategoryzacja odnosi się do oceny lub do procesu, w którym unikalne identyfikatory (nazwa/ID/wartość) są przypisywane do definicji kategorii dla każdego rekordu lub dokumentu.
W trakcie budowania kategorii wyodrębnione pojęcia i typy są używana jako elementy składowe kategorii. W przypadku budowania kategorii rekordy lub dokumenty są automatycznie przypisywane do kategorii, jeśli zawierają one tekst zgodny z elementem definicji kategorii.
Funkcja Text Analytics oferuje kilka zautomatyzowanych technik budowania kategorii, które ułatwiają szybkie kategoryzowanie dokumentów lub rekordów.
Techniki grupowania
Każda z dostępnych technik jest dobrze dopasowana do określonych typów danych i sytuacji, jednak często pomocne jest łączenie technik w tej samej analizie w celu uchwycenia pełnego zakresu zapisów dokumentów. Pojęcie może znaleźć się w więcej niż jednej kategorii, mogą też pojawić się kategorie nadmiarowe.
Sieć semantyczna. Ta technika najpierw rozpoznaje możliwe sensy każdego pojęcia na podstawie obszernego indeksu relacji między wyrazami, a potem tworzy kategorie poprzez grupowanie pojęć pokrewnych. Sprawdza się najlepiej, gdy pojęcia są znane sieci semantycznej i nie są zbyt niejednoznaczne. Jest mniej użyteczna, gdy tekst zawiera terminologię specjalistyczną lub żargon nieznany sieci. W jednym przykładzie pojęcie granny smith apple
może być zgrupowane razem z gala apple
i winesap apple
, ponieważ są one elementami równorzędnymi dla Granny Smith. Natomiast pojęcie animal
mogłoby zostać połączone w grupę z pojęciami cat
i kangaroo
, ponieważ są one hiponimami słowa animal
(tj. zawężają jego znaczenie). Technika ta jest dostępna tylko dla tekstu angielskiego.
Uwzględnienie Pojęcia. Ta technika buduje kategorie, łącząc z w grupę z jednym pojęciem inne pojęcia złożone z wielu terminów (wielu wyrazów) w zależności od tego, czy zawierają one wyrazy będące podzbiorami czy nadzbiorami występującego w nim wyrazu. Na przykład pojęcie seat
byłoby zgrupowane z safety seat
, seat belt
i seat belt buckle
.