Zaawansowane ustawienia językowe (SPSS Modeler) | IBM Cloud Pak for Data as a Service

Translation not up to date

The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.

Go back to the English version of the documentation

Zaawansowane ustawienia językowe

Last updated: 12 sty 2023

Zaawansowane ustawienia językowe (SPSS Modeler)

Podczas tworzenia kategorii można wybierać spośród wielu zaawansowanych technik lingwistycznych budowania kategorii, takich jak włączanie pojęć i sieci semantyczne (tylko w języku angielskim). Techniki te mogą być używane indywidualnie lub łącznie do tworzenia kategorii.

Należy jednak pamiętać, że ponieważ każdy zbiór danych jest inny, liczba metod tworzenia kategorii i kolejność ich stosowania może się z czasem zmieniać. Jako że różne zbiory danych mogą być eksplorowane w różnych celach i pod różnym kątem, konieczne może być wypróbowanie różnych technik i wybranie tej, która przynosi najlepsze wyniki w analizie konkretnych danych tekstowych. Żadna z technik automatycznych nie skategoryzuje Twoich danych; dlatego zalecamy znalezienie i zastosowanie jednej lub kilku technik automatycznych, które dobrze współpracują z danymi użytkownika.

Następujące ustawienia zaawansowane są dostępne w przypadku opcji Użyj technik lingwistycznych do budowania kategorii w ustawieniach kategorii.

Dane wejściowe kategorii

Wybierz kategorie, z których zostaną zbudowane kategorie:

Nieużywane wyniki wyodrębniania. Ta opcja umożliwia tworzenie kategorii na podstawie wyników wyodrębniania, które nie są używane w żadnych istniejących kategoriach. Minimalizuje to tendencję do dopasowywania tych samych rekordów do wielu kategorii i ogranicza liczbę generowanych kategorii.
Wszystkie wyniki wyodrębniania. Ta opcja powoduje budowanie kategorii przy użyciu dowolnych wyników wyodrębniania. Taki sposób postępowania jest najbardziej użyteczny, gdy nie istnieją jeszcze kategorie lub jeśli istnieje niewiele kategorii.

Wyniki kategorii

Wybierz ogólną strukturę kategorii, które zostaną utworzone:

Hierarchiczny z podkategoriami. Ta opcja powoduje utworzenie podkategorii i podkategorii. Głębokość kategorii można określić, wybierając maksymalną liczbę poziomów, które można utworzyć. Na przykład, jeśli wybierzesz opcję 3, kategorie mogą zawierać podkategorie, a podkategorie mogą również zawierać podkategorie.
Płaskie kategorie (tylko na jednym poziomie). Ta opcja buduje tylko jeden poziom kategorii, co oznacza, że żadne podkategorie nie zostaną wygenerowane.

Techniki grupowania

Każda z dostępnych technik jest dobrze dopasowana do określonych typów danych i sytuacji, jednak często pomocne jest łączenie technik w tej samej analizie w celu uchwycenia pełnego zakresu dokumentów lub zapisów. Pojęcie może znaleźć się w więcej niż jednej kategorii, mogą też pojawić się kategorie nadmiarowe.

Grupuj według uwzględnienia pojęcia. Ta technika buduje kategorie, łącząc z w grupę z jednym pojęciem inne pojęcia złożone z wielu terminów (wielu wyrazów) w zależności od tego, czy zawierają one wyrazy będące podzbiorami czy nadzbiorami występującego w nim wyrazu. Na przykład pojęcie seat byłoby zgrupowane z safety seat, seat belt i seat belt buckle.
Grupuj według sieci semantycznej. Ta technika najpierw rozpoznaje możliwe sensy każdego pojęcia na podstawie obszernego indeksu relacji między wyrazami, a potem tworzy kategorie poprzez grupowanie pojęć pokrewnych. Sprawdza się najlepiej, gdy pojęcia są znane sieci semantycznej i nie są zbyt niejednoznaczne. Jest mniej użyteczna, gdy tekst zawiera terminologię specjalistyczną lub żargon nieznany sieci. W jednym przykładzie pojęcie granny smith apple może być zgrupowane razem z gala apple i winesap apple, ponieważ są one elementami równorzędnymi dla Granny Smith. Natomiast pojęcie animal mogłoby zostać połączone w grupę z pojęciami cat i kangaroo, ponieważ są one hiponimami słowa animal (tj. zawężają jego znaczenie). Technika ta jest dostępna tylko dla tekstu angielskiego.
Maksymalna odległość wyszukiwania. To ustawienie jest dostępne tylko wtedy, gdy zostanie wybrana opcja Grupuj według sieci semantycznej . Wybierz, jak daleko ma być prowadzone wyszukiwanie, zanim wygenerowane zostaną kategorie. Im mniejsza wartość, tym mniej wyników zostanie wygenerowanych, jednak wyniki te będą mniej zaszumione i z większym prawdopodobieństwem będą istotnie powiązane ze sobą nawzajem. Im większa wartość, tym więcej wyników zostanie wygenerowanych, ale wyniki te mogą być mniej wiarygodne lub istotne. Choć opcja ta obowiązuje globalnie we wszystkich technikach, jej działanie jest najbardziej odczuwalne w sieciach semantycznych i analizie współwystąpień.
Blokowanie parowania konkretnych pojęć. Wybierz tę opcję, aby zatrzymać proces z grupowania lub parowania dwóch pojęć razem w danych wyjściowych. Aby tworzyć pary pojęć lub nimi zarządzać, kliknij przycisk Manage Pairs.
Generalizuj z użyciem znaków wieloznacznych, o ile to możliwe. Wybierz tę opcję, aby umożliwić projektancie generowanie reguł ogólnych w kategoriach przy użyciu znaku wieloznacznego gwiazdki. Na przykład zamiast tworzyć wiele deskryptorów, takich jak [apple tart + .] i [apple sauce + .], utworzenie [apple * + .] może spowodować używanie znaków wieloznacznych. W przypadku uogólnienia z użyciem znaków wieloznacznych często otrzymujesz dokładnie taką samą liczbę rekordów lub dokumentów, jak to zrobiłeś wcześniej. Jednak zaletą tej opcji jest zmniejszenie liczby i uproszczenie deskryptorów kategorii. Dodatkowo ta opcja zwiększa możliwość kategoryzowania większej liczby rekordów lub dokumentów przy użyciu tych kategorii na nowych danych tekstowych (na przykład w badaniach podłużnych/falowych).

Inne opcje budowania kategorii

Maksymalna liczba tworzonych kategorii najwyższego poziomu. Użyj tej opcji, aby ograniczyć liczbę kategorii, które mogą zostać wygenerowane przy następnym kliknięciu opcji Buduj w panelu kategorii. W niektórych przypadkach lepsze wyniki uzyskuje się, wpisując tutaj wysoką wartość, a potem usuwając nieinteresujące kategorie.

Minimalna liczba deskryptorów i/lub podkategorii na deskryptor. Użyj tej opcji, aby określić minimalną liczbę deskryptorów i podkategorii, jaką musi zawierać kategoria, aby została utworzona. Ta opcja umożliwia ograniczenie tworzenia kategorii, które nie przechwyciły znaczącej liczby rekordów lub dokumentów.

Zezwalaj na pojawianie się deskryptorów w więcej niż jednej kategorii. Ta opcja dopuszcza użycie deskryptorów w więcej niż jednej kategorii. Ta opcja jest zwykle wybierana, ponieważ elementy często lub "naturalnie" należą do dwóch lub większej liczby kategorii, co pozwala na to, aby zwykle prowadziły one do kategorii wyższej jakości. Jeśli ta opcja nie zostanie wybrana, zmniejszy się nakładanie rekordów w wielu kategoriach i-w zależności od typu danych-może to być pożądane. Jednak w przypadku większości typów danych ograniczanie deskryptorów do pojedynczej kategorii zwykle powoduje utratę jakości kategorii lub mniejszego pokrycia danych kategoriami. Na przykład, powiedzmy, że masz pojęcie car seat manufacturer. Gdy opisywana opcja jest wybrana, to pojęcie może występować w jednej kategorii na podstawie tekstu car seat, a w innej na podstawie manufacturer. Jeśli jednak ta opcja nie jest wybrana, mimo że nadal można uzyskać obie kategorie, pojęcie car seat manufacturer będzie ujęte tylko jako deskryptor w kategorii, do której pasuje najlepiej na podstawie kilku czynników, w tym liczby rekordów, w których występują terminy car seat i manufacturer (wystąpienia zliczane są osobno dla każdego terminu).

Rozstrzygnij zduplikowane nazwy kategorii przez. Wybierz, w jaki sposób postępować z nowymi kategoriami lub podkategoriami, których nazwy byłyby takie same, jak nazwy istniejących kategorii. Istnieje możliwość scalenia nowych (i ich deskryptorów) z istniejącymi kategoriami o tej samej nazwie lub pominięcie tworzenia dowolnych kategorii, jeśli w istniejących kategoriach zostanie znaleziona zduplikowana nazwa.