0 / 0
Go back to the English version of the documentation
ustawianie opcji
Last updated: 03 lis 2023
Ustawianie opcji (SPSS Modeler)

Można uzyskać dostęp do ustawień w różnych panelach środowiska roboczego analizy tekstu, takich jak ustawienia wyodrębniania pojęć.

Na kartach Pojęcia, Odsyłacze tekstowei Kategorie kategorie są budowane na podstawie deskryptorów pochodzących z typów lub wzorców typów. W tej tabeli można wybrać pojedyncze typy obiektów lub wzorce, które mają zostać uwzględnione w procesie tworzenia kategorii. Poniżej znajduje się opis wszystkich ustawień na każdej karcie.

Ustawienia wyników wyodrębniania (dane pojęć)

Na karcie Koncepcje lub Odsyłacze tekstowe kliknij ikonę Ustawienia , aby zmienić następujące ustawienia:

  • Enable Text Link Analysis pattern extraction. Określa, czy chcesz wyodrębnić wzorce TLA z danych tekstowych. To ustawienie zakłada również, że istnieją reguły wzorców TLA w jednej z bibliotek narzędzia Resource Editor. Ta opcja może znacznie wydłużyć czas wyodrębniania.
  • Dostosuj błędy interpunkcyjne. Ta opcja powoduje, że podczas wyodrębniania tekst zawierający błędy interpunkcyjne (na przykład nieprawidłowo użyte znaki interpunkcyjne) będzie tymczasowo normalizowany w celu poprawienia efektywności wyodrębniania pojęć. Ta opcja jest bardzo użyteczna, gdy mamy do czynienia z krótkimi tekstami o niskiej jakości (np. odpowiedziami na pytania otwarte w ankietach, wiadomościami e-mail i danymi z systemów CRM) lub gdy system zawiera wiele skrótów.
  • Dostosuj pisownię do minimalnego limitu znaków głównych. Ta opcja powoduje zastosowanie techniki grupowania rozmytego, która grupuje błędnie napisane lub podobne wyrazy pod jednym pojęciem. Algorytm grupowania rozmytego tymczasowo usuwa wszystkie samogłoski (z wyjątkiem pierwszej) i usuwa podwójne/potrójne spółgłoski z wyodrębnionych słów, a następnie porównuje je, aby sprawdzić, czy są takie same, na przykład,modelingzapewnienia odpornościmodellingbędzie zgrupowany razem. Jeśli jednak każdy termin jest przypisany do innego typu, z wyłączeniem<Unknown>Typ, technika grupowania rozmytego nie zostanie zastosowana.
  • Wyodrębnij terminy jedn. Ta opcja wyodrębnia pojedyncze słowa (terminy pojedyncze) tak długo, jak słowo nie jest już częścią słowa złożonego i jeśli jest to albo rzeczownik, albo nierozpoznana część mowy.
  • Wyodrębnij obiekty nielingwistyczne. Ta opcja wyodrębnia obiekty nielingwistyczne, takie jak numery telefonów, numery ubezpieczenia społecznego, godziny, daty, waluty, cyfry, wartości procentowe, adresy e-mail i adresy HTTP. Istnieje możliwość uwzględnienia lub wykluczenia niektórych typów obiektów nielingwistycznych. Wykluczenie zbędnych obiektów sprawi, że mechanizm wyodrębniania nie będzie marnował czasu na ich przetwarzanie.
  • Algorytm wielkich liter. Ta opcja wyodrębnia terminy proste i złożone, które nie znajdują się we wbudowanych słownikach, o ile pierwsza litera terminu jest zapisana wielkimi literami. Jest to dobry sposób na wyodrębnienie większości rzeczowników własnych.
  • Grupuj, jeśli to możliwe, częściowe i pełne nazwiska osób. Ta opcja grupuje imiona i nazwiska, które w tekście występują w różnych postaciach. Jest to użyteczne, ponieważ imiona i nazwiska często na początku tekstu przytaczane są w pełnym brzmieniu, ale później już występują tylko w wersji skróconej. W przypadku wybrania tej opcji program próbuje dopasować każdy pojedynczy termin typu <Unknown> do ostatniego wyrazu każdego terminu złożonego typu <Person> (osoba). Na przykład, jeśli znaleziony zostanie wyraz nowak o początkowo przypisanym typie <Unknown>, to mechanizm wyodrębniania sprawdzi, czy jakiekolwiek terminy złożone typu <Person> zawierają jako ostatni wyraz właśnie nowak, na przykład piotr nowak. Ta opcja nie ma zastosowania do imion i nazwisk, ponieważ większość z nich nigdy nie jest wyodrębniana jako terminy jednolite.
  • Maksymalna permutacja słów niefunkcyjnych. Ta opcja określa maksymalną liczbę wyrazów niefunkcyjnych, które mogą być obecne, gdy stosowana jest technika permutacji. Ta technika permutacji grupuje podobne frazy, które różnią się tylko słowami niefunkcyjną (na przykład z i W przypadku), niezależnie od odmiany. Załóżmy na przykład, że ustawiłeś tę wartość na co najwyżej dwa słowa i zarówno urzędnicy firmy , jak i urzędnicy firmy zostały wyodrębnione. W tym przypadku oba terminy zostaną połączone w grupę, ponieważ po zignorowaniu wyrazów of the zostaną uznane za identyczne.
  • Użyj wyprowadzenia podczas grupowania składników wielowartościowych. Podczas przetwarzania wielkich zbiorów danych należy wybrać tę opcję, aby grupować terminy wielowartościowe przy użyciu reguł wyprowadzenia.

Ustawienia dla kategorii (dane kategorii)

Na karcie Kategorie przejdź do opcji Buduj > Zmień ustawienia , aby zmienić następujące ustawienia:

  • Zbuduj kategorie na podstawie. Jeśli zostanie wybrana opcja Typy, kategorie zostaną zbudowane na podstawie pojęć należących do wybranych typów. Jeśli więc zostanie wybrana opcja<Budget>Wpisz w tabeli, kategorie, takie jakcostLUBpricemogą być produkowane odcostzapewnienia odpornościpricesą pojęciami przypisanymi do<Budget>Typ.

    Domyślnie wybrane są tylko typy, które przechwytują najwięcej rekordów lub dokumentów. Ten wstępny wybór pozwala szybko skupić się na najbardziej interesujących typach i uniknąć budowania kategorii nieinteresujących. W tabeli wyświetlane są typy w porządku malejącym, począwszy od jednego z największą liczbą rekordów lub dokumentów (Doc. (liczba). Typy zOpinionsDomyślnie w tabeli typów biblioteka nie jest wybrana.

    Wybrane ustawienia wejściowe mają wpływ na uzyskiwane kategorie. Jeśli wybierzesz opcję użycia typów jako danych wejściowych, w wynikach uwypuklone będą jednoznacznie pokrewne pojęcia. Jeśli na przykład kategorie są budowane przy użyciu typów jako danych wejściowych, można uzyskać kategorię.Fruitz pojęciami takimi jakapple,pear,citrus fruits,orangei tak dalej. Jeśli jako dane wejściowe zostanie wybrana opcja Wzorce typów, a następnie zostanie wybrany wzorzec.<Unknown> + <Positive>, na przykład, można uzyskać kategorięfruit + <Positive>z jednym lub dwoma rodzajami owoców, takich jakfruit + tastyzapewnienia odpornościapple + good. Ten drugi wynik pokazuje tylko 2 wzorce koncepcyjne, ponieważ inne wystąpienia owoców niekoniecznie są pozytywnie zakwalifikowane. I chociaż może to być wystarczające dla bieżących danych tekstowych, w badaniach wzdłużnych, w których używane są różne zestawy dokumentów, można ręcznie dodać inne deskryptory, takie jakcitrus fruit + positivelub użyj typów. Zastosowanie typów jako jedynych kryteriów wejściowych pomoże wyszukać wszystkie możliwe owoce.

    W przypadku wybrania opcji Wzorce typówkategorie są budowane na podstawie wzorców, a nie na podstawie typów i pojęć. W ten sposób wszystkie rekordy lub dokumenty zawierające wzorzec pojęcia należący do wybranego wzorca typu zostaną sklasyfikowane. Oznacza to, że w przypadku wybrania opcji<Budget>zapewnienia odporności<Positive>wzorzec typu w tabeli, kategorie, takie jakcost & <Positive>LUBrates & excellentmogą być produkowane.

    W przypadku zastosowania wzorców typów jako danych wejściowych dla automatycznego budowania kategorii w niektórych przypadkach techniki mogą budować strukturę kategorii na różne, alternatywne sposoby. Z technicznego punktu widzenia nie ma jedynie słusznej struktury kategorii, jednak niektóre struktury kategorii mogą być lepiej niż inne dostosowane do konkretnych potrzeb analitycznych. Aby wpłynąć na uzyskiwane wyniki, można wyznaczyć preferowany typ. Wszystkie utworzone kategorie najwyższego poziomu będą pochodzić z pojęcia typu wybranego w tym miejscu (bez innego typu). Każda podkategoria będzie zawierać wzorzec powiązań tekstowych z tego typu. Wybierz ten typ w polu Kategorie struktury według typu wzorca: i tabela zostanie zaktualizowana w celu wyświetlenia tylko odpowiednich wzorców zawierających wybrany typ. Częściej niż nie,<Unknown>zostanie wstępnie wybrany dla Ciebie. Powoduje to, że wszystkie wzorce zawierające typ<Unknown>:NONE. W tabeli wyświetlane są typy w porządku malejącym, począwszy od jednego z największą liczbą rekordów lub dokumentów (Doc. (liczba).

  • Techniki. Ponieważ każdy zbiór danych jest inny, liczba metod tworzenia kategorii i kolejność ich stosowania może się z czasem zmieniać. Jako że różne zbiory danych mogą być eksplorowane w różnych celach i pod różnym kątem, konieczne może być wypróbowanie różnych technik i wybranie tej, która przynosi najlepsze wyniki w analizie konkretnych danych tekstowych.

    Nie trzeba być ekspertem, by korzystać z tych technik. Domyślnie wybrane są najczęściej stosowane i przeciętne ustawienia. Oznacza to, że możesz pominąć okna ustawień zaawansowanych i przejść bezpośrednio do budowania kategorii. Podobnie, jeśli wprowadzisz tutaj zmiany, nie musisz za każdym razem wracać do okna dialogowego ustawień, ponieważ zawsze zachowywane są najnowsze ustawienia.

    Wybierz jedną z następujących technik, a następnie kliknij opcję Ustawienia zaawansowane. Żadna z technik automatycznych nie będzie idealnie klasyfikować Twoich danych, dlatego zalecamy znalezienie i zastosowanie jednej lub kilku technik automatycznych, które dobrze współpracują z danymi. Nie można budować jednocześnie przy użyciu technik lingwistycznych i częstotliwości.

Dostępne są następujące ustawienia Rozszerz :

  • Dane wejściowe kategorii. Wybierz opcję Nieużywane wyniki wyodrębniania , jeśli kategorie mają być budowane na podstawie wyników wyodrębniania, które nie są używane w istniejących kategoriach. Minimalizuje to tendencję do dopasowywania tych samych rekordów do wielu kategorii i ogranicza liczbę generowanych kategorii. Lub wybierz opcję Wszystkie wyniki wyodrębniania , jeśli kategorie mają być budowane przy użyciu dowolnych wyników wyodrębniania. Taki sposób postępowania jest najbardziej użyteczny, gdy nie istnieją jeszcze kategorie lub jeśli istnieje niewiele kategorii.

    Każda z dostępnych technik grupowania jest dobrze dopasowana do pewnych typów danych i sytuacji, ale często pomocne jest połączenie technik w tej samej analizie w celu przechwycenia pełnego zakresu dokumentów lub rekordów. Pojęcie może znaleźć się w więcej niż jednej kategorii, mogą też pojawić się kategorie nadmiarowe. Technika uwzględniania pojęć tworzy kategorie, grupując pojęcia wielowyrazowe (słowa złożone) na podstawie tego, czy zawierają one słowa będące podzbiorami, czy też znaki zastępujące słowo w drugim słowie. Na przykład, siedzenie koncepcyjne byłoby zgrupowane z siedzeniem bezpieczeństwa, pasem bezpieczeństwa i klamrą pasa bezpieczeństwa. Technika sieci semantycznej rozpoczyna się od zidentyfikowania możliwych zmysłów każdego pojęcia na podstawie jego obszernego indeksu relacji między wyrazami, a następnie tworzy kategorie poprzez grupowanie pojęć pokrewnych. Sprawdza się najlepiej, gdy pojęcia są znane sieci semantycznej i nie są zbyt niejednoznaczne. Jest to mniej przydatne, gdy tekst zawiera specjalistyczną terminologię lub żargonu nieznanego w sieci. W jednym przykładzie pojęcie granny smith apple może być zgrupowane z gala apple i winesap apple , ponieważ są rodzeństwem babci smith. W innym przykładzie pojęcie zwierzę może być zgrupowane z pojęciem kot i kangur , ponieważ są to hiponymy zwierząt. Ta technika jest dostępna tylko dla tekstu w języku angielskim.

    Opcja Maksymalna odległość wyszukiwania jest dostępna tylko wtedy, gdy wybrano technikę sieci semantycznej. Wybierz, jak daleko ma być prowadzone wyszukiwanie, zanim wygenerowane zostaną kategorie. Im mniejsza wartość, tym mniej wyników zostanie wygenerowanych, jednak wyniki te będą mniej zaszumione i z większym prawdopodobieństwem będą istotnie powiązane ze sobą nawzajem. Im większa wartość, tym więcej wyników zostanie wygenerowanych, ale wyniki te mogą być mniej wiarygodne lub istotne. Choć opcja ta obowiązuje globalnie we wszystkich technikach, jej działanie jest najbardziej odczuwalne w sieciach semantycznych i analizie współwystąpień.

    Wybierz opcję Zapobiegaj parowaniu konkretnych pojęć , jeśli proces ma nie grupować lub nie łączyć w pary dwóch pojęć w wynikach. Aby tworzyć pary pojęć lub nimi zarządzać, kliknij przycisk Manage Pairs.

  • Tam, gdzie to możliwe. Wybierz, czy po prostu rozszerzać, uogólniać deskryptory za pomocą znaków wieloznacznych, czy też oba te elementy.
    • Rozszerz i generalizuj. Ta opcja spowoduje uzupełnienie wybranych kategorii, a następnie uogólnienie deskryptorów. Jeśli wybierzesz opcję uogólnienia, produkt utworzy ogólne reguły kategorii w kategoriach przy użyciu wieloznacznego symbolu gwiazdki. Na przykład zamiast tworzyć wiele deskryptorów, takich jak [apple tart + .] i [apple sauce + .], utworzenie [apple * + .] może spowodować używanie znaków wieloznacznych. Jeśli generalizujesz z użyciem znaków wieloznacznych, często otrzymujesz dokładnie taką samą liczbę rekordów lub dokumentów, jak wcześniej. Jednak zaletą tej opcji jest zmniejszenie liczby i uproszczenie deskryptorów kategorii. Ponadto ta opcja zwiększa możliwość kategoryzacji większej liczby rekordów lub dokumentów przy użyciu tych kategorii w nowych danych tekstowych (na przykład w badaniach podłużnych/falowych).
    • Tylko rozszerz. Ta opcja spowoduje uzupełnienie kategorii bez uogólniania. Celowe może być wybranie najpierw opcji Extend only dla kategorii utworzonych ręcznie, a potem ponownie uzupełnienie tych samych kategorii przy użyciu opcji Extend and generalize.
    • Tylko generalizuj. Ta opcja spowoduje uogólnienie deskryptorów bez uzupełniania kategorii w inny sposób.
    • Maksymalna liczba elementów, o jaką ma zostać rozszerzony deskryptor. W przypadku uzupełniania deskryptora o elementy (pojęcia, typy i inne wyrażenia) zdefiniuj maksymalną liczbę elementów, które można dodać do jednego deskryptora. Jeśli ten limit zostanie ustawiony na 10, to do istniejącego deskryptora zostanie dodanych nie więcej niż 10 elementów. Jeśli istnieje więcej niż 10 elementów do dodania, technika przerwie dodawanie nowych elementów po dziesiątym elemencie. W ten sposób można skrócić listę deskryptorów, ale nie ma gwarancji, że najbardziej interesujące elementy zostaną użyte w pierwszej kolejności.
    • Rozszerz również podkategorie. Ta opcja powoduje również uzupełnienie wszystkich kategorii poniżej wybranych.
    • Rozszerz puste kategorie o deskryptory wygenerowane na podstawie nazwy kategorii. Ta metoda ma zastosowanie tylko do pustych kategorii, które mają 0 deskryptorów. Jeśli kategoria zawiera już deskryptory, nie zostanie rozszerzona w ten sposób. Ta opcja służy do automatycznego tworzenia deskryptorów dla każdej kategorii na podstawie wyrazów, które tworzą nazwę kategorii. Nazwa kategorii jest przeszukiwana w celu sprawdzenia, czy wyrazy w nazwie pasują do wyodrębnionych pojęć. Jeśli pojęcie jest rozpoznawane, jest używane do znajdowania zgodnych wzorców pojęć, a oba są używane do tworzenia deskryptorów dla kategorii. Ta opcja daje najlepsze wyniki, gdy nazwy kategorii są długie i opisowe. Jest to szybka metoda generowania deskryptorów kategorii, które z kolei umożliwiają kategorii wychwytywanie rekordów zawierających te deskryptory. Ta opcja jest użyteczna w przypadku importowania kategorii z innego miejsca lub podczas ręcznego tworzenia kategorii z długimi nazwami opisowymi.
    • Wygeneruj deskryptory jako. Ta opcja ma zastosowanie tylko wtedy, gdy poprzednia opcja jest wybrana. Wybierz opcję Pojęcia , aby utworzyć wynikowe deskryptory w formie pojęć, niezależnie od tego, czy zostały wyodrębnione z tekstu źródłowego. Można również wybrać opcję Wzorce , aby utworzyć wynikowe deskryptory w postaci wzorców, niezależnie od tego, czy wynikowe wzorce lub jakiekolwiek wzorce zostały wyodrębnione.
Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more