Translation not up to date
Za pomocą węzła TLA (Text Link Analysis) wyodrębnianie wyników wzorca analizy odsyłaczy tekstowych jest włączane automatycznie. W przypadku właściwości węzła opcje zaawansowane zawierają pewne dodatkowe parametry, które wpływają na sposób wyodrębniania i obsługi tekstu. Parametry eksperckie sterują podstawowym zachowaniem, a także kilkoma zaawansowanymi zachowaniami, procesem ekstrakcji. Istnieje także szereg zasobów lingwistycznych i opcji wpływających na wyniki wyodrębniania i sterowanych za pośrednictwem wybranego szablonu zasobów.
Ogranicz wyodrębnianie do pojęć o globalnej częstotliwości co najmniej [ n]. Ta opcja określa minimalną liczbę wystąpień słowa lub frazy w tekście, aby można było wyodrębnić słowo lub frazę. Na przykład wartość 5 powoduje, że wyodrębnianie będą tylko te wyrazy i frazy, które występują co najmniej pięć razy w całym zbiorze rekordów lub dokumentów.
W niektórych przypadkach zmiana tego limitu silnie wpływa na wyniki wyodrębniania, a w efekcie na utworzone kategorie. Powiedzmy, że pracujesz z jakąś restauracją danych i nie zwiększasz limitu poza 1 dla tej opcji. W tym przypadku w wynikach wyodrębniania można znaleźć pizza (1),
thin pizza (2), spinach pizza (2)
i favorite pizza (2)
. Jeśli jednak ograniczymy wyodrębnianie do pojęć występujących co najmniej 5 razy, powyższe trzy pojęcia nie zostaną wyodrębnione. Zamiast tego można uzyskać pizza
(7)
, ponieważ pizza
jest najprostszą formą, a słowo to istniało już jako potencjalny kandydat. W zależności od zawartości reszty tekstu liczność wystąpień może przekraczać siedem, jeśli w tekście wyraz pizza występuje jeszcze w innych frazach. Ponadto, jeśli pojęcie spinach pizza
było już deskryptorem kategorii, to zamiast niego może być konieczne dodanie deskryptora pizza
w celu uwzględnienia wszystkich rekordów. Dlatego, jeśli kategorie zostały już wcześniej utworzone, limit wystąpień należy modyfikować ostrożnie.
Należy zauważyć, że jest to funkcja tylko do wyodrębniania. Jeśli szablon zawiera terminy (zwykle są one używane), a termin dla szablonu zostanie znaleziony w tekście, to termin będzie indeksowany niezależnie od jego częstotliwości.
Załóżmy na przykład, że szablon Basic Resources zawiera termin "los angeles" typu <Location>
w bibliotece
Core; jeśli dokument zawiera termin Los Angeles tylko raz, to
Los Angeles zawsze znajdzie się na liście pojęć. Aby temu zapobiec, należy ustawić filtr, aby wyświetlić pojęcia występujące co najmniej taką samą liczbę razy, jak wartość wprowadzona w polu Ogranicz wyodrębnianie do pojęć z globalną częstotliwością co najmniej [ n] .
Pomiechaj błędy interpunkcyjne. Ta opcja powoduje, że podczas wyodrębniania tekst zawierający błędy interpunkcyjne (na przykład nieprawidłowo użyte znaki interpunkcyjne) będzie tymczasowo normalizowany w celu poprawienia efektywności wyodrębniania pojęć. Ta opcja jest bardzo użyteczna, gdy mamy do czynienia z krótkimi tekstami o niskiej jakości (np. odpowiedziami na pytania otwarte w ankietach, wiadomościami e-mail i danymi z systemów CRM) lub gdy system zawiera wiele skrótów.
Pomiechaj pisownię dla minimalnej długości słowa ([ n]). Ta opcja powoduje zastosowanie techniki grupowania rozmytego, która grupuje błędnie napisane lub podobne wyrazy pod jednym pojęciem. Algorytm grupowania rozmytego tymczasowo usuwa wszystkie samogłoski (z wyjątkiem pierwszego) i usuwa podwójne/potrójne spółgłoski z wyodrębnionych słów, a następnie porównuje je, aby sprawdzić, czy są takie same, tak aby produkty modeling
i modelling
były zgrupowane. Jeśli jednak każdy termin jest przypisany do innego typu, wykluczając typ <Unknown>
, technika grupowania rozmytego nie będzie stosowana.
Można też określić minimalną liczbę znaków rdzennych wymaganą do zastosowania grupowania rozmytego. Liczba znaków rdzennych w terminie obliczana jest poprzez zsumowanie wszystkich znaków i odjęcie znaków tworzących przyrostki przy odmianie, a w wypadku terminów będących wyrazami złożonymi, także znaków tworzących określniki i przyimki. Na przykład termin exercises
jest liczony jako 8 znaków głównych w formularzu "ćwiczenie", ponieważ litera s
na końcu słowa jest inflacja (liczba mnoga). Podobnie, wartość apple sauce
jest liczona jako 10 znaków głównych ("sos jabłkowy"), a wartość manufacturing of cars
jest liczona jako 16 znaków głównych ("samochód produkcyjny"). Ta metoda liczenia jest używana tylko w celu sprawdzenia, czy grupowanie rozmyte powinno być stosowane, ale nie ma wpływu na sposób dopasowania słów.
Wyodrębnij uniterminy. Ta opcja wyodrębnia pojedyncze słowa (uniterms), o ile słowo to nie jest już częścią słowa złożonego i jeśli jest to albo rzeczownik, albo nierozpoznana część mowy.
Wyodrębnij obiekty nielingwistyczne. Ta opcja wyodrębnia Obiekty nielingwistyczne, takie jak numery telefonów, numery ubezpieczenia społecznego, godziny, daty, waluty, cyfry, wartości procentowe, adresy e-mail i adresy HTTP. Niektóre typy obiektów nielingwistycznych można włączyć lub wykluczyć w sekcji Obiekty niejęzykowe: konfiguracja w obszarze Właściwości zasobów zaawansowanych. Wykluczenie zbędnych obiektów sprawi, że mechanizm wyodrębniania nie będzie marnował czasu na ich przetwarzanie.
Algorytm wielkich liter. Ta opcja wyodrębnia terminy proste i złożone, które nie znajdują się we wbudowanych słownikach, o ile pierwsza litera terminu jest zapisana wielkimi literami. Jest to dobry sposób na wyodrębnienie większości rzeczowników własnych.
Jeśli jest to możliwe, grupa częściowa i pełna nazw osób. Ta opcja grupuje imiona i nazwiska, które w tekście występują w różnych postaciach. Jest to użyteczne, ponieważ imiona i nazwiska często na początku tekstu przytaczane są w pełnym brzmieniu, ale później już występują tylko w wersji skróconej. W przypadku wybrania tej opcji program próbuje dopasować każdy pojedynczy termin typu <Unknown>
do ostatniego wyrazu każdego terminu złożonego typu <Person>
(osoba). Na przykład, jeśli znaleziono doe
i początkowo wpisano jako <Unknown>
, mechanizm wyodrębniania sprawdza, czy jakiekolwiek terminy złożone w typie <Person>
zawierają doe
jako ostatnie słowo, takie jak john doe
. Ta opcja nie ma zastosowania do pierwszych nazw, ponieważ większość nigdy nie jest wyodrębniana jako uniterms.
Maksymalna permutacja słowa niefunkcyjnego. Ta opcja określa maksymalną liczbę wyrazów niefunkcyjnych, które mogą być obecne, gdy stosowana jest technika permutacji. Ta technika permutacji grupuje podobne frazy, które różnią się od siebie tylko słowami niefunkcjonalnymi (na przykład of
i the
), niezależnie od ich zawyżenia. Na przykład, powiedzmy, że ustawiłeś tę wartość na-najwyżej-dwa słowa, a zarówno company officials
, jak i officials of the company
zostały wyodrębnione. W tym przypadku oba terminy zostaną połączone w grupę, ponieważ po zignorowaniu wyrazów of the
zostaną uznane za identyczne.
Użyj wyprowadzenia podczas grupowania wielu terminów. Podczas przetwarzania Big Data wybierz tę opcję, aby pogrupować multiterms, stosując reguły wyprowadzenia.