Translation not up to date
The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.
Last updated: 12 sty 2023
Węzeł Kategoryzacja automatycznie tworzy nowe zmienne nominalne (zbioru) na podstawie wartości z jednej lub większej liczby istniejących zmiennych ilościowych (zakres liczbowy). Można na przykład przekształcić ilościową zmienną przychodu na nową zmienną jakościową zawierającą grupy przychodu stanowiące odchylenia od średniej. Po utworzeniu przedziałów dla nowego pola można wygenerować węzeł wyliczeń w oparciu o punkty podziału.
Przykład
node = stream.create("binning", "My node")
node.setPropertyValue("fields", ["Na", "K"])
node.setPropertyValue("method", "Rank")
node.setPropertyValue("fixed_width_name_extension", "_binned")
node.setPropertyValue("fixed_width_add_as", "Suffix")
node.setPropertyValue("fixed_bin_method", "Count")
node.setPropertyValue("fixed_bin_count", 10)
node.setPropertyValue("fixed_bin_width", 3.5)
node.setPropertyValue("tile10", True)
Właściwości węzła binningnode |
Typ danych | Opis właściwości |
---|---|---|
fields |
[field1 field2 ... fieldn] | Zmienne ilościowe (zakres liczbowy) oczekujące na przekształcenie. Można kategoryzować wiele zmiennych jednocześnie. |
method |
FixedWidth EqualCount Rank SDev Optimal |
Metoda używana do ustalania punktów podziału dla nowych przedziałów zmiennych (kategorii). |
recalculate_bins |
Always IfNecessary |
Określa, czy kategorie są ponownie obliczane, a dane umieszczane w odpowiednich kategoriach przy każdym wykonaniu węzła, czy też dane są tylko dodawane do istniejących kategorii i ewentualnie dodanych nowych kategorii. |
fixed_width_name_extension |
łańcuch | Rozszerzenie domyślne to _BIN. |
fixed_width_add_as |
Suffix Prefix |
Określa, czy rozszerzenie jest dodawane na końcu (suffix, przyrostek), czy na początku (prefix, przedrostek) nazwy zmiennej. Rozszerzenie domyślne to income_BIN. |
fixed_bin_method |
Width Count |
|
fixed_bin_count |
liczba całkowita | Liczba całkowita używana do określenia liczby przedziałów o ustalonej szerokości (kategorii) dla nowych zmiennych. |
fixed_bin_width |
rzeczywista | Wartość (liczba całkowita lub rzeczywista), jaka będzie używana do obliczenia „szerokości” przedziału. |
equal_count_name_ extension |
łańcuch | Domyślne rozszerzenie to _TILE. |
equal_count_add_as |
Suffix Prefix |
Określa rozszerzenie (przyrostek albo przedrostek) nazw zmiennych generowanych z zastosowaniem standardowych p-tyli. Domyślnym rozszerzeniem jest _TILE plus N, gdzie N oznacza liczbę N-tyli. |
tile4 |
flaga | Generuje cztery kwantyle, każdy zawierający po 25% obserwacji. |
tile5 |
flaga | Generuje pięć kwintyli. |
tile10 |
flaga | Generuje dziesięć decyli. |
tile20 |
flaga | Generuje 20 równych przedziałów. |
tile100 |
flaga | Generuje 100 centyli. |
use_custom_tile |
flaga | |
custom_tile_name_extension |
łańcuch | Rozszerzenie domyślne to _TILEN. |
custom_tile_add_as |
Suffix Prefix |
|
custom_tile |
liczba całkowita | |
equal_count_method |
RecordCount ValueSum |
Metoda RecordCount próbuje przypisać do każdego przedziału równą liczbę rekordów, natomiast ValueSum przypisuje rekordy tak, by sumy wartości w każdym przedziale były równe. |
tied_values_method |
Next Current Random |
Określa, w którym przedziale ma być umieszczona powiązana wartość danych. |
rank_order |
Ascending Descending |
Właściwość przyjmuje wartość Ascending (rosnąco, najniższa wartość oznaczona 1) albo Descending (malejąco, najwyższa wartość oznaczona 1). |
rank_add_as |
Suffix Prefix |
Ta opcja ma zastosowanie do rangi, rangi ułamkowej i rangi procentowej. |
rank |
flaga | |
rank_name_extension |
łańcuch | Rozszerzenie domyślne to _RANK. |
rank_fractional |
flaga | Przeprowadza rangowanie obserwacji, w którym nowa zmienna jest równa randze podzielonej przez sumę wag obserwacji bez braków danych. Rangi ułamkowe mieszczą się w przedziale od 0 do 1. |
rank_fractional_name_ extension |
łańcuch | Rozszerzenie domyślne to _F_RANK. |
rank_pct |
flaga | Każda ranga jest podzielona przez liczbę rekordów o poprawnych wartościach i pomnożona przez 100. Ułamkowe rangi procentowe mieszczą się w przedziale od 1 do 100. |
rank_pct_name_extension |
łańcuch | Rozszerzenie domyślne to _P_RANK. |
sdev_name_extension |
łańcuch | |
sdev_add_as |
Suffix Prefix |
|
sdev_count |
One Two Three |
|
optimal_name_extension |
łańcuch | Rozszerzenie domyślne to _OPTIMAL. |
optimal_add_as |
Suffix Prefix |
|
optimal_supervisor_field |
field (pole) | Zmienna używana jako nadzorująca; są z nią powiązane zmienne wybrane do kategoryzacji. |
optimal_merge_bins |
flaga | Określa, że przedziały (kategorie) z małą liczbą obserwacji będą dodawane do większych sąsiednich przedziałów. |
optimal_small_bin_threshold |
liczba całkowita | |
optimal_pre_bin |
flaga | Określa, że ma być wykonywana wstępna kategoryzacja. |
optimal_max_bins |
liczba całkowita | Określa górną granicę, by uniknąć tworzenia zbyt dużej liczby przedziałów. |
optimal_lower_end_point |
Inclusive Exclusive |
|
optimal_first_bin |
Unbounded Bounded |
|
optimal_last_bin |
Unbounded Bounded |