Translation not up to date
Węzeł Kategoryzacja umożliwia automatyczne utworzenie nowych zmiennych nominalnych na podstawie wartości z jednej lub większej liczby istniejących zmiennych ilościowych (zakres liczbowy). Można na przykład przekształcić ilościową zmienną przychodu na nową zmienną jakościową zawierającą grupy przychodu o równej szerokości lub stanowiące odchylenia od średniej. Alternatywnie można wybrać jakościową zmienną nadzorującą, aby zachować siłę oryginalnego powiązania pomiędzy dwiema zmiennymi.
Kategoryzacja może być użyteczna z wielu powodów, takich jak:
- Wymagania algorytmu. Niektóre algorytmy, takie jak Naive Bayes i Regression Logistic, wymagają jakościowych danych wejściowych.
- Wydajność. Algorytmy, takie jak wielomianowa regresja logistyczna, mogą działać lepiej, jeśli liczba odmiennych wartości zostanie zredukowana. Na przykład w każdym przedziale należy użyć mediany lub wartości średniej zamiast oryginalnych wartości.
- Data Privacy. W celu ochrony prywatności poufne dane osobowe, takie jak wynagrodzenia, mogą być zgłaszane jako przedziały, a nie jako rzeczywiste wartości wynagrodzenia.
Dostępnych jest wiele metod kategoryzacji. Po utworzeniu przedziałów dla nowego pola można wygenerować węzeł wyliczeń w oparciu o punkty podziału.
Kiedy użyć węzła Kategoryzacja
Przed użyciem węzła Kategoryzacja należy zastanowić się, czy inna technika nie byłaby bardziej odpowiednia do wykonania zadania:
- Aby ręcznie określić punkty podziału dla kategorii, np. konkretne wstępnie zdefiniowane przedziały wynagrodzenia, należy użyć węzła Wyliczanie. Więcej informacji na ten temat zawiera sekcja Węzeł wyliczeń .
- Aby utworzyć nowe kategorie dla istniejących zestawów, należy użyć węzła Rekodowanie. Więcej informacji na ten temat zawiera sekcja Ponowne klasyfikowanie węzła .
Obsługa brakujących wartości
Węzeł Kategoryzacja traktuje braki danych w następujący sposób:
- Puste wartości określone przez użytkownika. Braki danych określone jako puste wartości są uwzględniane podczas transformacji. Na przykład, jeśli za pomocą węzła Typy wyznaczono, że wartość –99 oznacza pustą wartość, wartość ta będzie uwzględniana w procesie kategoryzacji. Aby zignorować puste wartości podczas kategoryzacji, należy użyć węzła wypełniania w celu zastąpienia wartości pustych systemową wartością null.
- Systemowe braki danych ($null$). Wartości null są ignorowane podczas transformacji kategoryzacji i pozostają wartościami null po transformacji.
Karta Ustawienia udostępnia opcje dla dostępnych technik. Na karcie Widok wyświetlane są punkty podziału ustalone dla danych, które wcześniej były uruchomione w węźle.