Translation not up to date
Węzeł Drzewo-AS może być używany z danymi w środowisku rozproszonym. Za pomocą tego węzła można tworzyć drzewa decyzyjne przy użyciu modelu CHAID lub Wyczerpujący model CHAID.
CHAID (ang. Chi-squared Automatic Interaction Detection) to metoda klasyfikacji umożliwiająca budowanie drzew decyzyjnych z użyciem statystyki chi-kwadrat w celu identyfikacji optymalnych podziałów.
CHAID bada najpierw tabele krzyżowe między każdą ze zmiennych wejściowych a wynikiem oraz testuje istotność za pomocą testu niezależności chi-kwadrat. Jeśli więcej niż jedna z tych relacji jest statystycznie znacząca, CHAID wybierze najbardziej znaczącą zmienną wejściową (o najmniejszej wartości p
). Jeśli dane wejściowe należą do dwu lub większej liczby kategorii, są one porównywane, a kategorie niewykazujące różnic w wynikach są zwijane razem. Realizuje się to przez sukcesywne łączenie par kategorii wykazujących najmniej znaczące różnice. Ten proces scalania kategorii jest zatrzymywany w chwili, gdy wszystkie pozostałe kategorie różnią się na danym poziomie testowania. W przypadku wejściowych zmiennych nominalnych można scalać dowolne kategorie; w przypadku zestawu porządkowego możliwe jest scalenie tylko kategorii zmiennych ilościowych.
Wyczerpujący CHAID stanowi modyfikację CHAID umożliwiającą dokładniejsze badanie wszystkich możliwych podziałów dla każdego predyktora, lecz obliczenia w jego przypadku zajmują więcej czasu.
Wymagania. Zmienne przewidywane i wejściowe mogą być ilościowe lub jakościowe; węzły mogą być dzielone na dwie lub więcej podgrup na każdym poziomie. Wszelkie zmienne porządkowe stosowane w modelu muszą charakteryzować się składowaniem typu numerycznego (nie łańcuchowego). W razie potrzeby do ich przekształcania należy użyć węzła Rekodowanie.
Mocne strony. CHAID może generować drzewa niebinarne, co oznacza, że niektóre podziały mają więcej niż dwie gałęzie. Oznacza to tendencję do tworzenia szerszych drzew, niż w przypadku binarnych metod wzrostu. CHAID działa w przypadku wszystkich typów danych wejściowych, i akceptuje zarówno wagi obserwacji, jak i zmienne częstości.