Translation not up to date
CHAID (ang. Chi-squared Automatic Interaction Detection) to metoda klasyfikacji umożliwiająca budowanie drzew decyzyjnych z użyciem statystyki chi-kwadrat w celu identyfikacji optymalnych podziałów.
CHAID bada najpierw tabele krzyżowe między każdą ze zmiennych wejściowych a wynikiem oraz testuje istotność za pomocą testu niezależności chi-kwadrat. Jeśli więcej niż jedna z tych relacji jest statystycznie znacząca, CHAID wybierze najbardziej znaczącą zmienną wejściową (o najmniejszej wartości p
). Jeśli dane wejściowe należą do dwu lub większej liczby kategorii, są one porównywane, a kategorie niewykazujące różnic w wynikach są zwijane razem. Realizuje się to przez sukcesywne łączenie par kategorii wykazujących najmniej znaczące różnice. Ten proces scalania kategorii jest zatrzymywany w chwili, gdy wszystkie pozostałe kategorie różnią się na danym poziomie testowania. W przypadku wejściowych zmiennych nominalnych można scalać dowolne kategorie; w przypadku zestawu porządkowego możliwe jest scalenie tylko kategorii zmiennych ilościowych.
Wyczerpujący CHAID stanowi modyfikację CHAID umożliwiającą dokładniejsze badanie wszystkich możliwych podziałów dla każdego predyktora, lecz obliczenia w jego przypadku zajmują więcej czasu.
Wymagania. Zmienne przewidywane i wejściowe mogą być ilościowe lub jakościowe; węzły mogą być dzielone na dwie lub więcej podgrup na każdym poziomie. Wszelkie zmienne porządkowe stosowane w modelu muszą charakteryzować się składowaniem typu numerycznego (nie łańcuchowego). W razie potrzeby do ich przekształcenia można użyć węzła rekodowania.
Mocne strony. W odróżnieniu od węzłów drzewa C&R i węzłów QUEST, CHAID może generować drzewa niebinarne, co oznacza, że niektóre podziały mają więcej niż dwie gałęzie. Oznacza to tendencję do tworzenia szerszych drzew, niż w przypadku binarnych metod wzrostu. CHAID działa w przypadku wszystkich typów danych wejściowych, i akceptuje zarówno wagi obserwacji, jak i zmienne częstości.