Translation not up to date
QUEST — z ang. Quick, Unbiased, Efficient Statistical Tree (szybkie, nieobciążone, wydajne drzewo statystyczne) — to metoda klasyfikacji binarnej służąca do budowania drzew decyzyjnych. Główną motywacją jego opracowania było skrócenie czasu przetwarzania niezbędnego do analiz dużych drzew decyzyjnych C&R z wieloma zmiennymi lub z wieloma obserwacjami. Drugim celem stworzenia drzewa QUEST było zmniejszenie tendencji obecnej w metodach drzew klasyfikacji do preferowania danych wejściowych umożliwiających więcej podziałów, to jest, ilościowych zmiennych wejściowych (zakresów liczbowych) lub zmiennych z wieloma kategoriami.
- W drzewie QUEST stosowana jest, bazująca na istotności testów, sekwencja reguł umożliwiająca ocenę zmiennych wejściowych w węźle. Do celów wyboru dla każdych danych wejściowych w danym węźle może być konieczne przeprowadzenie zaledwie jednego testu. Inaczej niż w przypadku drzewa C&RT, podziały nie są oceniane, i inaczej niż w przypadku drzew K&R i CHAID, podczas kwalifikacji zmiennej wejściowej do wyboru nie są testowane kombinacje kategorii. Pozwala to skrócić czas analizy.
- Podziały są wyznaczane przez kwadratową analizę dyskryminacyjną z użyciem wybranych danych wejściowych w grupach tworzonych przez kategorie zmiennych przewidywanych. Ta metoda również skutkuje skróceniem czasu znajdowania optymalnego podziału względem wyszukiwania dokładnego (C&RT).
Wymagania. Zmienne wejściowe mogą być zakresami liczbowymi (ilościowymi), lecz zmienna przewidywana musi być jakościowa. Wszystkie podziały są binarne. Nie można stosować zmiennych ważących. Wszelkie zmienne porządkowe (uporządkowany zestaw) stosowane w modelu muszą charakteryzować się składowaniem typu numerycznego (nie łańcuchowego). W razie potrzeby do ich przekształcenia można użyć węzła rekodowania.
Mocne strony. Podobnie jak CHAID, lecz inaczej niż C&RT, drzewo QUEST używa testów statystycznych do decydowania o tym, czy zmienna wejściowa jest, czy nie jest, używana. Oddziela ono także problemy związane z wyborem danych wejściowych i podziałów, stosując do każdego z nich inne kryteria. Stoi to w kontraście z CHAID, w przypadku którego wynik testu statystycznego określający wybór zmiennej jednocześnie generuje podział. Podobnie, C&RT korzysta z miary zanieczyszczenie-zmiana, umożliwiając zarówno wybór zmiennej wejściowej, jak i określenie podziału.