QUEST (Quick, Unbiased, Efficient Statistical Tree - Schneller, unverzerrter, effizienter Statistikbaum) ist eine binäre Klassifizierungsmethode zum Erstellen eines Entscheidungsbaums. Diese Methode wurde primär in der Absicht entwickelt, die Verarbeitungszeit zu verkürzen, die für Analysen von großen C&R-Bäumen mit vielen Variablen oder mit vielen Fällen benötigt wird. Ein zweites Ziel von QUEST war die Senkung der in den Klassifizierungsbaummodellen festgestellten Tendenz, Eingaben zu bevorzugen, die mehr Aufteilungen erlauben. Dabei handelt es sich um stetige Eingabefelder (numerischer Bereich) oder um solche mit vielen Kategorien.
- QUEST verwendet eine Folge von auf signifikanten Tests basierenden Regeln, um die im Knoten vorhandenen Eingabefelder zu bewerten. Zu Auswahlzwecken muss gegebenenfalls für jede in einem Knoten vorhandene Eingabe nur ein einziger Test durchgeführt werden. Im Gegensatz zu "C&R-Baum" werden nicht alle Aufteilungen untersucht. Und im Gegensatz zu "C&R-Baum" und "CHAID" werden beim Bewerten eines Eingabefelds für die Auswahl die Kategoriekombinationen nicht getestet. Dies beschleunigt die Analyse.
- Aufteilungen werden festgelegt, indem eine quadratische Diskriminanzanalyse durchgeführt wird, die die ausgewählte Eingabe für Gruppen verwendet, die durch die Zielkategorien gebildet werden. Diese Methode führt gegenüber einer erschöpfenden Suche (C&R-Baum) wiederum zu einer Steigerung der Geschwindigkeit bei der Bestimmung der optimalen Aufteilung.
Anforderungen. Eingabefelder können stetig (numerische Bereiche) sein, das Zielfeld muss aber kategorial sein. Alle Aufteilungen sind binär. Gewichtungsfelder können nicht eingesetzt werden. Alle im Modell verwendeten ordinalen Felder (sortiertes Set) müssen numerisch (nicht als Zeichenfolge) gespeichert sein. Im Bedarfsfall können Sie die Felder mit dem Umcodierungsknoten konvertieren.
Stärken. Genau wie "CHAID", aber im Gegensatz zu "C&R-Baum", verwendet "QUEST" statistische Tests, um zu entscheiden, ob ein Eingabefeld verwendet wird. Das Verfahren trennt auch die Eingabeauswahl von der Aufteilung und verwendet jeweils unterschiedliche Kriterien. Dies stellt einen Unterschied zu CHAID dar, wo das statistische Testergebnis, das die Variablenauswahl bestimmt, auch die Aufteilung erzeugt. "C&R-Baum" verfährt ähnlich, indem die Messung der Unreinheitsänderung sowohl die Auswahl des Eingabefelds als auch die Aufteilung bestimmt.