Der Tree-AS-Knoten kann mit Daten in einer verteilten Umgebung verwendet werden. Mit diesem Knoten können Sie Entscheidungsbäume entweder mit einem CHAID- oder mit einem Exhaustive CHAID-Modell erstellen.
CHAID (Chi-squared Automatic Interaction Detection) ist eine Klassifizierungsmethode für die Erstellung von Entscheidungsbäumen mit Chi-Quadrat-Statistiken zur Identifizierung der optimalen Splits.
CHAID untersucht zuerst die zwischen allen Eingabefeldern und dem Ergebnis vorhandenen Kreuztabellen und testet die Signifikanz mit einem Chi-Quadrat-Unabhängigkeitstest. Wenn mehrere dieser Beziehungen statistisch signifikant sind, wählt CHAID das Eingabefeld aus, das am signifikantesten ist (kleinster p
-Wert). Wenn eine Eingabe mehr als zwei Kategorien besitzt, werden diese verglichen und solche Kategorien gegeneinander reduziert, deren Ergebnis keinen Unterschied aufweist. Dies erfolgt, indem sukzessive alle Kategorienpaare mit dem am wenigsten signifikanten Unterschied verbunden werden. Diese Kategoriezusammenführung wird gestoppt, wenn die Abweichung aller verbleibenden Kategorien das angegebene Testniveau erreicht hat. Bei nominalen Eingabefeldern können alle Kategorien zusammengeführt werden. Bei einem ordinalen Set können nur zusammenhängende Kategorien zusammengeführt werden.
Exhaustive CHAID ist eine Änderung von CHAID, die noch gründlicher vorgeht, indem sie alle für jeden Prädiktor möglichen Aufteilungen untersucht, allerdings mehr Rechenzeit beansprucht.
Anforderungen. Ziel- und Eingabefelder können stetig oder kategorial sein. Knoten können auf jeder Ebene in zwei oder mehr Untergruppen aufgeteilt werden. Alle im Modell verwendeten ordinalen Felder müssen numerisch (nicht als Zeichenfolge) gespeichert sein. Verwenden Sie gegebenenfalls den Umcodierungsknoten, um sie zu konvertieren.
Stärken. CHAID kann nicht binäre Bäume generieren, d. h. Bäume mit Aufteilungen mit mehr als zwei Verzweigungen. CHAID erstellt daher tendenziell breitere Bäume als die binären Aufbaumethoden. CHAID funktioniert mit allen Eingaben und akzeptiert sowohl Fallgewichtungs- als auch Häufigkeitsvariablen.