CHAID (Chi-squared Automatic Interaction Detection) ist eine Klassifizierungsmethode für die Erstellung von Entscheidungsbäumen mit Chi-Quadrat-Statistiken zur Identifizierung der optimalen Splits.
CHAID untersucht zunächst die Kreuztabellen zwischen den Eingabefeldern und dem Ergebnis und testet die Signifikanz mithilfe eines Chi-Quadrat-Unabhängigkeitstests. Wenn mehrere dieser Beziehungen statistisch signifikant sind, wählt CHAID das Eingabefeld aus, das am signifikantesten ist (kleinster p
-Wert). Wenn eine Eingabe mehr als zwei Kategorien enthält, werden sie verglichen. Die Kategorien, die keine Unterschiede im Ergebnis aufweisen, werden zusammen ausgeblendet. Die Kategoriezusammenführung erfolgt durch die sukzessive Verknüpfung des Kategoriepaares, das den geringsten signifikanten Unterschied aufweist. Diese Kategoriezusammenführung wird gestoppt, wenn die Abweichung aller verbleibenden Kategorien das angegebene Testniveau erreicht hat. Bei nominalen Eingabefeldern können alle Kategorien zusammengeführt werden. Bei einem ordinalen Set können nur zusammenhängende Kategorien zusammengeführt werden.
Exhaustive CHAID ist eine Änderung von CHAID, die noch gründlicher vorgeht, indem sie alle für jeden Prädiktor möglichen Aufteilungen untersucht, allerdings mehr Rechenzeit beansprucht.
Voraussetzungen
Ziel-und Eingabefelder können stetig oder kategorial sein. Knoten können auf jeder Ebene in zwei oder mehr Untergruppen aufgeteilt werden. Alle ordinalen Felder, die im Modell verwendet werden, müssen numerischen Speicher (keine Zeichenfolge) haben. Bei Bedarf können sie mit dem Knoten Umcodieren konvertiert werden.
Stärken
Im Gegensatz zu den C & R Tree-und QUEST-Knoten kann CHAID nicht binäre Bäume generieren, was bedeutet, dass einige Aufteilungen mehr als zwei Verzweigungen haben. Aus diesem Grund erstellt CHAID tendenziell einen breiteren Baum als die binären Aufbaumethoden. CHAID funktioniert mit allen Eingaben und akzeptiert sowohl Fallgewichtungs- als auch Häufigkeitsvariablen.
Angepasste Ebenen
Sie können die Eigenschaften für den CHAID-Knoten anpassen, um Felder anzugeben, die der CHAID-Algorithmus verwenden muss, wenn er bestimmt, wo der Entscheidungsbaum aufgeteilt werden soll. Wenn der SPSS Modeler -Ablauf ausgeführt wird, verwendet der Entscheidungsbaum das Feld, das für diese Schicht beim Aufteilen angegeben wurde. Sie können Felder für mehrere Ebenen angeben, um jede Aufteilung des Entscheidungsbaums zu steuern.
Sie können angepasste Ebenen verwenden, um das Wachstum des Entscheidungsbaums zu steuern. Dieses Steuerelement ist besonders nützlich, wenn Sie Ihr Dataset gut kennen oder über vordefinierte Entscheidungsregeln verfügen.
- Erweitern Sie in den Eigenschaften für den CHAID-Knoten Modeler-Optionen.
- Klicken Sie auf das Kontrollkästchen Ebenen anpassen und anschließend Wert hinzufügen.
- Klicken Sie in die Zeile und wählen Sie den Namen eines Felds in der Liste aus.
- Klicken Sie auf Wert hinzufügen , um weitere Zeilen zur Tabelle Angepasste Schichten hinzuzufügen.