Il nodo Tree-AS può essere utilizzato con i dati in un ambiente distribuito. Con questo nodo è possibile scegliere di creare strutture ad albero delle decisioni utilizzando un modello CHAID o Exhaustive CHAID.
CHAID, acronimo di Chi-squared Automatic Interaction Detection, è un metodo di classificazione per la creazione di strutture ad albero delle decisioni basato sull'utilizzo di statistiche chi-quadrato per identificare suddivisioni ottimali.
CHAID analizza innanzitutto le tavole di contingenza tra ognuno dei campi di input e il risultato e quindi verifica la significatività mediante un test di indipendenza chi-quadrato. Se più relazioni sono statisticamente significative, CHAID selezionerà il campo di input più significativo (con il valore p
più piccolo). Se un input ha più di due categorie, tali categorie vengono confrontate e quelle che non presentano alcuna differenza nei risultati vengono unite insieme. A tale scopo, vengono unite in successione le coppie di categorie che presentano la differenza meno significativa. Il processo di unione delle categorie si interrompe quando la differenza tra tutte le categorie rimanenti è uguale a quella specificata dal test. Per i campi di input nominali è possibile unire qualsiasi categoria, mentre per gli insiemi ordinali è possibile unire solo le categorie contigue.
Exhaustive CHAID è una modifica di CHAID che esegue operazioni avanzate per l'analisi di tutte le suddivisioni possibili per ogni predittore, ma richiede tempi di elaborazione maggiori.
Requisiti. I campi obiettivo e di input possono essere continui o categoriali. I nodi possono essere suddivisi in due o più sottogruppi a ogni livello. I campi ordinali utilizzati nel modello devono includere una classe di archiviazione numerica e non di tipo stringa. Se necessario, utilizzare il nodo Ricodifica per convertirli.
Efficacia. Il nodo CHAID può generare strutture ad albero non binarie e pertanto alcune suddivisioni possono avere più di due rami. Tende pertanto a creare strutture ad albero di dimensioni maggiori rispetto ai metodi di crescita binari. CHAID è applicabile a tutti i tipi di input e accetta sia i pesi di caso sia le variabili di frequenza.