Il nodo C&R (Classification and Regression) Tree è un metodo di previsione e classificazione basato sulla struttura ad albero. Questo metodo, analogamente a C5.0, utilizza l'esecuzione ricorsiva di partizioni per suddividere i record in segmenti con valori di campo di output simili. Il nodo C&R Tree esamina i campi di input per individuare la migliore suddivisione, misurata in base alla riduzione in un indice di impurità che risulta dalla suddivisione. La suddivisione definisce due sottogruppi, ognuno dei quali viene successivamente suddiviso in altri due sottogruppi, e così via, fino all'attivazione di un criterio di arresto. Tutte le suddivisioni sono binarie (solo due sottogruppi).
Riduzione
C&R Tree consente innanzitutto di ingrandire la struttura ad albero e quindi di eseguire dei tagli in base ad un algoritmo di complessità del costo che regola la stima del rischio in base al numero di nodi terminale. Questo metodo, che consente la crescita della struttura ad albero prima dell'eliminazione in base a criteri più complessi, può avere come risultato strutture ad albero di dimensioni inferiori con migliori proprietà di convalida incrociata. Se si aumenta il numero di nodi terminali, è in genere possibile ridurre il rischio per i dati (di addestramento) correnti, ma il rischio effettivo può risultare maggiore se la generalizzazione eseguita dal modello è applicata a dati non visibili. Si consideri, per esempio, il caso estremo in cui è presente un nodo terminale distinto per ogni record del set di addestramento. La stima del rischio sarebbe dello 0%, poiché ogni record rientra nel proprio nodo, ma il rischio di errata classificazione per i dati non visti (test) sarebbe quasi certamente maggiore di 0. La misura di complessità del costo tenta di compensare questa situazione.
Esempio. Un'emittente televisiva via cavo ha commissionato un'indagine di marketing per determinare quali clienti acquisterebbero un abbonamento a un servizio di notizie interattivo via cavo. Utilizzando i dati dell'indagine è possibile creare un flusso in cui il campo obiettivo è la propensione all'acquisto dell'abbonamento e i campi predittore comprendono età, sesso, livello di istruzione, categoria di reddito, ore passate a guardare la televisione ogni giorno e numero di figli. Applicando un nodo C&R Tree al flusso, sarà possibile prevedere e classificare le risposte in modo da ottenere la percentuale di risposta più alta per la propria campagna.
Requisiti. Per addestrare un modello C & R Tree, sono necessari uno o più campi Input
e esattamente un campo Target
. I campi obiettivo e di input possono essere continui (intervallo numerico) o categoriali. I campi impostati su Both
o None
vengono ignorati. I tipi dei campi utilizzati nel modello devono essere completamente istanziati e i campi ordinali (insieme ordinato) utilizzati nel modello devono includere una classe di archiviazione numerica e non di tipo stringa. Se è necessario convertirli, è possibile utilizzare il nodo Ricodifica.
Efficacia. I modelli C&R Tree sono molto solidi in presenza di problemi come, ad esempio, mancanza di dati e numero elevato di campi. In genere, per la stima di tali modelli non sono necessari tempi di addestramento lunghi. Inoltre, i modelli C&R Tree sono più semplici da comprendere rispetto ad altri tipi di modelli - le regole derivate dal modello sono di interpretazione molto diretta. A differenza del modello C5.0, il modello C&R Tree può contenere sia campi di output continui che categoriali.