Il nodo Random Trees può essere utilizzato con i dati in un ambiente distribuito. In questo nodo, viene creato un modello completo composto da più strutture ad albero delle decisioni.
Il nodo Random Trees è un metodo di previsione e classificazione basato su struttura ad albero creato in base alla metodologia Classification and Regression Tree. Come nel caso di C&R Tree, questo metodo di previsione utilizza il partizionamento ricorsivo per suddividere i record di addestramento in segmenti con valori del campo di output simili. Il nodo inizia ad esaminare i campi di input disponibili per individuare la migliore suddivisione, misurata in base alla riduzione in un indice di impurità che risulta dalla suddivisione. La suddivisione definisce due sottogruppi, ciascuno dei quali viene quindi suddiviso in due ulteriori sottogruppi e così via, fino a quando non viene attivato uno dei criteri di arresto. Tutte le suddivisioni sono binarie (solo due sottogruppi).
Il nodo Trees Random utilizza il campionamento bootstrap con sostituzione per generare i dati di esempio. I dati di esempio vengono utilizzati per far crescere un modello di struttura ad albero. Durante la crescita della struttura ad albero, gli alberi casuali non campioneranno nuovamente i dati. Al contrario, seleziona casualmente parte dei predittori e usa quello migliore per suddividere un nodo dell'albero. Questo processo viene ripetuto quando si suddivide ogni nodo struttura ad albero. Questa è l'idea di base per far crescere un albero nella foresta casuale.
Random Trees utilizza alberi di tipo C&R Tree. Poiché tali alberi sono binari, ciascun campo risulta suddiviso in due rami. Per un campo categoriale con più categorie, le categorie sono raggruppate in due gruppi in base al criterio di suddivisione interna. Ogni albero cresce nella misura più ampia possibile (non c'è alcuna potatura). Nel punteggio, Random Trees combina punteggi singoli di singoli alberi per voto a maggioranza (per la classificazione) o media (per la regressione).
- I nodi Random Trees selezionano casualmente un determinato numero di predittori e utilizzano il migliore tra quelli selezionati per suddividere un nodo. Al contrario, C&R Tree trova il migliore tra tutti i predittori.
- Ogni albero in Random Trees cresce fino a che ogni nodo foglia tipicamente contiene un singolo record. Quindi la profondità dell'albero potrebbe essere molto grande. Ma lo standard C&R Tree utilizza diverse regole di arresto per la crescita degli alberi, che di solito porta ad un albero molto più superficiale.
Rispetto a C&R Tree, Random Trees aggiunge due funzioni:
- La prima funzione è bagging, in cui le repliche del set di dati di training vengono create campionando con la sostituzione dal set di dati originale. Questa azione crea campioni di bootstrap di dimensioni uguali al dataset originale; successivamente, su ciascuna replica, viene creato un modello di componente. Insieme, questi modelli di componenti formano un modello di classificazione binario.
- La seconda funzione prevede che, per ciascuna suddivisione della struttura ad albero, per la misura dell'impurità viene considerato solo un campionamento dei campi di input.
Requisiti. Per formare un modello Random Trees, sono necessari uno o più campi Input ed un campo Obiettivo. I campi obiettivo e di input possono essere continui (intervallo numerico) o categoriali. I campi impostati su Entrambi o Nessuno vengono ignorati. I tipi dei campi utilizzati nel modello devono essere completamente istanziati e tutti i campi ordinali (insieme ordinato) utilizzati nel modello devono avere una classe di archiviazione numerica (non di tipo stringa). Se è necessario convertirli, è possibile utilizzare il nodo Ricodifica.
Efficacia. I modelli Random Trees sono stabili quando vengono utilizzati dataset di grandi dimensioni ed un elevato numero di campi. A causa dell'utilizzo del bagging e del campionamento dei campi, sono molto meno soggetti a sovradattamento, pertanto è più probabile che i risultati visualizzati in fase di test vengano ripetuti quando vengono utilizzati nuovi dati.