Le noeud Random Trees peut être utilisé avec les données dans un environnement distribué. Dans ce noeud, vous générez un modèle d'ensemble qui se compose de plusieurs arbres décision.
Le noeud Random Trees est une méthode de classification et de prévision basée sur un système d'arborescence développée à partir de la méthodologie Classification and Regression Tree. Comme avec le noeud C&R Tree, cette méthode utilise la technique de partition récursive afin de diviser les données d'apprentissage en segments présentant des champs de sortie similaires. Le noeud examine en premier lieu les champs d'entrée disponibles, afin de définir la meilleure segmentation : celle-ci est mesurée en fonction de la réduction de l'index d'impureté résultant de la segmentation. Le découpage définit deux sous-groupes qui sont à leur tour découpés en deux nouveaux sous-groupes : le découpage se poursuit jusqu'à ce que l'un des critères d'arrêt soit atteint. Toutes les divisions sont binaires (deux sous-groupes uniquement).
Le noeud Random Trees utilise l'échantillonnage par bootstrap avec remplacement pour générer des données d'échantillon. Ces données permettent de développer un modèle d'arbre de décisions. Lors du développement d'un modèle d'arbre de décisions, Random Trees n'échantillonne pas à nouveau les données. Au lieu de cela, il sélectionne de manière aléatoire une partie des prédicteurs et utilise le meilleur pour fractionner un noeud d'arbre de décisions. Ce processus est répété lors du fractionnement de chaque noeud d'arbre de décisions. Il s'agit là de l'idée de base du développement d'un noeud dans une forêt aléatoire.
Random Trees utilise des arbres C&R Tree. De tels arbres étant binaires, chaque champ de fractionnement génère deux branches. Pour un champ catégoriel comportant plusieurs catégories, ces dernières sont regroupées en deux groupes, en fonction du critère de fractionnement interne. Chaque arbre se développe autant que possible (aucun élagage n'est effectué). Dans le scoring, Random Trees combine les scores de chaque arbre selon un vote à la majorité (pour la classification) ou la moyenne (pour la régression).
- Les noeuds Random Trees sélectionnent un nombre spécifié de prédicteurs de manière aléatoire et utilisent le meilleur d'entre eux pour fractionner un noeud. A l'inverse, C&R Tree recherche le meilleur des prédicteurs.
- Chaque arbre de Random Trees se développe entièrement jusqu'à ce que chaque noeud feuille ne contienne plus qu'un seul enregistrement. La profondeur d'arbre peut donc s'avérer très importante. Par contre, le modèle C&R Tree standard utilise des règles d'arrêt différentes pour le développement des arbres, ce qui génère généralement des arbres moins étendus.
Random Trees ajoute deux fonctionnalités par rapport à C&R Tree :
- La première est le bagging (agrégation par bootstrap), où des doubles de l'ensemble de données d'apprentissage sont créés en réalisant un échantillonnage avec remplacement à partir de l'ensemble de données d'origine. Cette action crée des échantillons de bootstrap de taille égale à l'ensemble de données d'origine, après quoi un modèle de composant est créé sur chaque double. Ensemble ces modèles de composant forment un modèle d'ensemble.
- La deuxième fonctionnalité est la suivante : à chaque division de l'arbre, seul un échantillonnage des champs d'entrée est pris en compte pour la mesure d'impureté.
Conditions requises. Pour former un modèle Random Trees, vous avez besoin d'un ou de plusieurs champs Entrée et d'un champ Cible. Les champs cible et d'entrée peuvent être continus (intervalle numérique) ou catégoriels. Les champs définis sur Les eux ou Aucun sont ignorés. Les types des champs utilisés dans le modèle doivent être totalement instanciés et les champs ordinaux (ensemble ordonné) dont il se sert doivent disposer d'un stockage numérique (et non d'une chaîne). Si nécessaire, vous pouvez utiliser le noeud Recoder pour les convertir.
Force. Les modèles Random Trees sont fiables dans le cas de jeux de données volumineux et d'un grand nombre de champs. En raison de l'utilisation de la fonctionnalité bagging et de l'échantillonnage des champs, ils sont bien moins sujets au surajustement et les résultats visibles dans les tests sont davantage susceptibles d'être reproduits lorsque vous utilisez de nouvelles données.