Le noeud Arbre C&RT (Classification et régression) est une méthode de classification et de prévision basée sur un système d'arborescence. Similaire au noeud C5.0, cette méthode utilise la technique de partition récursive afin de diviser les données d'apprentissage en segments présentant des champs de sortie similaires. Le noeud Arbre C&RT examine en premier lieu les champs d'entrée, afin de définir la meilleure segmentation : celle-ci est mesurée en fonction de la réduction de l'index d'impureté résultant de la segmentation. Le découpage définit deux sous-groupes qui sont à leur tour découpés en deux nouveaux sous-groupes : le découpage se poursuit jusqu'à ce que l'un des critères d'arrêt soit atteint. Toutes les divisions sont binaires (deux sous-groupes uniquement).
Elagage
Vous pouvez développer les arbres C&RT, puis l'élaguer à partir d'un algorithme de complexité des coûts. Cet algorithme ajuste l'évaluation des risques en fonction du nombre de noeuds terminaux. Cette méthode, qui permet à l'arbre de se développer avant d'être élagué par le biais de critères plus complexes, peut générer des arbres réduits offrant de meilleures propriétés de validation croisée. En général, augmenter le nombre de noeuds terminaux atténue le risque pour les données (d'apprentissage) actuelles, mais le risque réel peut s'avérer bien plus important si le modèle s'étend aux données non visibles. Dans un cas extrême, supposez que vous disposez d'un autre noeud terminal pour chaque enregistrement des données d'apprentissage. L'estimation du risque serait de 0 %, puisque chaque enregistrement fait partie de son propre nœud, mais le risque de classification erronée des données non vues (tests) serait presque certainement supérieur à 0. La mesure de la complexité des coûts tente de compenser cette situation.
Exemple. Une entreprise de télévision câblée a requis la réalisation d'une étude marketing afin de déterminer les clients susceptibles de s'abonner à un service d'information interactif par câble. En utilisant les données de l'étude, vous pouvez créer un flux dans lequel le champ cible représente l'intention de souscrire à l'abonnement et les champs prédicteurs comprennent l'âge, le sexe, l'éducation, la catégorie de revenus, les heures passées devant la télévision par jour et le nombre d'enfants. En appliquant un noeud Arbre C&R au flux, vous pourrez prédire et classifier les réponses pour obtenir le taux de réponses le plus élevé pour votre campagne.
Conditions requises. Pour entraîner un modèle d'arbre C & RT, vous avez besoin d'un ou de plusieurs champs Input
et d'exactement un champ Target
. Les champs cible et d'entrée peuvent être continus (intervalle numérique) ou catégoriels. Les zones définies sur Both
ou None
sont ignorées. Les types des champs utilisés dans le modèle doivent être totalement instanciés et les champs ordinaux (ensemble ordonné) dont il se sert doivent disposer d'un stockage numérique (et non d'une chaîne). Si nécessaire, vous pouvez utiliser le noeud Recoder pour les convertir.
Force. Les modèles d'arbre C&RT s'avèrent relativement robustes en présence de problèmes (par exemple, des données manquantes ou un nombre trop important de champs). Leur temps d'apprentissage est généralement court. De plus, les modèles d'arbre C&RT sont généralement plus faciles à comprendre que d'autres types de modèle dans la mesure où les règles extraites de ces modèles sont relativement simples à interpréter. Contrairement au noeud C5.0, le noeud Arbre C&RT prend en charge aussi bien les champs de sortie continus que catégoriels.