Ce noeud utilise l'algorithme C5.0 pour générer un arbre de décisions ou un ensemble de règles. Le fonctionnement d'un modèle C5.0 repose sur un découpage de l'échantillon basé sur le champ qui fournit le gain d'informations le plus important. Chaque sous-échantillon issu du premier découpage est de nouveau découpé (le modèle utilise généralement un autre champ). Ce processus se répète jusqu'à ce que les sous-échantillons ne puissent plus être découpés. Finalement, les sous-échantillons finaux sont réexaminés : ceux qui n'influent pas de manière significative sur la valeur du modèle sont retirées ou élagués.
Un noeud C5.0 peut produire deux types de modèle. Un arbre de décisions est une description simple des découpages trouvés par l'algorithme. Chaque noeud terminal (ou « feuille ») décrit un sous-ensemble particulier des données d'apprentissage ; chacune des observations contenues dans les données d'apprentissage correspond à un seul noeud terminal de l'arbre. Autrement dit, chacun des enregistrements présentés à l'arbre de décisions ne peut donner lieu qu'à une seule prévision.
En revanche, un ensemble de règles tente de générer plusieurs prévisions pour chaque enregistrement. Les ensembles de règles, dérivés des arbres de décisions, représentent d'une certaine manière une version simplifiée des informations contenues dans l'arbre. Les ensembles de règles sont capables de conserver la plupart des informations importantes d'un arbre de décisions, selon un modèle moins complexe cependant. Les ensembles de règles n'ont pas les mêmes propriétés que les arbres de décisions. La principale différence est que dans un ensemble de règles, un enregistrement spécifique peut faire l'objet de plusieurs règles ou bien d'aucune. Si plusieurs règles peuvent s'appliquer à un enregistrement, chacune de ces règles fait l'objet d'un "vote" pondéré basé sur le degré de confiance associée à cette règle. La prévision finale est alors calculée en combinant les votes pondérés de toutes les règles qui s'appliquent à l'enregistrement en question. Si aucune règle ne s'applique à un enregistrement, une prévision par défaut lui est alors attribuée.
Exemple. Un chercheur en médecine a rassemblé des données sur un ensemble de patients, tous souffrant de la même maladie. Lors du traitement, chaque patient a réagi à l'un des cinq médicaments. Vous pouvez utiliser un modèle C5.0, en conjonction avec d'autres noeuds, pour vous aider à déterminer le médicament qui pourrait être approprié pour un patient futur ayant la même maladie.
Conditions requises. Pour entraîner un modèle C5.0 , il doit y avoir un champ Target
catégoriel (nominal ou ordinal) et un ou plusieurs champs Input
de n'importe quel type. Les zones définies sur Both
ou None
sont ignorées. Les types des champs utilisés dans ce modèle doivent être complètement instanciés. Un champ poids peut aussi être spécifié.
Force. Les modèles C5.0 s'avèrent relativement solides en présence de problèmes tels que des données manquantes ou un grand nombre de champs. Leur temps d'apprentissage est généralement court. En outre, les modèles C5.0 sont généralement plus faciles à comprendre que d'autres types de modèle dans la mesure où les règles extraites de ces modèles ne sont pas difficiles à interpréter. C5.0 propose également une méthode d'amélioration qui permet d'accroître l'exactitude de la classification.