Questo nodo utilizza l'algoritmo C5.0 per costruire una struttura ad albero delle decisioni o un insieme di regole. Un modello C5.0 suddivide il campione in base al campo che fornisce il massimo guadagno di informazioni. Ogni sottocampione definito dalla prima suddivisione viene ulteriormente suddiviso, in genere in base a un campo diverso, e il processo viene ripetuto finché non è più possibile suddividere ulteriormente i sottocampioni. Vengono infine riesaminate le suddivisioni di livello più basso e quelle che non contribuiscono in modo significativo al valore del modello vengono rimosse o tagliate.
C5.0 può produrre due tipi di modelli. Una struttura ad albero delle decisioni è una descrizione semplice e diretta delle suddivisioni riscontrate dall'algoritmo. Ogni nodo terminale, o "foglia", descrive un particolare sottoinsieme dei dati di addestramento e ogni caso nei dati di addestramento appartiene a un nodo terminale specifico nella struttura ad albero. In altre parole, è possibile avere una sola previsione per un qualsiasi particolare record di dati che viene presentato a una struttura ad albero delle decisioni.
Al contrario, un insieme di regole cerca di fare previsioni per i singoli record. Gli insiemi di regole derivano dalle strutture ad albero delle decisioni e, in un certo qual modo, rappresentano una versione semplificata o "distillata" delle informazioni trovate nella struttura ad albero delle decisioni. Gli insiemi di regole spesso sono in grado di mantenere le informazioni più importanti di un'intera struttura ad albero delle decisioni ma con un modello meno complesso. Dato il modo in cui operano, gli insiemi di regole non hanno le stesse proprietà delle strutture ad albero delle decisioni. La differenza più importante è il fatto che, con un insieme di regole, a un particolare record può applicarsi più di una regola o nessuna. Se si applicano più regole, ognuna di esse riceve un "voto" ponderato in base alla confidenza associata a quella regola e la previsione finale viene decisa combinando i voti ponderati di tutte le regole che si applicano al record interessato. Se non si applica alcuna regola, al record viene assegnata una previsione predefinita.
Esempio. Un ricercatore medico ha raccolto dati relativi a un gruppo di pazienti, tutti colpiti dalla stessa malattia. Nel corso della terapia, ogni paziente è stato sottoposto a una cura scelta tra cinque. È possibile utilizzare un modello C5.0 , insieme ad altri nodi, per scoprire quale farmaco potrebbe essere appropriato per un futuro paziente con la stessa malattia.
Requisiti. Per addestrare un modello C5.0 , deve essere presente un campo categoriale (nominale o ordinale) Target
e uno o più campi Input
di qualsiasi tipo. I campi impostati su Both
o None
vengono ignorati. È necessario che i tipi dei campi utilizzati nel modello siano completamente istanziati. È anche possibile specificare un campo peso.
Efficacia. I modelli C5.0 sono molto stabili in presenza di problemi quali dati mancanti e grandi numeri di campi di input. In genere, per la stima di tali modelli non sono necessari tempi di addestramento lunghi. Inoltre, i modelli C5.0 tendono a essere più facili da capire rispetto ad altri tipi di modello, dato che le regole da essi derivate sono di interpretazione molto diretta. C5.0 offre anche il potente metodo boosting per aumentare la precisione della classificazione.