Dieser Knoten verwendet den C5.0-Algorithmus, um entweder einen Entscheidungsbaum oder ein Regelset zu erstellen. Ein C5.0-Modell teilt die Stichprobe auf der Basis des Felds auf, das den maximalen Informationsgewinn liefert. Jede durch die erste Aufteilung definierte Teilstichprobe wird anschließend wieder aufgeteilt, üblicherweise auf der Grundlage eines anderen Felds. Der Prozess wird so lange fortgesetzt, bis die Unterstichproben nicht weiter aufgeteilt werden können. Zum Schluss werden die Aufteilungen der untersten Ebene noch einmal untersucht, wobei solche entfernt oder reduziert werden, die nicht wesentlich zum Wert des Modells beitragen.
C5.0 kann zwei Arten von Modellen erstellen. Ein Entscheidungsbaum ist eine einfache Beschreibung der vom Algorithmus gefundenen Aufteilungen. Jeder Endknoten (oder Blattknoten) beschreibt ein bestimmtes Subset der Trainingsdaten. Und jeder in den Trainingsdaten vorhandene Fall gehört zu genau einem im Baum vorhandenen Endknoten. Somit ist für jeden in einem Entscheidungsbaum vorhandenen Datensatz genau eine Vorhersage möglich.
Ein Regelset ist dagegen eine Menge von Regeln, mit der versucht wird, Vorhersagen für einzelne Datensätze zu erstellen. Regelsets werden aus Entscheidungsbäumen abgeleitet und stellen eine vereinfachte oder konzentrierte Version der im Entscheidungsbaum gefundenen Informationen dar. Regelsets enthalten meist die wichtigsten Informationen eines gesamten Entscheidungsbaums, allerdings mit einem weniger komplexen Modell. Regelsets arbeiten anders als Entscheidungsbäume und besitzen daher nicht dieselben Eigenschaften. Der wichtigste Unterschied besteht darin, dass es bei einem Regelset möglich ist, dass für einen bestimmten Datensatz mehr als eine oder aber überhaupt keine Regel gilt. Wenn mehrere Regeln gelten, dann wird jeder Regel ein gewichtetes "Votum" zugeordnet, das auf der dieser Regel zugeordneten Konfidenz basiert, und die endgültige Vorhersage ergibt sich aus der Kombination der gewichteten Voten aller für den fraglichen Datensatz geltenden Regeln. Wenn keine Regel gilt, wird dem Datensatz eine Standardvorhersage zugeordnet.
Beispiel. Ein Medizinforscher hat Daten über eine Gruppe von Patienten zusammengetragen, die alle an der gleichen Krankheit leiden. Im Behandlungsverlauf sprach jeder Patient auf eines von fünf Medikamenten an. Sie können ein C5.0-Modell in Verbindung mit anderen Knoten verwenden, um herauszufinden, welches Medikament für einen zukünftigen Patienten mit der gleichen Krankheit geeignet sein könnte.
Anforderungen. Zum Trainieren eines C5.0 -Modells muss ein kategoriales (d. h. nominales oder ordinales) Target
-Feld und mindestens ein Input
-Feld eines beliebigen Typs vorhanden sein. Felder, die auf Both
oder None
gesetzt sind, werden ignoriert. Bei den im Modell verwendeten Feldern müssen die Typen vollständig instanziiert sein. Außerdem kann ein Gewichtungsfeld angegeben werden.
Stärken. C5.0-Modelle verhalten sich bei Problemen mit fehlenden Daten und einer großen Anzahl von Eingabefelder sehr robust. Sie benötigen für die Schätzung in der Regel keine langen Trainingsphasen. Darüber hinaus sind C5.0-Modelle tendenziell leichter verständlich als andere Modelltypen, da sich die aus dem Modell abgeleiteten Regeln sehr direkt interpretieren lassen. C5.0 bietet außerdem die leistungsstarke Methode des Boosting, mit der die Genauigkeit der Klassifizierung gesteigert wird.