Der Klassifizierungs- und Regressionsbaumknoten (C&R - Classification & Regression) ist eine baumbasierte Klassifizierungs- und Vorhersagemethode. Ähnlich wie C5.0 verwendet diese Methode eine rekursive Partitionierung, um die Trainingsdatensätze in Segmente mit ähnlichen Ausgabefeldwerten aufzuteilen. Der Knoten vom Typ "C&R-Baum" beginnt mit der Untersuchung der Eingabefelder, um die beste Aufteilung zu finden, die anhand der Reduktion in einem aus der Aufteilung resultierenden Unreinheitsindex gemessen wird. Die Aufteilung definiert zwei Untergruppen, die anschließend beide in zwei weitere Untergruppen aufgeteilt werden. Dies wird so lange fortgesetzt, bis die Stoppkriterien erreicht sind. Alle Aufteilungen erfolgen binär (nur zwei Untergruppen).
Reduzierung
Bei C&R-Bäumen haben Sie die Option, den Baum zuerst zu erweitern und dann auf der Grundlage eines Kostenkomplexitätsalgorithmus, der die Risikoschätzung basierend auf der Anzahl der Endknoten anpasst, zu reduzieren. Diese Methode, die eine große Erweiterung des Baumes ermöglicht, bevor dieser nach komplexeren Kriterien reduziert wird, kann zu kleineren Bäumen mit besseren Kreuzvalidierungseigenschaften führen. Wenn die Anzahl der Endknoten vergrößert wird, verringert dies in der Regel das Risiko für die aktuellen (Trainings-)Daten. Das tatsächliche Risiko kann aber größer sein, wenn das Modell auf unbekannte Daten verallgemeinert wird. Angenommen, es liegt der Extremfall vor, dass Sie für jeden im Trainingsdataset vorhandenen Datensatz einen separaten Endknoten besitzen. Die Risikoschätzung würde 0 % betragen, da jeder Datensatz in seinen eigenen Knoten fällt, aber das Risiko einer Fehlklassifizierung für unsichtbare (Test-) Daten wäre fast sicher größer als 0. Die Kosten-Komplexität-Maßnahme versucht, dies zu kompensieren.
Beispiel. Ein Kabelfernsehunternehmen hat eine Marketingstudie in Auftrag gegeben, um zu ermitteln, welche Kunden ein Abonnement für einen interaktiven Nachrichtenservice über Kabel erwerben würden. Mithilfe der Daten aus der Studie können Sie einen Ablauf erstellen, in dem das Zielfeld die Absicht angibt, das Abonnement zu erwerben, und in dem als Prädiktorfelder Alter, Geschlecht, Bildung, Einkommenskategorie, wöchentlicher Fernsehkonsum und Anzahl der Kinder verwendet werden. Wenn Sie einen Knoten vom Typ "C&R-Baum" auf den Ablauf anwenden, können Sie die Antworten vorhersagen und klassifizieren, um die höchste Rücklaufquote für Ihre Kampagne zu erzielen.
Anforderungen. Zum Trainieren eines C & R Tree-Modells benötigen Sie mindestens ein Input
-Feld und genau ein Target
-Feld. Ziel- und Eingabefelder können stetig (in einem numerischen Bereich) oder kategorial sein. Felder, die auf Both
oder None
gesetzt sind, werden ignoriert. Die Typen der im Modell verwendeten Felder müssen vollständig als Instanz generiert sein und alle im Modell verwendeten Ordinalfelder (sortiertes Set) müssen numerisch (und nicht als Zeichenfolge) gespeichert sein. Im Bedarfsfall können Sie die Felder mit dem Umcodierungsknoten konvertieren.
Stärken. C&R-Baummodelle sind bei Problemen mit fehlenden Daten und einer großen Feldanzahl sehr stabil. Sie benötigen für die Schätzung in der Regel keine langen Trainingsphasen. Darüber hinaus sind C&R-Baummodelle tendenziell leichter zu verstehen als einige andere Modelltypen. Die aus dem Modell abgeleiteten Regeln lassen sich sehr direkt interpretieren. Im Gegensatz zu C5.0 können C&R-Bäume stetige genauso wie kategoriale Ausgabefelder verarbeiten.