Der Random Trees-Knoten kann mit Daten in einer verteilten Umgebung verwendet werden. In diesem Knoten können Sie ein Ensemblemodell erstellen, das aus mehreren Entscheidungsbäumen besteht.
Der Random Trees-Knoten ist eine baumbasierte Klassifizierungs- und Vorhersagemethode, die auf der Methodik von Klassifizierungs- und Regressionsbäumen beruht. Wie C&R-Baum verwendet diese Vorhersagemethode eine rekursive Partitionierung, um die Trainingsdatensätze in Segmente mit ähnlichen Ausgabefeldwerten aufzuteilen. Der Knoten beginnt mit der Untersuchung der für ihn verfügbaren Eingabefelder, um die beste Aufteilung zu finden, die anhand der Reduktion in einem aus der Aufteilung resultierenden Unreinheitsindex gemessen wird. Die Aufteilung definiert zwei Untergruppen, die dann beide in zwei weitere Untergruppen aufgeteilt werden. Dies wird so lange fortgesetzt, bis die Stoppkriterien erreicht sind. Alle Aufteilungen erfolgen binär (nur zwei Untergruppen).
Der Random Trees-Knoten verwendet zum Generieren von Stichprobendaten die Bootstrap-Stichprobenziehung mit Ersetzung. Die Stichprobendaten dienen zum Aufbau eines Baummodells. Während des Baumaufbaus bildet der Random Trees-Knoten aus den Daten nicht erneut Stichproben. Stattdessen wählt er zufällig einen Teil der Prädiktoren aus und verwendet den besten, um einen Baumknoten aufzuteilen. Dieser Prozess wird jedes Mal wiederholt, wenn ein Baumknoten aufgeteilt wird. Dies ist die Grundidee beim Aufbau eines Baums im Random Forest.
Random Trees verwendet Bäume, die C&R-Bäumen ähneln. Da diese Bäume binär sind, wird jedes Feld, das für eine Aufteilung infrage kommt, in zwei Zweige aufgeteilt. Bei einem kategorialen Feld mit mehreren Kategorien werden die Kategorien basierend auf dem internen Aufteilungskriterium in zwei Gruppen unterteilt. Jeder Baum wächst so weit wie möglich (eine Reduzierung ist nicht möglich). Beim Scoring kombiniert Random Trees einzelne Baumscores mit einer Mehrheitsentscheidung (bei der Klassifizierung) oder mit dem Durchschnitt (bei der Regression).
- Random Trees-Knoten wählen zufällig eine bestimmte Anzahl von Prädiktoren aus und verwenden den besten aus der Auswahl für die Aufteilung eines Knotens. C&R-Bäume hingegen suchen unter allen Prädiktoren den besten heraus.
- Die einzelnen Bäume im Random Trees-Knoten wachsen so lange, bis jeder Blattknoten in der Regel einen einzelnen Datensatz enthält. Der Baum könnte demnach eine beachtliche Größe aufweisen. Der standardmäßige C&R-Baum verwendet beim Baumaufbau jedoch andere Stoppregeln, die zu einem Baum mit geringerer Tiefe führen könnten.
Random Trees fügt im Vergleich zu C&R-Baum zwei neue Funktionen hinzu:
- Das erste Feature ist Bagging, wobei Replikate des Trainings-Datasets durch Stichproben mit einem Ersatz aus dem ursprünglichen Dataset erstellt werden. Mit dieser Maßnahme werden Bootstrap-Stichproben erstellt, die gleich groß wie das ursprüngliche Dataset sind. Anschließend wird auf jedem Replikat ein Komponentenmodell erstellt. Zusammen bilden diese Komponentenmodelle ein Ensemblemodell.
- Die zweite Funktion besteht darin, dass nach jeder Aufspaltung des Baums nur eine Stichprobenziehung der Eingabefelder für das Unreinheitsmaß berücksichtigt wird.
Anforderungen. Um ein Random Tree-Modell zu trainieren, benötigen Sie ein oder mehrere Eingabe-Felder und ein Ziel-Feld. Ziel- und Eingabefelder können stetig (in einem numerischen Bereich) oder kategorial sein. Felder, die auf Beide oder Keine gesetzt werden, werden ignoriert. Die Typen der im Modell verwendeten Felder müssen vollständig als Instanz generiert sein und alle im Modell verwendeten Ordinalfelder (sortiertes Set) müssen numerisch (und nicht als Zeichenfolge) gespeichert sein. Im Bedarfsfall können Sie die Felder mit dem Umcodierungsknoten konvertieren.
Stärken. Random Trees-Modell sind robust, wenn Sie mit großen Datasets und vielen Feldern arbeiten. Durch die Verwendung von Bagging und Feldstichprobenziehung tritt weniger Überanpassung auf und die beim Testen angezeigten Ergebnisse werden mit größerer Wahrscheinlichkeit wiederholt, wenn Sie neue Daten verwenden.