randomtrees, Eigenschaften

Letzte Aktualisierung: 11. Feb. 2025

Random Trees-Knotensymbol Der Knoten "Random Trees" ähnelt dem Knoten "C & RT Tree". Der Knoten "Random Trees" ist jedoch so konzipiert, dass er große Datenmengen verarbeitet, um eine einzelne Baumstruktur zu erstellen. Der Random Trees-Knoten generiert einen Entscheidungsbaum, mit dem Sie zukünftige Beobachtungen vorhersagen oder klassifizieren können. Bei dieser Methode wird eine rekursive Partitionierung verwendet, um die Trainingsdatensätze in Segmente aufzuteilen. Dabei wird bei jedem Schritt die Unreinheit verringert. Ein Knoten im Baum wird als rein betrachtet, wenn 100 % der Fälle im Knoten in eine bestimmte Kategorie des Zielfelds fallen. Ziel- und Eingabefelder können numerische Bereiche oder kategorial (nominal, ordinal oder Flags) sein. Alle Aufteilungen sind binär (nur zwei Untergruppen).

Tabelle 1. randomtrees, Eigenschaften
`randomtrees`Eigenschaften	Werte	Eigenschaftsbeschreibung
`target`	Feld	Im Random Trees-Knoten erfordern Modelle ein einzelnes Ziel und ein oder mehrere Eingabefelder. Außerdem kann ein Häufigkeitsfeld angegeben werden. Weitere Informationen finden Sie unter Allgemeine Eigenschaften von Modellierungsknoten .
`number_of_models`	Ganze Zahl	Legt die Anzahl der Modelle fest, die im Rahmen der Ensemblemodellierung erstellt werden sollen.
`use_number_of_predictors`	Markierung	Bestimmt, ob `number_of_predictors`verwendet wird.
`number_of_predictors`	Ganze Zahl	Gibt die Anzahl der Prädiktoren an, die beim Erstellen von aufgeteilten Modellen verwendet werden soll.
`use_stop_rule_for_accuracy`	Markierung	Bestimmt, ob die Modellerstellung stoppt, wenn die Genauigkeit nicht verbessert werden kann.
`sample_size`	Zahl	Verkleinern Sie diesen Wert, um die Leistung bei der Verarbeitung sehr umfangreicher Datasets zu verbessern.
`handle_imbalanced_data`	Markierung	Wenn das Ziel des Modells ein bestimmtes Flagergebnis ist und das Verhältnis des gewünschten Ergebnisses zu einem nicht gewünschten Ergebnis sehr klein ist, sind die Daten unausgewogen und die Bootstrap-Stichprobenziehung, die vom Modell durchgeführt wird, kann sich auf die Genauigkeit des Modells auswirken. Aktivieren Sie die Verarbeitung unausgewogener Daten, damit das Modell einen größeren Anteil des gewünschten Ergebnisses erfasst und ein besseres Modell generiert.
`use_weighted_sampling`	Markierung	Bei False werden Variablen für jeden Knoten zufällig mit derselben Wahrscheinlichkeit ausgewählt. Bei True werden Variablen gewichtet und entsprechend ausgewählt.
`max_node_number`	Ganze Zahl	Maximale Anzahl der Knoten, die in einzelnen Bäumen zulässig sind. Wenn die Zahl bei der nächsten Aufteilung überschritten würde, wird der Baumaufbau gestoppt.
`max_depth`	Ganze Zahl	Maximale Baumtiefe, bevor der Aufbau gestoppt wird.
`min_child_node_size`	Ganze Zahl	Legt die minimale Anzahl der Datensätze fest, die nach der Aufteilung des übergeordneten Knotens in einem untergeordneten Knoten enthalten sein dürfen. Wenn ein untergeordneter Knoten weniger Datensätze als hier angegeben enthält, wird der übergeordnete Knoten nicht aufgeteilt.
`use_costs`	Markierung
`costs`	strukturiert	Strukturierte Eigenschaft. Das Format ist eine Liste mit 3 Werten: der tatsächliche Wert, der vorhergesagte Wert und die Kosten, falls die Vorhersage falsch ist. Beispiel: `tree.setPropertyValue("costs", [["drugA", "drugB", 3.0], ["drugX", "drugY", 4.0]])`
`default_cost_increase`	`none` `linear` `square` `custom`	Beachten Sie, dass dies nur für ordinale Ziele aktiviert ist. Standardwerte in der Kostenmatrix festlegen.
`max_pct_missing`	Ganze Zahl	Wenn der Prozentsatz der fehlenden Werte in einer Eingabe größer als der hier angegebene Wert ist, wird die Eingabe ausgeschlossen. Minimum: 0, Maximum: 100.
`exclude_single_cat_pct`	Ganze Zahl	Wenn ein Kategorienwert einen höheren Prozentsatz der Datensätze als hier angegeben darstellt, wird das gesamte Feld aus der Modellerstellung ausgeschlossen. Minimum: 1, Maximum: 99.
`max_category_number`	Ganze Zahl	Wenn die Anzahl der Kategorien in einem Feld diesen Wert überschreitet, wird das Feld aus der Modellerstellung ausgeschlossen. Minimum: 2.
`min_field_variation`	Zahl	Wenn der Variationskoeffizient eines stetigen Felds kleiner ist als dieser Wert, wird das Feld aus der Modellerstellung ausgeschlossen.
`num_bins`	Ganze Zahl	Wird nur verwendet, wenn die Daten aus stetigen Eingaben bestehen. Legen Sie die Anzahl der Klassen mit gleicher Häufigkeit fest, die für die Eingaben verwendet werden sollen. Optionen sind 2, 4, 5, 10, 20, 25, 50 oder 100.
`topN`	Ganze Zahl	Gibt die Anzahl der aufzulistenden Regeln an. Der Standardwert ist 50, das Minimum ist 1 und das Maximum ist 1000.

War das Thema hilfreich?

0/1000