randomtrees, Eigenschaften

Letzte Aktualisierung: 11. Feb. 2025
randomtrees, Eigenschaften

Random Trees-KnotensymbolDer Knoten "Random Trees" ähnelt dem Knoten "C & RT Tree". Der Knoten "Random Trees" ist jedoch so konzipiert, dass er große Datenmengen verarbeitet, um eine einzelne Baumstruktur zu erstellen. Der Random Trees-Knoten generiert einen Entscheidungsbaum, mit dem Sie zukünftige Beobachtungen vorhersagen oder klassifizieren können. Bei dieser Methode wird eine rekursive Partitionierung verwendet, um die Trainingsdatensätze in Segmente aufzuteilen. Dabei wird bei jedem Schritt die Unreinheit verringert. Ein Knoten im Baum wird als rein betrachtet, wenn 100 % der Fälle im Knoten in eine bestimmte Kategorie des Zielfelds fallen. Ziel- und Eingabefelder können numerische Bereiche oder kategorial (nominal, ordinal oder Flags) sein. Alle Aufteilungen sind binär (nur zwei Untergruppen).

Tabelle 1. randomtrees, Eigenschaften
randomtreesEigenschaften Werte Eigenschaftsbeschreibung
target Feld Im Random Trees-Knoten erfordern Modelle ein einzelnes Ziel und ein oder mehrere Eingabefelder. Außerdem kann ein Häufigkeitsfeld angegeben werden. Weitere Informationen finden Sie unter Allgemeine Eigenschaften von Modellierungsknoten .
number_of_models Ganze Zahl Legt die Anzahl der Modelle fest, die im Rahmen der Ensemblemodellierung erstellt werden sollen.
use_number_of_predictors Markierung Bestimmt, ob number_of_predictorsverwendet wird.
number_of_predictors Ganze Zahl Gibt die Anzahl der Prädiktoren an, die beim Erstellen von aufgeteilten Modellen verwendet werden soll.
use_stop_rule_for_accuracy Markierung Bestimmt, ob die Modellerstellung stoppt, wenn die Genauigkeit nicht verbessert werden kann.
sample_size Zahl Verkleinern Sie diesen Wert, um die Leistung bei der Verarbeitung sehr umfangreicher Datasets zu verbessern.
handle_imbalanced_data Markierung Wenn das Ziel des Modells ein bestimmtes Flagergebnis ist und das Verhältnis des gewünschten Ergebnisses zu einem nicht gewünschten Ergebnis sehr klein ist, sind die Daten unausgewogen und die Bootstrap-Stichprobenziehung, die vom Modell durchgeführt wird, kann sich auf die Genauigkeit des Modells auswirken. Aktivieren Sie die Verarbeitung unausgewogener Daten, damit das Modell einen größeren Anteil des gewünschten Ergebnisses erfasst und ein besseres Modell generiert.
use_weighted_sampling Markierung Bei False werden Variablen für jeden Knoten zufällig mit derselben Wahrscheinlichkeit ausgewählt. Bei True werden Variablen gewichtet und entsprechend ausgewählt.
max_node_number Ganze Zahl Maximale Anzahl der Knoten, die in einzelnen Bäumen zulässig sind. Wenn die Zahl bei der nächsten Aufteilung überschritten würde, wird der Baumaufbau gestoppt.
max_depth Ganze Zahl Maximale Baumtiefe, bevor der Aufbau gestoppt wird.
min_child_node_size Ganze Zahl Legt die minimale Anzahl der Datensätze fest, die nach der Aufteilung des übergeordneten Knotens in einem untergeordneten Knoten enthalten sein dürfen. Wenn ein untergeordneter Knoten weniger Datensätze als hier angegeben enthält, wird der übergeordnete Knoten nicht aufgeteilt.
use_costs Markierung  
costs strukturiert Strukturierte Eigenschaft. Das Format ist eine Liste mit 3 Werten: der tatsächliche Wert, der vorhergesagte Wert und die Kosten, falls die Vorhersage falsch ist. Beispiel: tree.setPropertyValue("costs", [["drugA", "drugB", 3.0], ["drugX", "drugY", 4.0]])
default_cost_increase none linear square custom Beachten Sie, dass dies nur für ordinale Ziele aktiviert ist. Standardwerte in der Kostenmatrix festlegen.
max_pct_missing Ganze Zahl Wenn der Prozentsatz der fehlenden Werte in einer Eingabe größer als der hier angegebene Wert ist, wird die Eingabe ausgeschlossen. Minimum: 0, Maximum: 100.
exclude_single_cat_pct Ganze Zahl Wenn ein Kategorienwert einen höheren Prozentsatz der Datensätze als hier angegeben darstellt, wird das gesamte Feld aus der Modellerstellung ausgeschlossen. Minimum: 1, Maximum: 99.
max_category_number Ganze Zahl Wenn die Anzahl der Kategorien in einem Feld diesen Wert überschreitet, wird das Feld aus der Modellerstellung ausgeschlossen. Minimum: 2.
min_field_variation Zahl Wenn der Variationskoeffizient eines stetigen Felds kleiner ist als dieser Wert, wird das Feld aus der Modellerstellung ausgeschlossen.
num_bins Ganze Zahl Wird nur verwendet, wenn die Daten aus stetigen Eingaben bestehen. Legen Sie die Anzahl der Klassen mit gleicher Häufigkeit fest, die für die Eingaben verwendet werden sollen. Optionen sind 2, 4, 5, 10, 20, 25, 50 oder 100.
topN Ganze Zahl Gibt die Anzahl der aufzulistenden Regeln an. Der Standardwert ist 50, das Minimum ist 1 und das Maximum ist 1000.