Tree-AS, Eigenschaften

Letzte Aktualisierung: 11. Feb. 2025
Tree-AS, Eigenschaften

Symbol für Tree-AS-KnotenDer Tree-AS-Knoten ähnelt dem CHAID-Knoten. Der Tree-AS-Knoten ist jedoch so konzipiert, dass er Big Data verarbeitet, um einen einzelnen Baum zu erstellen, und zeigt das resultierende Modell im Ausgabeviewer an. Der Knoten generiert einen Entscheidungsbaum unter Verwendung von Chi-Quadrat-Statistiken (CHAID) zum Identifizieren optimaler Aufteilungen. Durch diese Verwendung von CHAID können nicht binäre Bäume generiert werden, d. h., einige Aufteilungen können mehr als zwei Verzweigungen haben. Ziel- und Eingabefelder können in einem numerischen Bereich (stetig) oder kategorial sein. Exhaustive CHAID ist eine Änderung von CHAID, die noch gründlicher vorgeht, indem sie alle möglichen Aufteilungen untersucht, allerdings mehr Rechenzeit beansprucht.

Tabelle 1. Eigenschaften von "treeas"
treeasEigenschaften Werte Eigenschaftsbeschreibung
target Feld Im Tree-AS-Knoten erfordern CHAID-Modelle ein einzelnes Ziel und eines oder mehrere Eingabefelder. Außerdem kann ein Häufigkeitsfeld angegeben werden. Weitere Informationen finden Sie unter Allgemeine Eigenschaften von Modellierungsknoten .
method chaid exhaustive_chaid  
max_depth Ganze Zahl Maximale Baumtiefe, von 0 bis 20. Der Standardwert ist 5.
num_bins Ganze Zahl Wird nur verwendet, wenn die Daten aus stetigen Eingaben bestehen. Legen Sie die Anzahl der Klassen mit gleicher Häufigkeit fest, die für die Eingaben verwendet werden sollen. Optionen sind 2, 4, 5, 10, 20, 25, 50 oder 100.
record_threshold Ganze Zahl Die Anzahl der Datensätze, bei der das Modell beim Erstellen des Baums von der Verwendung von p-Werten zu Effektgrößen wechselt. Der Standardwert ist 1.000.000; erhöhen oder verringern Sie diesen Wert in Inkrementen von 10.000.
split_alpha Zahl Signifikanzschwelle für Aufteilung. Der Wert muss zwischen 0,01 und 0,99 liegen.
merge_alpha Zahl Signifikanzschwelle für Zusammenführung. Der Wert muss zwischen 0,01 und 0,99 liegen.
bonferroni_adjustment Markierung Signifikanzwerte mit der Bonferroni-Methode anpassen.
effect_size_threshold_cont Zahl Schwellenwert für die Effektgröße festlegen, wenn bei Verwendung eines stetigen Ziels Knoten aufgeteilt und Kategorien zusammengeführt werden. Der Wert muss zwischen 0,01 und 0,99 liegen.
effect_size_threshold_cat Zahl Schwellenwert für die Effektgröße festlegen, wenn bei Verwendung eines kategorialen Ziels Knoten aufgeteilt und Kategorien zusammengeführt werden. Der Wert muss zwischen 0,01 und 0,99 liegen.
split_merged_categories Markierung Erneutes Aufteilen zusammengeführter Kategorien zulassen.
grouping_sig_level Zahl Wird verwendet, um zu bestimmen, wie Knotengruppen gebildet werden oder wie ungewöhnliche Knoten identifiziert werden.
chi_square pearson likelihood_ratio Verwendetes Verfahren für die Berechnung der Chi-Quadrat-Statistik: Pearson oder Likelihood-Quotient
minimum_record_use use_percentage use_absolute  
min_parent_records_pc Zahl Der Standardwert ist "2". Minimum: 1, Maximum: 100, in Inkrementen von 1. Der Wert der übergeordneten Verzweigung muss höher als der Wert der untergeordneten Verzweigung sein.
min_child_records_pc Zahl Der Standardwert ist 1. Minimum: 1, Maximum: 100, in Inkrementen von 1.
min_parent_records_abs Zahl Der Standardwert ist 100. Minimum: 1, Maximum: 100, in Inkrementen von 1. Der Wert der übergeordneten Verzweigung muss höher als der Wert der untergeordneten Verzweigung sein.
min_child_records_abs Zahl Der Standardwert ist 50. Minimum: 1, Maximum: 100, in Inkrementen von 1.
epsilon Zahl Minimale Änderung in der erwarteten Zellhäufigkeit...
max_iterations Zahl Maximale Anzahl der Iterationen für Konvergenz.
use_costs Markierung  
costs strukturiert Strukturierte Eigenschaft. Das Format ist eine Liste mit 3 Werten: der tatsächliche Wert, der vorhergesagte Wert und die Kosten, falls die Vorhersage falsch ist. Beispiel: tree.setPropertyValue("costs", [["drugA", "drugB", 3.0], ["drugX", "drugY", 4.0]])
default_cost_increase none linear square custom Nur für ordinale Ziele aktiviert. Standardwerte in der Kostenmatrix festlegen.
calculate_conf Markierung  
display_rule_id Markierung Fügt ein Feld zur Scoring-Ausgabe hinzu, das die ID des Endknotens angibt, dem der jeweilige Datensatz zugewiesen ist.