Translation not up to date
The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.
Last updated: 12. 1. 2023
Uzel CHAID generuje rozhodovací stromy pomocí statistiky chí-square k identifikaci optimálního rozdělení. Na rozdíl od uzlů C & R Tree a Quest může CHAID generovat nebinární stromy, což znamená, že některá rozdělení mají více než dvě větve. Cílové a vstupní pole mohou být číselného rozsahu (souvislá) nebo kategorická. Vyčerpávající CHAID je modifikace CHAID, která dělá důkladnější úkol přezkoumání všech možných rozdělení, ale bude trvat déle, než se počítá.
Příklad
stream = modeler.script.stream()
sourcenode = stream.findByID("id46WRP1285C")
node = stream.createAt("chaid", "My node", 200, 100)
stream.link(sourcenode, node)
node.setPropertyValue("custom_fields", True)
node.setPropertyValue("target", "Drug")
node.setPropertyValue("inputs", ["Age", "Na", "K", "Cholesterol", "BP"])
node.setPropertyValue("use_model_name", True)
node.setPropertyValue("model_name", "CHAID")
node.setPropertyValue("method", "Chaid")
node.setPropertyValue("model_output_type", "InteractiveBuilder")
node.setPropertyValue("use_tree_directives", True)
node.setPropertyValue("tree_directives", "Test")
node.setPropertyValue("split_alpha", 0.03)
node.setPropertyValue("merge_alpha", 0.04)
node.setPropertyValue("chi_square", "Pearson")
node.setPropertyValue("use_percentage", False)
node.setPropertyValue("min_parent_records_abs", 40)
node.setPropertyValue("min_child_records_abs", 30)
node.setPropertyValue("epsilon", 0.003)
node.setPropertyValue("max_iterations", 75)
node.setPropertyValue("split_merged_categories", True)
node.setPropertyValue("bonferroni_adjustment", True)
chaidnode Vlastnosti |
Hodnoty | Popis vlastnosti |
---|---|---|
target |
pole | Modely CHAID vyžadují jeden cíl a jedno nebo více vstupních polí. Můžete také zadat frekvenci. Další informace naleznete v tématu Obecné vlastnosti uzlu modelování . |
continue_training_existing_model |
Příznak | |
objective |
Standard Boosting Bagging psm |
Produkt psm se používá pro velmi rozsáhlé datové sady a vyžaduje připojení k serveru. |
model_output_type |
Single InteractiveBuilder |
|
use_tree_directives |
Příznak | |
tree_directives |
řetězec | |
method |
Chaid ExhaustiveChaid |
|
use_max_depth |
Default Custom |
|
max_depth |
celočíselná hodnota | Maximální hloubka stromu, od 0 do 1000. Používá se pouze, pokud use_max_depth =
Custom . |
use_percentage |
Příznak | |
min_parent_records_pc |
Číslo | |
min_child_records_pc |
Číslo | |
min_parent_records_abs |
Číslo | |
min_child_records_abs |
Číslo | |
use_costs |
Příznak | |
costs |
strukturované | Strukturovaná vlastnost. |
trails |
Číslo | Počet modelů komponent pro zvýšení nebo zvýšení hodnoty. |
set_ensemble_method |
Voting HighestProbability HighestMeanProbability |
Výchozí kombinační pravidlo pro kategoriální cíle. |
range_ensemble_method |
Mean Median |
Výchozí kombinační pravidlo pro souvislé cíle. |
large_boost |
Příznak | Aplikujte zesílení na velmi velké datové sady. |
split_alpha |
Číslo | Hladina významnosti pro rozdělení. |
merge_alpha |
Číslo | Hladina významnosti pro sloučení. |
bonferroni_adjustment |
Příznak | Upravte hodnoty významnosti pomocí metody Bonferroniho. |
split_merged_categories |
Příznak | Povolit opakované posílání sloučených kategorií. |
chi_square |
Pearson LR |
Metoda použitá k výpočtu statistiky chí-kvadrát: Pearson nebo Poměr pravděpodobnosti |
epsilon |
Číslo | Minimální změna očekávané frekvence buněk .. |
max_iterations |
Číslo | Maximum iterací pro konvergenci. |
set_random_seed |
celočíselná hodnota | |
seed |
Číslo | |
calculate_variable_importance |
Příznak | |
calculate_raw_propensities |
Příznak | |
calculate_adjusted_propensities |
Příznak | |
adjusted_propensity_partition |
Test Validation |
|
maximum_number_of_models |
celočíselná hodnota | |
train_pct |
dvojitý | Tento algoritmus interně odděluje záznamy do sady sestavení modelu a sady pro prevenci přeřazení, což je nezávislá sada datových záznamů používaných ke sledování chyb během školení, aby se zabránilo tomu, aby metoda modelovala změny šance v datech. Uveďte procentní část záznamů. Výchozí hodnota je 30 . |