Translation not up to date
The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.
Last updated: 12 sty 2023
Węzeł CHAID generuje drzewa decyzyjne, korzystając ze statystyk chi-kwadrat w celu identyfikacji optymalnych podziałów. W przeciwieństwie do węzłów C & R Tree i Quest, CHAID może generować drzewa niebinarne, co oznacza, że niektóre podziały mają więcej niż dwie gałęzie. Zmienne przewidywana i wejściowa mogą być zakresami liczbowymi (ciągłymi) lub jakościowymi. Wyczerpujący CHAID stanowi modyfikację CHAID umożliwiającą dokładniejsze badanie wszystkich możliwych podziałów, lecz obliczenia w jego przypadku zajmują więcej czasu.
Przykład
stream = modeler.script.stream()
sourcenode = stream.findByID("id46WRP1285C")
node = stream.createAt("chaid", "My node", 200, 100)
stream.link(sourcenode, node)
node.setPropertyValue("custom_fields", True)
node.setPropertyValue("target", "Drug")
node.setPropertyValue("inputs", ["Age", "Na", "K", "Cholesterol", "BP"])
node.setPropertyValue("use_model_name", True)
node.setPropertyValue("model_name", "CHAID")
node.setPropertyValue("method", "Chaid")
node.setPropertyValue("model_output_type", "InteractiveBuilder")
node.setPropertyValue("use_tree_directives", True)
node.setPropertyValue("tree_directives", "Test")
node.setPropertyValue("split_alpha", 0.03)
node.setPropertyValue("merge_alpha", 0.04)
node.setPropertyValue("chi_square", "Pearson")
node.setPropertyValue("use_percentage", False)
node.setPropertyValue("min_parent_records_abs", 40)
node.setPropertyValue("min_child_records_abs", 30)
node.setPropertyValue("epsilon", 0.003)
node.setPropertyValue("max_iterations", 75)
node.setPropertyValue("split_merged_categories", True)
node.setPropertyValue("bonferroni_adjustment", True)
Właściwości węzła chaidnode |
Wartości | Opis właściwości |
---|---|---|
target |
field (pole) | Modele CHAID używają jednej zmiennej przewidywanej i co najmniej jednej zmiennej wejściowej. Można również określić częstotliwość. Więcej informacji na ten temat zawiera sekcja Właściwości wspólnego węzła modelowania . |
continue_training_existing_model |
flaga | |
objective |
Standard Boosting Bagging psm |
Wartość psm jest używana w przypadku bardzo dużych zbiorów danych i wymaga połączenia z serwerem. |
model_output_type |
Single InteractiveBuilder |
|
use_tree_directives |
flaga | |
tree_directives |
łańcuch | |
method |
Chaid ExhaustiveChaid |
|
use_max_depth |
Default Custom |
|
max_depth |
liczba całkowita | Maksymalna głębokość drzewa, od 0 do 1000. Używane tylko wtedy, gdy use_max_depth =
Custom . |
use_percentage |
flaga | |
min_parent_records_pc |
Liczba | |
min_child_records_pc |
Liczba | |
min_parent_records_abs |
Liczba | |
min_child_records_abs |
Liczba | |
use_costs |
flaga | |
costs |
ustrukturyzowane | Właściwość ustrukturyzowana. |
trails |
Liczba | Liczba modeli zespolonych dla boostingu i/lub agregacji bootstrapowej. |
set_ensemble_method |
Voting HighestProbability HighestMeanProbability |
Domyślna reguła zespolenia dla przewidywanych zmiennych jakościowych. |
range_ensemble_method |
Mean Median |
Domyślna reguła zespolenia dla docelowych wartości ilościowych. |
large_boost |
flaga | Zastosuj wzmocnienie do bardzo dużych zbiorów danych. |
split_alpha |
Liczba | Poziom istotności dla podziałów. |
merge_alpha |
Liczba | Poziom istotności dla łączenia. |
bonferroni_adjustment |
flaga | Koryguj wartości istotności metodą Bonferroni. |
split_merged_categories |
flaga | Zezwalaj na ponowny podział połączonych kategorii. |
chi_square |
Pearson LR |
Metoda obliczania statystyki chi-kwadrat: Pearsona albo iloraz wiarygodności |
epsilon |
Liczba | Minimalna zmiana oczekiwanych częstości komórek. |
max_iterations |
Liczba | Maksimum iteracji dla uzyskania zbieżności. |
set_random_seed |
liczba całkowita | |
seed |
Liczba | |
calculate_variable_importance |
flaga | |
calculate_raw_propensities |
flaga | |
calculate_adjusted_propensities |
flaga | |
adjusted_propensity_partition |
Test Validation |
|
maximum_number_of_models |
liczba całkowita | |
train_pct |
double (podwójna) | Algorytm wewnętrznie rozdziela rekordy między podzbiór budowania modelu oraz zbiór zabezpieczający przed przeuczeniem, który jest niezależnym zbiorem rekordów danych używanym do śledzenia błędów podczas uczenia i zapobiegania modelowaniu przez metodę zmienności prawdopodobieństwa w danych. Należy określić procent rekordów. Wartością domyślną jest 30 . |