Translation not up to date
The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.
Last updated: 04. 7. 2023
Uzel Náhodný stromy je podobný uzlu stromu C & RT; avšak uzel Náhodný stromy je navržen tak, aby zpracovoval velká data pro vytvoření jednoho stromu. Uzel stromového stromu Náhodný strom generuje rozhodovací strom, který použijete k předpovědi nebo klasifikaci budoucích pozorování. Metoda používá rekurzivní rozdělení na oddíly k rozdělení záznamů odborné přípravy na segmenty minimalizací nečistoty v každém kroku, kdy uzel ve stromu se považuje za ryzí , pokud 100% případů v uzlu spadá do specifické kategorie cílového pole. Cílové a vstupní pole mohou být číselné rozsahy nebo kategoriální (nominální, ordinální nebo příznaky); všechna rozdělení jsou binární (pouze dvě podskupiny).
randomtrees Vlastnosti |
Hodnoty | Popis vlastnosti |
---|---|---|
target |
pole | V uzlu Random Trees modely vyžadují jeden cíl a jedno nebo více vstupních polí. Pole frekvence může být také uvedeno. Další informace naleznete v tématu Obecné vlastnosti uzlu modelování . |
number_of_models |
celočíselná hodnota | Určuje počet modelů, které se mají sestavit v rámci modelování kompletu. |
use_number_of_predictors |
příznak | Určuje, zda se použije number_of_predictors . |
number_of_predictors |
celočíselná hodnota | Určuje počet prediktorů, které mají být použity při sestavování rozdělených modelů. |
use_stop_rule_for_accuracy |
příznak | Určuje, zda se budova modelu zastaví, když se nelze zlepšit přesnost. |
sample_size |
Číslo | Zmenšete tuto hodnotu, abyste zlepšili výkon při zpracování velmi velkých datových sad. |
handle_imbalanced_data |
příznak | Je-li cílem modelu konkrétní příznak a poměr požadovaného výsledku k nepožadovanému výsledku je velmi malý, pak jsou data nevyvážená a vzorkování samozavedení, které model provádí, může ovlivnit přesnost modelu. Povolit nevyvážené zpracování dat tak, aby model zachytil větší část požadovaného výsledku a vygenerovala silnější model. |
use_weighted_sampling |
příznak | Když je False, proměnné pro každý uzel jsou náhodně vybrány se stejnou pravděpodobností. Je-li nastavena hodnota Ano, proměnné jsou váženy a vybrány odpovídajícím způsobem. |
max_node_number |
celočíselná hodnota | Maximální počet uzlů povolených v jednotlivých stromech. Pokud by bylo překročeno číslo na dalším dělení, růst stromu se zastaví. |
max_depth |
celočíselná hodnota | Maximální hloubka stromu před růstem halonů. |
min_child_node_size |
celočíselná hodnota | Určuje minimální počet záznamů povolených v podřízeném uzlu po rozdělení nadřízeného uzlu. Pokud by podřízený uzel obsahoval méně záznamů, než bylo určeno zde, nadřízený uzel nebude rozdělen. |
use_costs |
příznak | |
costs |
strukturované | Strukturovaná vlastnost. Formát je seznam 3 hodnot: skutečná hodnota, předpovězená hodnota a náklady, pokud je tato prognóza chybná. Například:
tree.setPropertyValue("costs", [["drugA", "drugB", 3.0], ["drugX", "drugY", 4.0]]) |
default_cost_increase |
none linear square custom |
Všimněte si, že toto je povoleno pouze pro ordinální cíle. Nastavte výchozí hodnoty v matici nákladů. |
max_pct_missing |
celočíselná hodnota | Je-li procentní část chybějících hodnot ve kterémkoli vstupu větší než zde uvedená hodnota, vstup je vyloučen. Minimálně 0, maximálně 100. |
exclude_single_cat_pct |
celočíselná hodnota | Pokud jedna hodnota kategorie představuje vyšší procentní část záznamů, než je zde uvedeno, celé pole je vyloučeno z budovy modelu. Minimálně 1, maximálně 99. |
max_category_number |
celočíselná hodnota | Pokud počet kategorií v poli překročí tuto hodnotu, je pole vyloučeno z budovy modelu. Minimálně 2. |
min_field_variation |
Číslo | Je-li variační koeficient spojitého pole menší než tato hodnota, bude pole vyloučeno z budovy modelu. |
num_bins |
celočíselná hodnota | Používá se pouze v případě, že se data skládá ze souvislých vstupů. Nastavte počet shodných frekvenčních zásobníků, které se mají použít pro vstupy; volby jsou: 2, 4, 5, 10, 20, 25, 50 nebo 100. |
topN |
celočíselná hodnota | Určuje počet pravidel, která se mají ohlásit. Výchozí hodnota je 50, přičemž minimální hodnota je 1 a maximum 1000. |