Translation not up to date
Uzel Náhodný stromy lze použít s daty v distribuovaném prostředí. V tomto uzlu sestavíte model kompletu, který se skládá z více rozhodovacích stromů.
Uzel Náhodné stromy je stromová klasifikace a predikční metoda, která je sestavena na základě metodologie klasifikace a regresní stromu. Podobně jako ve stromu C & R používá tato metoda predikce rekurzivní rozdělení, aby rozdělil záznamy o školení do segmentů s podobnými hodnotami výstupních polí. Uzel se spustí prozkoumáním vstupních polí, která jsou k dispozici, aby nalezla nejlepší rozdělení, které se měří snížením indexu nečistot, jehož výsledkem je rozdělení. Rozdělení definuje dvě podskupiny, z nichž každá je pak rozdělena do dvou dalších podskupin atd., dokud se nespustí jedno z kritérií zastavení. Všechny rozdělení jsou binární (pouze dvě podskupiny).
Uzel Náhodný stromy používá odběr vzorků zaváděcího programu s náhradou za účelem generování ukázkových dat. Ukázková data se používají k růstu stromového modelu. Během růstu stromu se Náhodné stromy nebudou znovu vzorkovat data. Místo toho náhodně vybere část prediktorů a použije nejlepší z nich k rozdělení uzlu stromu. Tento proces se opakuje při rozdělení každého uzlu stromu. To je základní myšlenka na pěstování stromu v náhodném lese.
Objekty Random Trees používají stromy typu C & R Tree-like. Vzhledem k tomu, že tyto stromy jsou binární, každé pole pro rozdělení výsledků ve dvou větvích. U kategorického pole s více kategoriemi jsou kategorie seskupeny do dvou skupin založených na kritériu vnitřního rozdělení. Každý strom roste v největší možné míře (zde není žádné smazání). Náhodné stromy v bodování spojují individuální stromová skóre většinovým hlasováním (pro klasifikaci) nebo průměrem (pro regresi).
- Náhodné stromy vyberou náhodně vybraný počet prediktorů a použije nejlepší z výběru k rozdělení uzlu. Naproti tomu strom C & R najde ten nejlepší ze všech prediktorů.
- Každý strom v Náhodných stromech roste plně, dokud každý koncový uzel obvykle neobsahuje jeden záznam. Takže stromová hloubka by mohla být velmi velká. Ale standard C & R strom používá různá zastavovací pravidla pro růst stromu, což obvykle vede k mnohem mělkořnímu stromu.
Objekty Random Trees přidávají ve srovnání se Stromem C & R dvě funkce:
- První funkce je hašující se, kde jsou repliky sady dat školení vytvářeny pomocí vzorkování s náhradou z původní datové sady. Tato akce vytvoří vzorky zaváděcího programu, které mají stejnou velikost jako původní datová sada, poté, co je na každé replice vytvořen model komponenty . Tyto modely komponent společně tvoří model kompletu.
- Druhá funkce je taková, že v každém rozdělení stromu se pro nečistotu považuje pouze odběr vzorků vstupních polí.
Požadavky. Chcete-li vycvičit model Náhodný stromy, potřebujete jedno nebo více polí Vstup a jedno pole Cíl . Cílové a vstupní pole může být souvislé (číselný rozsah) nebo kategorické. Pole, která jsou nastavena na hodnotu Obojí nebo Žádná , jsou ignorována. Pole, která se používají v modelu, musí mít plně převedené jejich typy a všechna pořadová (řazená sada) polí, která se používají v modelu, musí mít numerickou paměť (ne řetězec). V případě potřeby lze k jejich převedení použít uzel Reklasificassify.
Silné stránky. Při práci s velkými datovými sadami a čísly polí jsou robustní modely s objekty Random Trees. Vzhledem k používání pegování a vzorkování polí je mnohem méně náchylné k nadmontáži, a proto se výsledky, které jsou pozorovány při testování, se častěji opakují, když používáte nová data.