0 / 0
Go back to the English version of the documentation
Uzel Náhodný stromy
Last updated: 07. 7. 2023
Uzel Random Trees (SPSS Modeler)

Uzel Náhodný stromy lze použít s daty v distribuovaném prostředí. V tomto uzlu sestavíte model kompletu, který se skládá z více rozhodovacích stromů.

Uzel Náhodné stromy je stromová klasifikace a predikční metoda, která je sestavena na základě metodologie klasifikace a regresní stromu. Podobně jako ve stromu C & R používá tato metoda predikce rekurzivní rozdělení, aby rozdělil záznamy o školení do segmentů s podobnými hodnotami výstupních polí. Uzel se spustí prozkoumáním vstupních polí, která jsou k dispozici, aby nalezla nejlepší rozdělení, které se měří snížením indexu nečistot, jehož výsledkem je rozdělení. Rozdělení definuje dvě podskupiny, z nichž každá je pak rozdělena do dvou dalších podskupin atd., dokud se nespustí jedno z kritérií zastavení. Všechny rozdělení jsou binární (pouze dvě podskupiny).

Uzel Náhodný stromy používá odběr vzorků zaváděcího programu s náhradou za účelem generování ukázkových dat. Ukázková data se používají k růstu stromového modelu. Během růstu stromu se Náhodné stromy nebudou znovu vzorkovat data. Místo toho náhodně vybere část prediktorů a použije nejlepší z nich k rozdělení uzlu stromu. Tento proces se opakuje při rozdělení každého uzlu stromu. To je základní myšlenka na pěstování stromu v náhodném lese.

Objekty Random Trees používají stromy typu C & R Tree-like. Vzhledem k tomu, že tyto stromy jsou binární, každé pole pro rozdělení výsledků ve dvou větvích. U kategorického pole s více kategoriemi jsou kategorie seskupeny do dvou skupin založených na kritériu vnitřního rozdělení. Každý strom roste v největší možné míře (zde není žádné smazání). Náhodné stromy v bodování spojují individuální stromová skóre většinovým hlasováním (pro klasifikaci) nebo průměrem (pro regresi).

Náhodné stromy se liší od ostatních stromů C & R Trees:
  • Náhodné stromy vyberou náhodně vybraný počet prediktorů a použije nejlepší z výběru k rozdělení uzlu. Naproti tomu strom C & R najde ten nejlepší ze všech prediktorů.
  • Každý strom v Náhodných stromech roste plně, dokud každý koncový uzel obvykle neobsahuje jeden záznam. Takže stromová hloubka by mohla být velmi velká. Ale standard C & R strom používá různá zastavovací pravidla pro růst stromu, což obvykle vede k mnohem mělkořnímu stromu.

Objekty Random Trees přidávají ve srovnání se Stromem C & R dvě funkce:

  • První funkce je hašující se, kde jsou repliky sady dat školení vytvářeny pomocí vzorkování s náhradou z původní datové sady. Tato akce vytvoří vzorky zaváděcího programu, které mají stejnou velikost jako původní datová sada, poté, co je na každé replice vytvořen model komponenty . Tyto modely komponent společně tvoří model kompletu.
  • Druhá funkce je taková, že v každém rozdělení stromu se pro nečistotu považuje pouze odběr vzorků vstupních polí.

Požadavky. Chcete-li vycvičit model Náhodný stromy, potřebujete jedno nebo více polí Vstup a jedno pole Cíl . Cílové a vstupní pole může být souvislé (číselný rozsah) nebo kategorické. Pole, která jsou nastavena na hodnotu Obojí nebo Žádná , jsou ignorována. Pole, která se používají v modelu, musí mít plně převedené jejich typy a všechna pořadová (řazená sada) polí, která se používají v modelu, musí mít numerickou paměť (ne řetězec). V případě potřeby lze k jejich převedení použít uzel Reklasificassify.

Silné stránky. Při práci s velkými datovými sadami a čísly polí jsou robustní modely s objekty Random Trees. Vzhledem k používání pegování a vzorkování polí je mnohem méně náchylné k nadmontáži, a proto se výsledky, které jsou pozorovány při testování, se častěji opakují, když používáte nová data.

Poznámka: Když poprvé vytváříte tok, vybíráte, které běhové prostředí chcete použít. Standardně toky používají běhové prostředí produktu IBM SPSS Modeler . Chcete-li namísto použití algoritmu SPSS používat nativní algoritmy Spark, vyberte běhové prostředí Spark . Vlastnosti pro tento uzel se budou lišit v závislosti na volbě běhového prostředí, kterou zvolíte.
Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more