0 / 0
Go back to the English version of the documentation
Uzel stromu C & R
Last updated: 12. 1. 2023
Uzel stromu C & R (SPSS Modeler)

Uzel stromu klasifikace a regrese (C & R) je stromová klasifikace a predikční metoda. Podobně jako C5.0tato metoda používá rekurzivní rozdělení na oddíly k rozdělení záznamů školení do segmentů s podobnými hodnotami výstupních polí. Uzel stromu C & R začíná zkoumáním vstupních polí s cílem nalézt nejlepší rozdělení, měřeno snížením indexu nečistot, jehož výsledkem je rozdělení. Rozdělení definuje dvě podskupiny, z nichž každá je následně rozdělena do dvou dalších podskupin atd., dokud se nespustí jedno z kritérií zastavení. Všechny rozdělení jsou binární (pouze dvě podskupiny).

Smazání

C & R Trees vám dává možnost nejprve vyrůst strom a následně smazat na základě algoritmu složitosti nákladů, který upraví odhad rizika na základě počtu uzlů terminálu. Tato metoda, která umožňuje zvětšování stromu před prořezáním na základě složitějších kritérií, může vést k menšímu stromům s lepší vlastností křížového ověření. Zvýšení počtu koncových uzlů obecně snižuje riziko pro aktuální (školení) dat, ale skutečné riziko může být vyšší, je-li model zobecněn na neviditelné údaje. V extrémním případě předpokládejme, že máte samostatný uzel terminálu pro každý záznam v sadě školení. Odhad rizika by byl 0%, protože každý záznam spadá do svého vlastního uzlu, ale riziko chybné klasifikace pro neviditelné (testovací) data by téměř jistě bylo větší než 0. Náklady na měření nákladů se to snaží kompenzovat.

Příklad. Společnost kabelové televize si objednala marketingovou studii s cílem určit, kteří zákazníci si koupí předplatné interaktivní zpravodajské služby prostřednictvím kabelu. Pomocí dat ze studie můžete vytvořit tok, ve kterém je cílovým polem záměr zakoupit daný odběr a pole prediktorů zahrnují věk, pohlaví, vzdělání, kategorii příjmů, hodiny strávené sledováním televize každý den a počet podřízených prvků. Použitím uzlu C & R Tree na tok budete schopni předpovídat a klasifikovat odpovědi, abyste získali nejvyšší četnost odpovědí pro vaši kampaň.

Požadavky. Chcete-li vycvičit model C & R stromu, potřebujete jedno nebo více polí Input a přesně jedno pole Target . Cílové a vstupní pole může být souvislé (číselný rozsah) nebo kategorické. Pole nastavená na Both nebo None se ignorují. Pole použitá v modelu musí mít plně převedené jejich typy a každá ordinální (seřazená sada) polí použitá v modelu musí mít číselnou paměť (nikoli řetězec). V případě potřeby lze k jejich převedení použít uzel Reklasificassify.

Silné stránky. Modely C & R stromu jsou poměrně robustní v přítomnosti problémů, jako např. chybějící data a velké počty polí. Obvykle nevyžadují dlouhé doby přípravy k odhadu. Navíc modely C & R Tree mají tendenci být snáze pochopitelné než některé jiné typy modelu-pravidla odvozená z modelu mají velmi jednoduchý výklad. Na rozdíl od C5.0se strom C & R může pojmout spojitě stejně dobře jako pole kategoriální výstupu.

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more