0 / 0
Go back to the English version of the documentation
Uzel C5.0
Last updated: 12. 1. 2023
Uzel C5.0 (SPSS Modeler)

Tento uzel používá algoritmus C5.0 k sestavení buď stromu rozhodování , nebo sady pravidel. Model C5.0 pracuje rozdělením ukázky na základě pole, které poskytuje maximální nárůst informací. Každý dílčí vzorek definovaný prvním rozdělením je poté opět rozdělen, obvykle založený na jiném poli a proces se opakuje, dokud dílčí vzorky nelze dále dělit. Nakonec se překontrolují lowes-level dělení a ty, které se významně nepodílejí na hodnotě modelu, se odstraní nebo smaže.

Poznámka: Uzel C5.0 může předpovídat pouze kategorický cíl. Při analýze dat s kategorickými (nominálními nebo ordinálními) poli je pravděpodobné, že uzel seskupuje kategorie dohromady.

C5.0 může produkovat dva druhy modelů. Rozhodovací strom je přímočarý popis rozdělení nalezeného algoritmem. Každý uzel terminálu (nebo "koncový") popisuje konkrétní podmnožinu dat o školení a každý případ ve školících datech patří přesně jednomu uzlu terminálu ve stromu. Jinými slovy, přesně jedna predikce je možná pro každý konkrétní datový záznam prezentovaný ve stromu rozhodnutí.

Naproti tomu sada pravidel je sada pravidel, která se snaží vytvářet předpovědi pro jednotlivé záznamy. Sady pravidel jsou odvozeny od rozhodovacích stromů a představují zjednodušenou nebo destilovanou verzi informací nalezených ve stromu rozhodnutí. Sady pravidel mohou často uchovávat většinu důležitých informací z celého rozhodovacího stromu, ale s méně složitým modelem. Vzhledem k tomu, jak sady pravidel fungují, nemají stejné vlastnosti jako rozhodovací stromy. Nejdůležitější rozdíl je, že se sadou pravidel může platit více než jedno pravidlo pro každý konkrétní záznam, nebo se nemusí použít žádná pravidla. Je-li použita více pravidel, každé pravidlo dostane vážený "hlas" na základě důvěry přidružené k tomuto pravidlu a konečná prognóza se rozhodne kombinací vážených hlasů všech pravidel, která se vztahují na daný záznam. Pokud se nepoužije žádné pravidlo, přiřadí se k záznamu výchozí předpověď.

Příklad. Lékařský výzkumník sbíral údaje o skupině pacientů, z nichž všechny trpěly stejnou nemocí. Během svého průběhu léčby, každý pacient reagoval na jeden z pěti léků. Můžete použít model C5.0 ve spojení s ostatními uzly, abyste pomohli zjistit, který lék může být vhodný pro budoucí pacienta se stejným onemocněním.

Požadavky. Chcete-li vycvičit model C5.0 , musí existovat jedna kategorická (tj. nominální nebo pořadové) pole Target a jedno nebo více polí Input libovolného typu. Pole nastavená na Both nebo None se ignorují. Pole použitá v modelu musí mít plně konkretizovány typy jejich typů. Může být také uvedeno pole váhy.

Silné stránky. Modely C5.0 jsou poměrně robustní v přítomnosti problémů, jako např. chybějící data a velká čísla vstupních polí. Obvykle nevyžadují dlouhé doby přípravy k odhadu. Kromě toho mají modely C5.0 snazší pochopení než některé jiné typy modelů, protože pravidla odvozená z modelu mají velmi jednoduchý výklad. C5.0 také nabízí výkonnou metodu posilující podporu , která zvyšuje přesnost klasifikace.

Tip: Povolení paralelního zpracování může využívat C5.0 rychlost budovy modelu.
Poznámka: Když poprvé vytváříte tok, vybíráte, které běhové prostředí chcete použít. Standardně toky využívají běhové prostředí produktu IBM SPSS Modeler . Chcete-li namísto použití algoritmu SPSS používat nativní algoritmy Spark, vyberte běhové prostředí Spark . Vlastnosti pro tento uzel se budou lišit v závislosti na volbě běhového prostředí, kterou zvolíte.
Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more