Translation not up to date
Tento uzel používá algoritmus C5.0 k sestavení buď stromu rozhodování , nebo sady pravidel. Model C5.0 pracuje rozdělením ukázky na základě pole, které poskytuje maximální nárůst informací. Každý dílčí vzorek definovaný prvním rozdělením je poté opět rozdělen, obvykle založený na jiném poli a proces se opakuje, dokud dílčí vzorky nelze dále dělit. Nakonec se překontrolují lowes-level dělení a ty, které se významně nepodílejí na hodnotě modelu, se odstraní nebo smaže.
C5.0 může produkovat dva druhy modelů. Rozhodovací strom je přímočarý popis rozdělení nalezeného algoritmem. Každý uzel terminálu (nebo "koncový") popisuje konkrétní podmnožinu dat o školení a každý případ ve školících datech patří přesně jednomu uzlu terminálu ve stromu. Jinými slovy, přesně jedna predikce je možná pro každý konkrétní datový záznam prezentovaný ve stromu rozhodnutí.
Naproti tomu sada pravidel je sada pravidel, která se snaží vytvářet předpovědi pro jednotlivé záznamy. Sady pravidel jsou odvozeny od rozhodovacích stromů a představují zjednodušenou nebo destilovanou verzi informací nalezených ve stromu rozhodnutí. Sady pravidel mohou často uchovávat většinu důležitých informací z celého rozhodovacího stromu, ale s méně složitým modelem. Vzhledem k tomu, jak sady pravidel fungují, nemají stejné vlastnosti jako rozhodovací stromy. Nejdůležitější rozdíl je, že se sadou pravidel může platit více než jedno pravidlo pro každý konkrétní záznam, nebo se nemusí použít žádná pravidla. Je-li použita více pravidel, každé pravidlo dostane vážený "hlas" na základě důvěry přidružené k tomuto pravidlu a konečná prognóza se rozhodne kombinací vážených hlasů všech pravidel, která se vztahují na daný záznam. Pokud se nepoužije žádné pravidlo, přiřadí se k záznamu výchozí předpověď.
Příklad. Lékařský výzkumník sbíral údaje o skupině pacientů, z nichž všechny trpěly stejnou nemocí. Během svého průběhu léčby, každý pacient reagoval na jeden z pěti léků. Můžete použít model C5.0 ve spojení s ostatními uzly, abyste pomohli zjistit, který lék může být vhodný pro budoucí pacienta se stejným onemocněním.
Požadavky. Chcete-li vycvičit model C5.0 , musí existovat jedna kategorická (tj. nominální nebo pořadové) pole Target
a jedno nebo více polí Input
libovolného typu. Pole nastavená na Both
nebo None
se ignorují. Pole použitá v modelu musí mít plně konkretizovány typy jejich typů. Může být také uvedeno pole váhy.
Silné stránky. Modely C5.0 jsou poměrně robustní v přítomnosti problémů, jako např. chybějící data a velká čísla vstupních polí. Obvykle nevyžadují dlouhé doby přípravy k odhadu. Kromě toho mají modely C5.0 snazší pochopení než některé jiné typy modelů, protože pravidla odvozená z modelu mají velmi jednoduchý výklad. C5.0 také nabízí výkonnou metodu posilující podporu , která zvyšuje přesnost klasifikace.