Translation not up to date
Problémy s dobýváním dat mohou zahrnovat stovky, nebo dokonce tisíce polí, které lze případně použít jako vstupy. V důsledku toho může být vynaloženo velké množství času a úsilí při zkoumání toho, která pole nebo proměnné se mají do modelu zahrnout. Chcete-li zúžit výběr voleb, lze algoritmus Výběr funkcí použít k identifikaci polí, která jsou pro danou analýzu nejdůležitější. Pokud se například snažíte předpovědět výsledky pacientů na základě mnoha faktorů, které jsou nejpravděpodobněji důležité?
Výběr funkcí se skládá ze tří kroků:
- Prověření. Odebírá nevýznamné a problematické vstupy a záznamy nebo případy, jako jsou vstupní pole s příliš mnoha chybějícími hodnotami nebo příliš mnoho nebo příliš málo variace na to, aby byly užitečné.
- Hodnocení. Seřadí zbývající vstupy a přiřadí očíslování pořadí na základě důležitosti.
- Výběr. Označuje podmnožinu funkcí, které se mají použít v následných modelech-například zachováním pouze těch nejdůležitějších vstupů a filtrování nebo vyloučení všech ostatních.
Ve věku, kdy je mnoho organizací přetíženo příliš mnoho dat, může být přínos výběru funkcí zjednodušením a urychlením procesu modelování značný. Soustřeďováním pozornosti na oblasti, která se nejvíce týkají, můžete rychle snížit počet požadovaných výpočtů, snadněji najít malé, ale důležité vztahy, které by jinak mohly být přehlédnuty; a nakonec získat jednodušší, přesnější a snáze vysvětlitelné modely. Snížením počtu polí použitých v modelu můžete zjistit, že můžete zkrátit časy přidělení skóre a také objem dat shromážděných v budoucích iteracích.
Příklad. Telefonní společnost má datový sklad obsahující informace o odpovědích na speciální podporu od 5000 zákazníků společnosti. Tato data zahrnují velké množství polí obsahujících statistiky o stáří zákazníků, zaměstnanosti, příjmech a telefonních číslech. Tři cílová pole zobrazují, zda zákazník na každou ze tří nabídek odpověděl nebo ne. Společnost chce využít tato data a pomoci předpovídat, kteří zákazníci budou s největší pravděpodobností reagovat na podobné nabídky v budoucnu.
Požadavky. Jedno cílové pole (jedno se svou sadou rolí nastaveno na Target
), spolu s více vstupními poli, která chcete zobrazit nebo ohodnotit relativně vzhledem k cíli. Cílový i vstupní pole mohou mít úroveň měření Continuous
(číselný rozsah) nebo Categorical
.