Translation not up to date
Logistická regrese, známá také jako nominální regrese, je statistická technika pro klasifikaci záznamů na základě hodnot vstupních polí. Je analogický k lineární regresi, ale vezme kategorické cílové pole místo číselné. Podporovány jsou oba binomické modely (pro cíle se dvěma nespojitými kategoriemi) a mnohoomické modely (pro cíle s více než dvěma kategoriemi).
Logistická regrese pracuje vytvořením sady rovnic, které spojují hodnoty vstupních polí s pravděpodobností přidruženými ke každé z kategorií výstupních polí. Po vygenerování modelu jej můžete použít k odhadu pravděpodobnosti nových dat. Pro každý záznam se vypočítá pravděpodobnost členství pro každou možnou výstupní kategorii. Cílová kategorie s nejvyšší pravděpodobností je přiřazena jako předpovězená výstupní hodnota pro tento záznam.
Příklad Binomial. Telekomunikační poskytovatel se obává o počet zákazníků, které prohrává konkurenci. Pomocí dat využití služeb můžete vytvořit binomický model, který předpovídá, kteří zákazníci se mohou převést na jiného poskytovatele, a upravit nabídky tak, aby si zachovali co možná nejvíce zákazníků. Je použit binomický model, protože cíl má dvě různé kategorie (pravděpodobně přenášet nebo ne).
Příklad parametru Multinomial. Poskytovatel telekomunikačních služeb segmentoval své zákaznické základny podle vzorce užívání služeb a kategorizuje zákazníky do čtyř skupin. Pomocí demografických dat pro předpověď členství ve skupinách můžete vytvořit mnohoomický model, který klasifikuje potenciální zákazníky do skupin a pak přizpůsobí nabídky pro jednotlivé zákazníky.
Požadavky. Jedno nebo více vstupních polí a přesně jedno kategorické cílové pole se dvěma nebo více kategoriemi. V případě binomického modelu musí mít cíl úroveň měření Flag
. Pro vícerozměrovém modelu může cíl mít úroveň měření Flag
nebo Nominal
se dvěma nebo více kategoriemi. Pole nastavená na Both
nebo None
se ignorují. Pole použitá v modelu musí mít plně konkretizovány typy jejich typů.
Silné stránky. Logistické regresní modely jsou často poměrně přesné. Mohou pracovat se symbolickými a numerickými vstupními poli. Mohou poskytnout předpovězené pravděpodobnosti pro všechny cílové kategorie tak, aby bylo možno snadno odhadnout podle druhého nejlepšího odhadu. Logistické modely jsou nejefektivnější, když členství ve skupinách je skutečně kategorické pole; je-li členství ve skupinách založeno na hodnotách pole souvislého rozsahu (například vysoké IQ versus nízké IQ), měli byste zvážit použití lineární regrese, abyste mohli využívat předností bohatších informací nabízených úplným rozsahem hodnot. Logistické modely mohou také provádět automatický výběr polí, i když jiné přístupy, jako např. stromové modely nebo Výběr funkcí, by mohly být mnohem rychlejší ve velkých datových sadách. A konečně, protože logistické modely jsou dobře pochopeny mnoha analytiky a horníky dat, mohou být použity jako základ, proti kterému ostatní modelovací techniky mohou být srovnávány.
Při zpracování velkých datových sad můžete výrazně zvýšit výkon tím, že zakážete test poměru pravděpodobnosti, což je rozšířená volba výstupu.