Translation not up to date
Regresja logistyczna, znana również jako regresja nominalna, jest techniką statystyczną do klasyfikowania rekordów na podstawie wartości zmiennych wejściowych. Jest ona analogiczna do regresji liniowej, lecz bazuje na przewidywanej zmiennej jakościowej zamiast na liczbowej. Obsługiwane są zarówno modele dwumianowe (w przypadku zmiennych przewidywanych z dwiema kategoriami dyskretnymi), jak i wielomianowe (w przypadku zmiennych przewidywanych z więcej niż dwiema kategoriami).
Regresja logistyczna działa w oparciu o tworzony zestaw wyrażeń odnoszących wartości zmiennych wejściowych do prawdopodobieństw powiązanych z każdą z kategorii zmiennych wyjściowych. Po wygenerowaniu modelu można go użyć do oszacowania prawdopodobieństw dla nowych danych. Dla każdego rekordu dla każdej możliwej kategorii wyjściowej obliczane jest prawdopodobieństwo członkostwa. Jako predykowana wartość wyjściowa dla tego rekordu przypisywana jest kategoria zmiennej przewidywanej o najwyższym prawdopodobieństwie.
Przykład dwumianowy. Operator telekomunikacyjny jest zaniepokojony liczbą klientów odchodzących do konkurencji. Korzystając z danych wykorzystania usług, można tworzyć modele dwumianowe umożliwiające predykcję list klientów, którzy z największym prawdopodobieństwem mogą przenieść się do innego operatora, a następnie przedstawiać tym klientom bardziej zindywidualizowaną ofertę w celu zatrzymania możliwie największej ich liczby. Model dwumianowy jest używany, ponieważ zmienna przewidywana ma dwie odrębne kategorie (dotyczące prawdopodobieństwa przeniesienia lub braku prawdopodobieństwa przeniesienia).
Przykład wielomianowy. Operator telekomunikacyjny pogrupował bazę klientów wg wzorców korzystania z usług, tworząc cztery kategorie. Korzystając z danych demograficznych do przewidywania członkostwa w grupie, można utworzyć model wielomianowy, aby sklasyfikować potencjalnych klientów w grupy, a następnie dostosować oferty dla poszczególnych klientów.
Wymagania. Jedna lub więcej zmiennych wejściowych oraz dokładnie jedna przewidywana zmienna jakościowa z dwiema lub większą liczbą kategorii. W przypadku modelu dwumianowego element docelowy musi mieć poziom pomiaru Flag
. W przypadku modelu wielomianowego element docelowy może mieć poziom pomiaru Flag
lub Nominal
z dwiema lub większą liczbę kategorii. Pola ustawione na wartość Both
lub None
są ignorowane. Typy zmiennych używanych w modelu muszą być w pełni zrealizowane jako instancje.
Mocne strony. Modele regresji logistycznej są często w miarę dokładne. Pozwalają one obsługiwać symboliczne i numeryczne zmienne wejściowe. Oferują one przewidywane prawdopodobieństwa dla wszystkich kategorii zmiennych przewidywanych, tak że z łatwością można zidentyfikować drugą w kolejności prawdopodobną pozycję. Modele logistyczne są najefektywniejsze, kiedy przynależność do grupy jest zmienną prawdziwie jakościową; jeśli przynależność do grupy opiera się na wartościach przedziału ilościowego (na przykład wysoki a niski iloraz inteligencji), należy rozważyć możliwość wykorzystania regresji liniowej, tak aby skorzystać z bogatszych informacji oferowanych przez pełny zakres wartości. Modele logistyczne umożliwiają także automatyczny wybór zmiennych. Inne metody, takie jak modele drzew decyzyjnych czy Wybór predyktora, są jednak znacznie szybsze w przypadku dużych zbiorów danych. W końcu, ponieważ modele logistyczne są zrozumiałe dla wielu analityków i specjalistów eksploracji danych, mogą być one przez nich używane jako baza porównawcza dla innych technik modelowania.
Przetwarzając duże zbiory danych, można w zauważalny sposób poprawić wydajność, wyłączając test ilorazu wiarygodności i zaawansowaną opcję generowania wyników.