Translation not up to date
Regresja logistyczna to technika statystyczna umożliwiająca klasyfikację rekordów na podstawie wartości zmiennych wejściowych. Jest ona analogiczna do regresji liniowej, ale przyjmuje jakościową zmienną przewidywalną zamiast zmiennej numerycznej.
Na przykład załóżmy, że operator telekomunikacyjny pogrupował bazę klientów wg wzorców korzystania z usług, tworząc cztery kategorie. Jeśli można użyć danych demograficznych do przewidywania członkostwa w grupie, można dostosować oferty dla indywidualnych potencjalnych klientów.
W tym przykładzie używany jest przepływ o nazwie Classifying Telecommmunications Customers(Klasyfikowanie klientów telekomunikacyjnych), który jest dostępny w przykładowym projekcie. Plik danych to telco.csv.
custcat
ma cztery możliwe wartości, które odpowiadają czterem grupom klientów w następujący sposób:Wartość | Etykieta |
---|---|
1 | Usługa podstawowa |
2 | E-Service |
3 | Plus Service |
4 | Total Service |
Ponieważ zmienna przewidywana ma wiele kategorii, używany jest model wielomianowy. W przypadku, gdy zmienna przewidywana ma dwie różne kategorie, takie jak tak/nie, prawda/fałsz lub odejście/brak odejścia, można zamiast tego utworzyć model dwumianowy. Więcej informacji na ten temat zawiera sekcja Churn telekomunikacyjny .