0 / 0
Go back to the English version of the documentation
Węzeł wyboru predyktora
Last updated: 07 lip 2023
Węzeł Wybór składników (SPSS Modeler)

Problemy z eksploracją danych mogą obejmować setki, a nawet tysiące zmiennych, które mogą potencjalnie stanowić wartości wejściowe. W wyniku tego sprawdzenie, które zmienne mogą być uwzględnione w modelu, może być bardzo czasochłonne i wymagać wiele wysiłku. Aby zawęzić możliwość wyboru, można użyć algorytmu Dobór predyktorów, który pozwoli zidentyfikować zmienne najbardziej istotne dla danej analizy. Przykładowo, jeśli podejmowana jest próba predykcji danych wynikowych pacjenta w oparciu o liczbę czynników, które czynniki najprawdopodobniej będą istotne?

Wybór predyktora przeprowadzany jest w trzech krokach:

  • Przesiewanie. Usuwa nieistotne i problematyczne zmienne wejściowe i rekordy lub obserwacje, takie jak zmienne wejściowe ze zbyt dużą liczbą braków wartości lub ze zbyt dużą lub zbyt małą zmiennością.
  • Ranking. Umożliwia sortowanie pozostałych zmiennych i przypisanie rang na podstawie ważności.
  • Wybór. Określa podzbiór predyktorów, jakie będą używane w kolejnych modelach — na przykład poprzez zachowanie wyłącznie najistotniejszych zmiennych wejściowych i odfiltrowanie lub wykluczenie pozostałych.

W czasach, w których wiele organizacji operuje zbyt dużą ilością danych, korzyści, jakie zapewnia wybór predyktora dla uproszczenia i przyspieszenia procesu modelowania, mogą być bardzo wymierne. Szybkie przeniesienie zainteresowania na najbardziej istotne zmienne pozwala zredukować liczbę koniecznych obliczeń; znacznie łatwiej jest zlokalizować niewielką liczbę istotnych relacji, które w innej sytuacji mogłyby zostać przeoczone, i ostatecznie uzyskać prostsze, bardziej dokładne i łatwiejsze do objaśnienia modele. Zmniejszenie liczby zmiennych używanych w modelu może pozwolić na ograniczenie liczby przeprowadzanych ocen, jak również ilości danych zgromadzonych podczas przyszłych iteracji.

Przykład. Firma telekomunikacyjna dysponuje składnicą danych zawierającą informacje na temat odpowiedzi na specjalną promocję udzieloną przez 5000 klientów firmy. Dane obejmują dużą liczbę zmiennych dotyczących wieku, zatrudnienia, dochodów klientów oraz statystyki dot. korzystania z telefonu. Trzy zmienne przewidywane przedstawiają dane, czy klient odpowiedział na wszystkie trzy oferty. Firma chce użyć tych danych, aby lepiej przewidzieć, którzy klienci najprawdopodobniej odpowiedzą na podobne oferty w przyszłości.

Wymagania. Pojedyncze pole docelowe (jeden z jego rolą ustawionym na Target), wraz z wieloma polami wejściowymi, które mają być wyświetlane lub rangowane względem obiektu docelowego. Zarówno pola docelowe, jak i wejściowe mogą mieć poziom pomiaru Continuous (zakres liczbowy) lub Categorical.

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more