0 / 0
Go back to the English version of the documentation
Obsługa zmiennych z brakami danych
Last updated: 12 sty 2023
Obsługa pól z brakującą wartością (SPSS Modeler)

Jeśli większość brakujących wartości jest skoncentrowana w małej liczbie pól, można je adresować na poziomie pola, a nie na poziomie rekordu. Ta strategia umożliwi także eksperymentowanie ze względną ważnością poszczególnych zmiennych przed wybraniem strategii postępowania z brakami danych. Jeśli pole jest nieistotne w modelowaniu, to prawdopodobnie nie jest to warte zachowania, niezależnie od tego, ile brakujących wartości posiada.

Załóżmy na przykład, że firma zajmująca się badaniami rynku zebrała dane za pomocą ogólnego formularza złożonego z 50 pytań. Dwa z tych pytań dotyczą wieku i przekonań politycznych, czyli informacji, których wielu respondentów nie chciało podać. W tym przypadku wartości Age i Political_persuasion zawierają wiele braków danych.

Poziom pomiaru zmiennej

Wybierając metodę postępowania, należy także brać pod uwagę poziom pomiaru zmiennych z brakami danych.

Pola liczbowe. W przypadku typów pól liczbowych, takich jak Continuous, należy zawsze wyeliminować wartości nieliczbowe przed zbudowaniem modelu, ponieważ wiele modeli nie będzie działać, jeśli w polach numerycznych są uwzględniane odstępy.

Zmienne jakościowe. W przypadku zmiennych jakościowych, takich jak Nominal i Flag, zmiana brakujących wartości nie jest konieczna, ale zwiększy dokładność modelu. Na przykład model korzystający z pola Sex nadal będzie funkcjonował z wartościami bez znaczenia, takimi jak Y i Z, ale usunięcie wszystkich wartości innych niż M i F zwiększy dokładność modelu.

Monitorowanie lub usuwanie pól

Aby monitorować pola ze zbyt dużą liczbą braków danych, można zastosować kilka różnych metod:

  • Do filtrowania pól na podstawie jakości można użyć węzła Audyt danych .
  • Za pomocą węzła wyboru składników można wyświetlić pola z więcej niż określoną wartością procentową brakujących wartości i klasyfikować pola na podstawie istotności względem określonego elementu docelowego.
  • Zamiast usuwać pola, można użyć węzła typu w celu ustawienia roli zmiennej na Brak. Spowoduje to zachowanie pól w zestawie danych, ale wykluczenie ich z procesów modelowania.
Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more