Translation not up to date
Jeśli większość brakujących wartości jest skoncentrowana w małej liczbie pól, można je adresować na poziomie pola, a nie na poziomie rekordu. Ta strategia umożliwi także eksperymentowanie ze względną ważnością poszczególnych zmiennych przed wybraniem strategii postępowania z brakami danych. Jeśli pole jest nieistotne w modelowaniu, to prawdopodobnie nie jest to warte zachowania, niezależnie od tego, ile brakujących wartości posiada.
Załóżmy na przykład, że firma zajmująca się badaniami rynku zebrała dane za pomocą ogólnego formularza złożonego z 50 pytań. Dwa z tych pytań dotyczą wieku i przekonań politycznych, czyli informacji, których wielu respondentów nie chciało podać. W tym przypadku wartości Age
i Political_persuasion
zawierają wiele braków danych.
Poziom pomiaru zmiennej
Wybierając metodę postępowania, należy także brać pod uwagę poziom pomiaru zmiennych z brakami danych.
Pola liczbowe. W przypadku typów pól liczbowych, takich jak Continuous
, należy zawsze wyeliminować wartości nieliczbowe przed zbudowaniem modelu, ponieważ wiele modeli nie będzie działać, jeśli w polach numerycznych są uwzględniane odstępy.
Zmienne jakościowe. W przypadku zmiennych jakościowych, takich jak Nominal
i Flag
, zmiana brakujących wartości nie jest konieczna, ale zwiększy dokładność modelu. Na przykład model korzystający z pola Sex
nadal będzie funkcjonował z wartościami bez znaczenia, takimi jak Y
i Z
, ale usunięcie wszystkich wartości innych niż M
i F
zwiększy dokładność modelu.
Monitorowanie lub usuwanie pól
Aby monitorować pola ze zbyt dużą liczbą braków danych, można zastosować kilka różnych metod:
- Do filtrowania pól na podstawie jakości można użyć węzła Audyt danych .
- Za pomocą węzła wyboru składników można wyświetlić pola z więcej niż określoną wartością procentową brakujących wartości i klasyfikować pola na podstawie istotności względem określonego elementu docelowego.
- Zamiast usuwać pola, można użyć węzła typu w celu ustawienia roli zmiennej na Brak. Spowoduje to zachowanie pól w zestawie danych, ale wykluczenie ich z procesów modelowania.