Translation not up to date
Práce s poli s chybějícími hodnotami
Je-li většina chybějících hodnot soustředěna v malém počtu polí, můžete je adresovat na úrovni pole spíše než na úrovni záznamu. Tento přístup vám také umožňuje experimentovat s relativním významem určitých polí dříve, než se rozhodujete o přístupu ke zpracování chybějících hodnot. Je-li pole v modelování nevýznamné, pravděpodobně to nemá cenu udržet, bez ohledu na to, kolik chybějících hodnot má.
Například tržní výzkumná společnost může shromažďovat údaje z obecného dotazníku obsahujícího 50 otázek. Dvě otázky týkající se věku a politické přesvědčování, informace, které se mnoho lidí zdráhá vydat. V tomto případě má
a Age
mnoho chybějících hodnot.Political_persuasion
Úroveň měření pole
Při určování, kterou metodu použít, byste měli také zvážit úroveň měření v polích s chybějícími hodnotami.
Číselná pole. U numerických typů polí, jako je například
, byste měli před sestavením modelu vždy eliminovat všechny nenumerické hodnoty, protože mnoho modelů nebude fungovat, pokud budou mezery zahrnuty do číselných polí.Continuous
Kategorická pole. U kategorických polí, jako je
a Nominal
, změna chybějících hodnot není nutná, ale zvýší se přesnost modelu. Například model, který používá pole Flag
, bude stále pracovat se nesmyslnými hodnotami, jako jsou Sex
a Y
, ale všechny hodnoty kromě Z
a M
zvyšují přesnost modelu.F
Detekční kontrola nebo odstranění polí
Chcete-li zobrazit pole s příliš mnoha chybějícími hodnotami, máte několik možností:
- Uzel Audit dat můžete použít k filtrování polí na základě kvality
- Uzel výběru funkcí můžete použít k zobrazení polí s více než zadaným procentním podílem chybějících hodnot a k očíslování pořadí polí na základě důležitosti relativně k určenému cíli.
- Místo odebrání těchto polí můžete použít uzel typu k nastavení role pole na hodnotu Žádná. Tím se uchovají pole v datové sadě, ale vyloučí je z procesů modelování.