Go back to the English version of the documentation

Chybějící datové hodnoty

Last updated: 12. 1. 2023
Chybějící hodnoty dat (SPSS Modeler)

Během fáze přípravy dat dobývání dat budete často chtít nahradit chybějící hodnoty v datech.

Chybějící hodnoty jsou hodnoty v datové sadě, které jsou neznámé, neshromážděné nebo chybně zadané. Obvykle tyto hodnoty nejsou platné pro jejich pole. Pole Sex by například mělo obsahovat hodnoty M a F. Pokud v poli zjistíte hodnoty Y nebo Z , můžete bezpečně předpokládat, že tyto hodnoty nejsou platné, a měly by proto být interpretovány jako mezery. Podobně i záporná hodnota pro pole Age je bezvýznamná a měla by být interpretována jako prázdná hodnota. Často jsou například nesprávně zadány chybné hodnoty, nebo jsou pole ponechána prázdná, během dotazníku označeného jako neodpověď. Někdy se možná budete chtít blíže seznámit s těmito mezerami, abyste určili, zda je neodpověď, jako např. odmítnutí poskytnout stáří, faktorem pro předpovídání specifického výsledku.

Některé techniky modelování obsluhují chybějící data lépe než jiné. Například uzel C5.0 a Apriori uzlu se dobře vypořádají s hodnotami, které jsou explicitně deklarovány jako "chybějící" v uzlu typu. Ostatní modelovací techniky mají problém se vypořádat s chybějícími hodnotami a zkušeností delší doby školení, což vede k méně přesným modelům.

Produkt SPSS Modelerrozpoznává několik typů chybějících hodnot:
  • Hodnoty null nebo systémově chybějící hodnoty. Toto jsou neřetězcové hodnoty, které byly ponechány prázdné v databázi nebo zdrojovém souboru a nebyly specificky definovány jako "chybějící" v uzlu Importovat nebo Typ. Systém-chybějící hodnoty jsou zobrazeny jako $null$. Všimněte si, že prázdné řetězce nejsou považovány za prázdné znaky v produktu SPSS Modeler, přestože s některými databázemi mohou být považovány za nulové hodnoty.
  • Prázdné řetězce a prázdné znaky. Prázdné řetězcové hodnoty a prázdné místo (řetězce bez viditelných znaků) se zpracovávají jako odlišené od hodnot null. Prázdné řetězce jsou pro většinu účelů považovány za ekvivalent neviditelných znaků. Pokud například vyberete volbu pro vyvážení bílého prostoru jako mezery v uzlu Importu nebo Typ, bude toto nastavení použito také pro prázdné řetězce.
  • Prázdné nebo uživatelem definované chybějící hodnoty. Jedná se o hodnoty, jako jsou unknown, 99nebo –1 , které jsou explicitně definovány v uzlu importu nebo uzlu typu jako chybějící. Volitelně můžete také zvolit ošetření hodnot null a mezer jako mezer, což umožňuje jejich označení příznakem pro speciální zacházení a být vyloučeni z většiny výpočtů. Např. můžete použít funkci @BLANK k léčbě těchto hodnot spolu s dalšími typy chybějících hodnot jako mezery.

Čtení ve smíšených datech. Všimněte si, že při čtení v polích s číselným úložištěm (buď celé číslo, reálný čas, čas, časové razítko nebo datum), jsou jakékoli nenumerické hodnoty nastaveny na null nebo system missing. Důvodem je to, že aplikace SPSS Modeler na rozdíl od některých aplikací nepovoluje v rámci pole smíšené typy úložišť. Chcete-li se tomu vyhnout, měli byste si přečíst všechna pole se smíšenými daty jako řetězce změnou typu úložiště v uzlu importu nebo v externí aplikaci podle potřeby.

Čtení prázdných řetězců z Oracle. Při čtení nebo zápisu do databáze Oracle si uvědomte, že na rozdíl od produktu SPSS Modeler a na rozdíl od většiny ostatních databází produkt Oracle zachází a ukládá prázdné řetězcové hodnoty jako ekvivalent hodnot null. To znamená, že se stejná data extrahovaná z databáze Oracle mohou chovat jinak než při extrahování ze souboru nebo jiné databáze a data mohou vracet různé výsledky.