Go back to the English version of the documentation处理包含缺失值的字段
处理具有缺失值的字段 (SPSS Modeler)
Last updated: 2024年10月07日
如果大部分缺失值集中在少量字段中,您可以按字段而不是按记录处理这些缺失值。 这种方法还允许您先检验特定字段的相对重要性,然后再决定如何处理缺失值。 如果某个字段对于建模并不重要,那么无论其中有多少缺失值,您都不必保留该字段。
例如,一家市场调查公司要从包含 50 个问题的普通问卷中收集数据。 其中两个问题涉及到年龄和政治派别,许多人不愿提供这些信息。 此种情况下,Age
和 Political_persuasion
就会有许多缺失值。
字段测量级别
确定要采用的方法时,您还应考虑包含缺失值的字段的测量级别。
数字字段。 对于数字字段类型 (例如, Continuous
) ,在构建模型之前,应始终消除任何非数字值,因为如果数字字段中包含空白,那么许多模型将不起作用。
分类字段。 对于分类字段 (例如 Nominal
和 Flag
) ,不需要改变缺失值,但会提高模型的准确性。 例如,使用字段 Sex
的模型仍将对无意义的值 (例如 Y
和 Z
) 起作用,但除去除 M
和 F
以外的所有值将提高模型的准确性。
筛选或移除字段
要筛选出包含过多缺失值的字段,您可采用以下几种方法: