0 / 0
Go back to the English version of the documentation
处理包含缺失值的字段
Last updated: 2024年10月07日
处理具有缺失值的字段 (SPSS Modeler)

如果大部分缺失值集中在少量字段中,您可以按字段而不是按记录处理这些缺失值。 这种方法还允许您先检验特定字段的相对重要性,然后再决定如何处理缺失值。 如果某个字段对于建模并不重要,那么无论其中有多少缺失值,您都不必保留该字段。

例如,一家市场调查公司要从包含 50 个问题的普通问卷中收集数据。 其中两个问题涉及到年龄和政治派别,许多人不愿提供这些信息。 此种情况下,AgePolitical_persuasion 就会有许多缺失值。

字段测量级别

确定要采用的方法时,您还应考虑包含缺失值的字段的测量级别。

数字字段。 对于数字字段类型 (例如, Continuous) ,在构建模型之前,应始终消除任何非数字值,因为如果数字字段中包含空白,那么许多模型将不起作用。

分类字段。 对于分类字段 (例如 NominalFlag) ,不需要改变缺失值,但会提高模型的准确性。 例如,使用字段 Sex 的模型仍将对无意义的值 (例如 YZ) 起作用,但除去除 M F 以外的所有值将提高模型的准确性。

筛选或移除字段

要筛选出包含过多缺失值的字段,您可采用以下几种方法:

  • 您可以使用 数据审计节点 根据质量过滤字段
  • 您可以使用 "特征选择" 节点 来筛选具有指定百分比以上缺失值的字段,并根据相对于指定目标的重要性对字段进行排序
  • 您可以使用 类型节点 将字段角色设置为 ,而不是除去字段。 这会将这些字段保留在数据集中,但将它们排除在建模流程之外
Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more