0 / 0
Go back to the English version of the documentation
“特征选择”节点
Last updated: 2024年11月22日
"功能部件选择" 节点 (SPSS Modeler)

数据挖掘问题可能包括成百甚至上千个可用作输入的备选字段。 从而花费大量的时间和精力来检查模型究竟应该包含哪些字段或变量。 为了缩小选择范围,可以使用特征选择算法来识别对某给定分析最为重要的字段。 例如,如果你试着根据多种因素来预测患者结果,那么哪些因素最为重要呢?

特征选择由以下三个步骤组成:

  • 筛选。 删除不重要或有问题的输入、记录或观测值(例如输入字段含有过多缺失值,或者输入字段的变异太大或太少而变得无用)。
  • 分级。 对剩余输入进行排序并根据重要性进行分级。
  • 正在选择。 确定要在后续模型中使用的功能子集,例如通过仅保留最重要的输入以及过滤或排除所有其他输入来进行确定。

当下,许多组织的数据均已超载,因此简化和加快建模过程是特征选择的根本优势。 通过将注意力迅速集中到最重要的字段上,可以降低所需的计算量,并且可以方便地找到因某种原因被忽略的小而重要的关系,最终获得更简单、精确和易于解释的模型。 通过减少模型中的字段数量,可以减少评分时间以及未来迭代中所收集的数据量。

示例。 某电话公司有一个数据仓库,其中包含 5000 名公司客户对某次特别促销活动的响应的相关信息。 数据包含有客户年龄、职业、收入、电话使用情况的统计数据等大量数据。 三个目标字段表示客户是否对三个报价做出响应。 该公司希望使用这些数据来帮助预测哪些客户最可能在将来对类似报价做出响应。

需求。 单个目标字段 (其角色设置为 Target) ,以及要相对于目标进行筛选或排名的多个输入字段。 目标字段和输入字段都可以具有测量级别 Continuous (数字范围) 或 Categorical

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more