Go back to the English version of the documentation“分级”节点
分箱节点 (SPSS Modeler)
Last updated: 2024年11月22日
使用“分级”节点,可以根据一个或多个现有连续(数值范围)字段的值自动创建新的名义字段。 例如,可以将连续收入字段转换为包含若干等宽收入组的新的分类字段,或转换为与均值之间的偏差。 或者,也可以选择一个“主管”分类字段,以保持两个字段之间原始关联的强度。
分级的实用性源于以下几个原因:
- 算法需求。 某些特定算法(如朴素贝叶斯、Logistic 回归)需要分类输入。
- 性能 如果减少输入字段的不同值数量,算法(如多项 Logistic)的性能可能会提高。 例如,对每个分级使用中位数或均值,而不使用原始值。
- Data Privacy. 敏感类个人信息(如工资)可采用范围的报告形式,而不使用实际工资数字,以保护个人隐私。
提供了一些分级方法。 为新字段创建分箱后,可以根据分割点生成 "派生" 节点。
何时使用分级节点
在使用分级节点之前,请考虑是否有更适用于当前任务的其他技术:
缺失值处理
分级节点处理缺失值的方法如下:
- 用户指定的空白值。 转换过程中将包括指定为空白值的缺失值。 例如,若使用 Type 节点指定 -99 表示空白值,那么会在分级过程中包括此值。 要在分级过程中忽略空白值,应使用 Filler 节点将空白值替换为系统空值。
- 系统缺失值 ($null$)。 在分级转换期间将忽略空值,并在转换后保持空值。
“设置”选项卡提供了有关适用技术的选项。 “视图”选项卡将显示针对先前通过节点的数据建立的割点。