0 / 0
Go back to the English version of the documentation
C&R 树节点
Last updated: 2024年11月22日
C&R Tree node (SPSS Modeler)

分类和回归 (C&R) 树节点是一种基于树的分类和预测方法。 与 C5.0 类似,此方法可使用递归分区将训练记录分割为具有相似输出字段值的段。 首先,“C&R 树”节点通过检查输入字段来查找最佳分割(以分割所引起的杂质指标下降情况进行测量)。 分割可定义两个子组,其中每个子组随后又被分割为两个子组,依此类推,直到触发其中一个中止条件为止。 所有分割都是二元的(仅有两个子组)。

修剪

C&R 树允许您先生成树,然后根据成本复杂性算法(该算法可根据终端节点数调整风险估计)修剪此树。 通过此方法(此方法可以使树在长大后再根据更复杂的标准进行修剪)可生成交叉验证属性更佳的小型树。 增加终端节点数通常会降低当前(训练)数据的风险,但当模型扩展为适用不可见数据时,实际的风险可能会更大。 假设在一种极端的情况下,训练集合中的每条记录都有一个单独的终端节点。 风险估算将为 0%,因为每条记录都属于其自己的节点,但不可见(测试)数据的误分类风险几乎肯定大于 0。 成本复杂性度量尝试弥补这一不足。

示例。 某有线电视公司委托进行市场营销研究,以确定有意预订有线电视互动新闻服务的用户。 使用研究中得来的数据可创建流,其中的目标字段为有意预订有线电视服务,预测变量字段则包括年龄、性别、教育、收入类别、每天看电视的时间和子女数。 通过将 C&R 树节点应用到流,您可以预测响应并对响应进行分类以获取竞销的最高响应率。

需求。 To train a C&R Tree model, you need one or more Input fields and exactly one Target field. 目标字段和输入字段可以是连续字段(数字范围),也可以是分类字段。 将忽略设置为 Both None 的字段。 对于模型中使用的字段,必须将它们的类型完全实例化,并且模型中使用的所有有序(有序集合)字段的存储类型必须是数字(而不是字符串)。 必要的话,可以使用重新分类节点对存储类型进行转换。

强度。 遇到缺少数据及大量字段等问题时,C&R 树模型的表现十分稳健。 这些模型通常不需要花费很长的训练时间用于估计。 另外,C&R 树模型似乎比某些其他模型类型更易于理解 - 派生自模型的规则解释起来更简明易懂。 与 C5.0 不同的是,C&R 树可同时兼容连续字段和分类输出字段。

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more