“随机树”节点可以与分布式环境中的数据配合使用。 此节点中,您可以构建包含多个决策树的整体模型。
“随机树”节点是一种基于树的分类和预测方法,此方法根据分类和回归方法构建。 与 C&R 树类似,此预测方法使用递归分区将训练记录分割为具有相似输出字段值的段。 首先,此节点通过检查可供其使用的输入字段来查找最佳分割(以分割所引起的杂质指标下降情况进行测量)。 分割可定义两个子组,其中每个子组随后又分割为两个子组,依此类推,直到触发其中一项中止条件为止。 所有分割都是二元的(仅有两个子组)。
“随机树”节点使用进行替换的拔靴法采样来生成样本数据。 样本数据用于生成树模型。 在树生长期间,“随机树”不会再次进行数据采样。 相反,它会随机选择部分预测变量,并使用最佳的预测变量来分割树节点。 分割每个树节点时,都会重复此过程。 这是在随机林中生成树的基本构想。
“随机树”使用类似于 C&R 树的树。 因为这类树是二元树,每个分割字段都会产生两个分支。 对于具有多个类别的分类字段,各个类别将根据内部分割条件分为两组。 每个树都尽可能成长到最大范围(不进行修剪)。 进行评分时,“随机树”通过多数表决(对于分类)或平均值(对于回归)来组合各个树的分数。
- “随机树”节点随机选择指定数目的预测变量,并使用所选变量中最佳的变量来分割节点。 与之相对,“C&R 树”从所有预测变量中寻找最佳变量。
- “随机树”中的每个树都充分生成,直到每个叶节点都包含单个记录为止。 因此,树深度可能会非常大。 但是,标准的“C&R 树”对于树生长使用不同的中止规则,这通常会使树的深度较浅。
与 C&R 树相比,随机树将添加两项功能:
- 第一项功能是组装,其中训练数据集的副本是通过对原始数据集进行放回采样来创建的。 此操作将大小与原始数据集相等的 Bootstrap 样本,在此操作执行后将根据每个副本构建组件模型。 这些成分模型共同构成一个整体模型。
- 第二项功能是,在树的每个分割处仅考虑将输入字段采样进行杂质测量。
需求。 要训练“随机树”模型,您需要一个或多个输入字段以及一个目标字段。 目标字段和输入字段可以是连续字段(数字范围),也可以是分类字段。 将忽略设置为两者或无的字段。 对于模型中使用的字段,必须将它们的类型完全实例化,并且模型中使用的任何有序(有序集合)字段的存储类型必须是数字类型(而不是字符串)。 必要的话,可以使用重新分类节点对存储类型进行转换。
强度。 处理大型数据集和许多字段时,“随机树”模型是稳健的模型。 由于使用组装和字段采样,因此它们更不容易过度拟合,并且测试中看到的结果更可能在您使用新数据时重复。