该节点使用 C5.0 算法构建决策树或规则集。 C5.0 模型的工作原理是根据提供最大信息增益的字段分割样本。 然后通常会根据不同的字段再次分割由第一次分割定义的每个子样本,且此过程会重复,直到无法继续分割子样本。 最后,将重新检查最底层分割,并删除或修剪对模型值没有显著影响的分割。
C5.0 可以生成两种模型。 决策树是对由算法建立的分割的简单描述。 每个终端(或“叶”)节点可描述训练数据的特定子集,而训练数据中的每个观测值都完全属于树中的某个终端节点。 换句话说,对于在决策树中显示的任何特定数据记录,仅可能有一个预测。
相比之下,规则集则是尝试对单个记录进行预测的一组规则。 规则集源自决策树,并且在某种程度上表示在决策树中建立的经简化或提取的信息版本。 通常,规则集可保留完整的决策树中的大部分重要信息,但其使用的模型比较简单。 由于规则集的这种工作方式,其属性与决策树的属性不同。 最重要的区别是,使用规则集时,可以为任意特定记录应用多个规则,也可以不应用任何规则。 如果应用多个规则,则每个规则将根据与此规则关联的置信度获得一个加权“投票”,并通过组合应用到所讨论记录的所有规则的加权投票来确定最终的预测。 如果没有规则可应用,则会将缺省预测分配到该记录。
示例。 医疗研究人员已收集一组患有相同疾病的患者的相关数据。 在治疗过程中,每位患者均对五种药物中的一种有明显反应。 您可以将 C5.0 模型与其他节点配合使用,以帮助了解哪种药物可能适用于未来患有相同疾病的患者。
需求。 要训练 C5.0 模型,必须有一个分类 (即名义或有序) Target
字段以及一个或多个任意类型的 Input
字段。 将忽略设置为 Both
或 None
的字段。 必须对模型中使用的字段的类型完全实例化。 还可以指定权重字段。
强度。 遇到缺少数据及存在大量输入字段等问题时,C5.0 模型的表现十分稳健。 这些模型通常不需要花费很长的训练时间用于估计。 此外,C5.0 模型与某些其他模型类型相比似乎更容易理解,因为源自模型的规则解释起来更简明易懂。 C5.0 还提供功能强大的增强方法来提高分类的准确性。