0 / 0
Go back to the English version of the documentation
“关联规则”节点
Last updated: 2024年11月22日
"关联规则" 节点 (SPSS Modeler)

关联规则将特定结论(例如,特定产品的采购)与一组条件(例如,其他一些产品的采购)相关联。

例如,规则

beer <= cannedveg & frozenmeal (173, 17.0%, 0.84)

声明 beer 通常在 cannedvegfrozenmeal 一起发生时发生。 该规则可靠率为 84% 并适用于 17% 的数据或 173 条记录。 关联规则算法自动找到可使用可视化方法(例如,Web 节点)手动找到的关联。

关联规则算法相较于更为标准的决策树算法(C5.0 和 C&R 树)的优势在于,关联可以存在于任何属性之间。 决策树算法只使用单一结论来构建规则,而关联算法则试图找到更多规则,且每个规则具有不同的结论。

关联算法的缺点是试图在可能非常大的搜索空间中查找规则,因而运行时间比决策树算法长得多。 关联算法使用生成与检验方法来查找规则(简单规则将初始生成)并对照数据集来验证这些规则。 好的规则会保存,根据各种限制,然后所有规则都会进行专业化处理。专业化是将条件添加到规则的过程。 然后这些新规则将对照数据进行验证,并且验证过程中将迭代保存最符合条件和最有用的规则。 用户通常会对允许进入规则的前提条件的可能的数量给出一定限制,并根据信息理论和高效索引方式使用各种方法来缩小原来可能很大的搜索空间。

处理结束后,将给出最符合条件的规则的列表。 不同于决策树,此组关联规则不能直接用于做出预测,这点与标准的模型(比如决策树或神经网络)不同。 这是由于规则可能有许多不同的结论。 需要将关联规则转换为分类规则集的另外一层转换。 因此,关联算法生成的关联规则被称作未优化模型。 虽然用户可以浏览这些未优化模型,但除非用户指令系统从未优化模型生成分类模型,否则无法明确地将这些模型用作分类模型。 用户可通过浏览器的“生成”菜单选项来完成这种转换。

支持两种关联规则算法:

  • Apriori 节点从数据中抽取一组规则,即抽取信息内容最多的规则。 Apriori 节点提供五种选择规则的方法并使用复杂的索引模式来高效地处理大数据集。 对于较大的问题,Apriori 训练的速度通常较快;它对可保留的规则数量没有任何限制,而且可处理最多带有 32 个前置条件的规则。 Apriori 要求输入和输出字段均为分类型字段,但因为它专为处理此类型数据而进行优化,因而处理速度快得多。
  • 序列节点可发现连续数据或与时间有关的数据中的关联规则。 序列是一系列可能会以可预测顺序发生的项目集合。 例如,一个购买了剃刀和须后水的顾客可能在下次购物时购买剃须膏。 序列节点基于 CARMA 关联规则算法,该算法使用一个有效的两次传递方法查找序列。
Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more