“自动分类器”节点使用多种不同的方法来估算和比较名义(集合)或二元(是/否)目标的模型,这使您可以在一次建模运行中尝试多种方法。 您可以选择所用算法,并试验选项的多个组合。 例如,您无需在径向基函数、多项式、sigmoid 或线性方法中选择一种来用于 SVM,您可以全部都尝试一下。 该节点将探究每种可能的选项组合,并根据您指定的测量对每个候选模型进行排序,然后保存最佳模型以用于评分或进行进一步分析。
- 示例
- 某零售公司具有历史数据,可用于追踪以前营销活动中向特定客户提供的报价信息。 公司现在希望通过向每个客户匹配适当的报价来实现更有利可图的结果。
- 要求
- 测量级别为
Nominal
或Flag
(角色设置为 目标) 的目标字段,以及至少一个输入字段 (角色设置为 输入)。 对于标志字段,假定为目标定义的True
值表示计算利润,提升和相关统计信息时的命中。 输入字段的测量级别可以为Continuous
或Categorical
,但存在某些输入可能不适用于某些模型类型的限制。 例如,在 C&R 树、CHAID 和 QUEST 模型中用作输入的有序字段必须是数字存储类型(而不是字符串),如果指定了其他类型,将被这些模型忽略。 类似地,在某些情况下可对连续输入字段进行分级。 这和使用单个建模节点时的要求一样;例如,不管是从“贝叶斯网络”节点还是“自动分类器”节点生成,“贝叶斯网络”模型都以同样的方式工作。 - 频率和权重字段
- 频率和权重用于为某些记录提供高于其他记录的附加重要性,原因可能是用户知道构建数据集省略父总体的一部分(加权)或一个记录代表一些相同的观测值(频率)等。 如果指定了频率字段,那么 C&R 树、CHAID、QUEST、决策列表和贝叶斯网络模型可以使用此字段。 C&RT、CHAID 和 C5.0 模型可以使用权重字段。 其他模型类型将省略这些字段并以任意方式构建模型。 频率和权重字段仅用于模型构建,并且在评估和评分模型时不予以考虑。
- 前缀
- 如果您将表节点附加到自动分类器节点块,那么表中存在多个名称以前缀 $ 开头的新变量。
支持的模型类型
支持的模型类型包括神经网络、C&R 树、QUEST、CHAID、C5.0、Logistic 回归、决策列表、贝叶斯网络、判别、最近邻元素、SVM、XGBoost Tree 和 XGBoost-AS。
交叉验证设置
在节点属性中,请注意,可以使用交叉验证设置。 交叉验证是一种很有价值的方法,用于测试机器学习模型的有效性(避免过度拟合),同时,还是一种可用于在数据有限的情况下评估模型的重新采样过程。
- 随机地打乱数据集。
- 将数据集拆分为 k 折叠/组。
- 对于每个唯一的折叠/组:
- 将折叠/组作为逗留 (hold out) 或测试数据集。
- 将其余组作为训练数据集。
- 拟合训练集上的模型,并在测试集上对其进行评估。
- 保留评估分数并废弃模型。
- 使用保留的 k 折叠评估评分汇总模型的整体评估。
当前,通过“自动分类器”节点和“自动数值”节点支持交叉验证。 双击节点,以打开其属性。 通过选择交叉验证选项,将禁用单个训练/测试分区,并且“自动”节点将使用 k 折叠交叉验证来评估所选择的一组不同算法。
您可以指定折叠数 (K),缺省值为 5,范围为 3 到 10。 如果要在交叉验证期间保留可重复的采样,以使在不同执行中生成的模型具有一致的最终评估指标,可以选择可重复交叉验证分区分配选项。 您还可以将随机种子值设置为特定值,以使生成的模型完全可再现。 或者单击生成以始终生成相同的随机值序列,在此情况下,运行节点始终会生成相同模型。
连续机器学习
建模的不便之处在于,由于随时间推移对数据的更改,模型会变得过时。 这通常称为模型漂移或概念漂移。 为了有效地帮助克服模型漂移,SPSS Modeler 提供了连续的自动化机器学习。 此功能可用于“自动分类器”节点和“自动数值”节点模型块。 有关更多信息,请参阅 持续机器学习。