“自动数值”节点使用多种不同方法来估算和比较模型以得出连续数值范围结果,这使您可以在一次建模运行中尝试多种方法。 您可以选择所用算法,并试验选项的多个组合。 例如,您可以使用神经网络、线性回归、C&RT 和 CHAID 模型预测住房价值,以确定哪种模型的性能最好,并且可以尝试步进、向前和向后回归法的不同组合。 节点研究选项的每个可能组合,根据您指定的测量为每个候选模型排序,并保存最佳模型用于评分或将来的分析。
- 示例
- 市政当局希望更准确地估算房地产税,并根据需要调整特定房产的价值,而不必检查每一处房产。 通过使用“自动数值”节点,分析人员可以生成并比较多个模型,这些模型根据构建类型、近邻、大小和其他已知因素来预测属性值。
- 要求
- 一个目标字段(角色设置为目标)和至少一个输入字段(角色设置为输入)。 目标必须为连续(数值范围)字段,如年龄或收入。 输入字段可以是连续或分类,但具有限制,即某些输入可能不适合一些模型类型。 例如,C&R 树模型能将分类字符串字段作为输入使用,而线性回归模型不能使用这些字段并将在指定这些字段后省略它们。 这和使用单独建模节点时的要求相同。 例如,不管 CHAID 模型是在 CHAID 节点中还是在自动数值节点中生成,其工作方式都相同。
- 频率和权重字段
- 频率和权重用于为某些记录提供高于其他记录的附加重要性,原因可能是用户知道构建数据集省略父总体的一部分(加权)或一个记录代表一些相同的观测值(频率)等。 如果指定频率字段,那么 C&R 树和 CHAID 算法可以使用该字段。 C&RT、CHAID、回归和 GenLin 算法可以使用权重字段。 其他模型类型将省略这些字段并以任意方式构建模型。 频率和权重字段仅用于模型构建,并且在评估和评分模型时不予以考虑。
- 前缀
- 如果您将表节点附加到自动数字节点块,那么表中存在多个名称以前缀 $ 开头的新变量。
支持的模型类型
支持的模型类型包括神经网络、C&R 树、CHAID、回归、GenLin、最近邻元素、SVM、XGBoost Linear、GLE 和 XGBoost-AS。
交叉验证设置
在节点属性中,请注意,可以使用交叉验证设置。 交叉验证是一种很有价值的方法,用于测试机器学习模型的有效性(避免过度拟合),同时,还是一种可用于在数据有限的情况下评估模型的重新采样过程。
- 随机地打乱数据集。
- 将数据集拆分为 k 折叠/组。
- 对于每个唯一的折叠/组:
- 将折叠/组作为逗留 (hold out) 或测试数据集。
- 将其余组作为训练数据集。
- 拟合训练集上的模型,并在测试集上对其进行评估。
- 保留评估分数并废弃模型。
- 使用保留的 k 折叠评估评分汇总模型的整体评估。
当前,通过“自动分类器”节点和“自动数值”节点支持交叉验证。 双击节点,以打开其属性。 通过选择交叉验证选项,将禁用单个训练/测试分区,并且“自动”节点将使用 k 折叠交叉验证来评估所选择的一组不同算法。
您可以指定折叠数 (K),缺省值为 5,范围为 3 到 10。 如果要在交叉验证期间保留可重复的采样,以使在不同执行中生成的模型具有一致的最终评估指标,可以选择可重复交叉验证分区分配选项。 您还可以将随机种子值设置为特定值,以使生成的模型完全可再现。 或者单击生成以始终生成相同的随机值序列,在此情况下,运行节点始终会生成相同模型。
连续机器学习
建模的不便之处在于,由于随时间推移对数据的更改,模型会变得过时。 这通常称为模型漂移或概念漂移。 为了有效地帮助克服模型漂移,SPSS Modeler 提供了连续的自动化机器学习。 此功能可用于“自动分类器”节点和“自动数值”节点模型块。 有关更多信息,请参阅 持续机器学习。