0 / 0
Go back to the English version of the documentation
自动数值节点
Last updated: 2024年11月22日
自动数字节点 (SPSS Modeler)

“自动数值”节点使用多种不同方法来估算和比较模型以得出连续数值范围结果,这使您可以在一次建模运行中尝试多种方法。 您可以选择所用算法,并试验选项的多个组合。 例如,您可以使用神经网络、线性回归、C&RT 和 CHAID 模型预测住房价值,以确定哪种模型的性能最好,并且可以尝试步进、向前和向后回归法的不同组合。 节点研究选项的每个可能组合,根据您指定的测量为每个候选模型排序,并保存最佳模型用于评分或将来的分析。

示例
市政当局希望更准确地估算房地产税,并根据需要调整特定房产的价值,而不必检查每一处房产。 通过使用“自动数值”节点,分析人员可以生成并比较多个模型,这些模型根据构建类型、近邻、大小和其他已知因素来预测属性值。
要求
一个目标字段(角色设置为目标)和至少一个输入字段(角色设置为输入)。 目标必须为连续(数值范围)字段,如年龄收入。 输入字段可以是连续或分类,但具有限制,即某些输入可能不适合一些模型类型。 例如,C&R 树模型能将分类字符串字段作为输入使用,而线性回归模型不能使用这些字段并将在指定这些字段后省略它们。 这和使用单独建模节点时的要求相同。 例如,不管 CHAID 模型是在 CHAID 节点中还是在自动数值节点中生成,其工作方式都相同。
频率和权重字段
频率和权重用于为某些记录提供高于其他记录的附加重要性,原因可能是用户知道构建数据集省略父总体的一部分(加权)或一个记录代表一些相同的观测值(频率)等。 如果指定频率字段,那么 C&R 树和 CHAID 算法可以使用该字段。 C&RT、CHAID、回归和 GenLin 算法可以使用权重字段。 其他模型类型将省略这些字段并以任意方式构建模型。 频率和权重字段仅用于模型构建,并且在评估和评分模型时不予以考虑。
前缀
如果您将表节点附加到自动数字节点块,那么表中存在多个名称以前缀 $ 开头的新变量。
评分过程中生成的字段的名称基于目标字段,但是要加上标准前缀。 不同的模型类型使用不同的前缀集。
例如,前缀 $G、$R 和 $C 分别用作广义线性模型、CHAID 模型和 C5.0 模型生成的预测的前缀。$X 通常是使用整体生成的,如果目标字段为"连续"、"分类"或"标志"字段,那么分别使用 $XR、$XS 和 $XF 作为前缀。
$...E 前缀用于连续目标的预测置信度;例如,$XRE 用作整体连续预测置信度的前缀。$GE 是广义线性模型的单一置信度预测的前缀。

支持的模型类型

支持的模型类型包括神经网络、C&R 树、CHAID、回归、GenLin、最近邻元素、SVM、XGBoost Linear、GLE 和 XGBoost-AS。

交叉验证设置

在节点属性中,请注意,可以使用交叉验证设置。 交叉验证是一种很有价值的方法,用于测试机器学习模型的有效性(避免过度拟合),同时,还是一种可用于在数据有限的情况下评估模型的重新采样过程。

K 折叠是一种常见且简单的方法,用于执行交叉验证。 它通常会导致与单个训练/测试分区相比偏差较小的模型,因为它可确保原始数据集中每个观测值都有机会出现在训练和测试集中。 K-fold 交叉验证的一般过程如下。
注: 此时不支持交叉验证方式下的并行自动建模 (同时运行两个或更多自动建模节点,例如通过 全部运行 按钮)。 作为变通方法,您可以一次运行一个自动建模节点 (启用交叉验证,缺省情况下禁用交叉验证)。
  1. 随机地打乱数据集。
  2. 将数据集拆分为 k 折叠/组。
  3. 对于每个唯一的折叠/组:
    1. 将折叠/组作为逗留 (hold out) 或测试数据集。
    2. 将其余组作为训练数据集。
    3. 拟合训练集上的模型,并在测试集上对其进行评估。
    4. 保留评估分数并废弃模型。
  4. 使用保留的 k 折叠评估评分汇总模型的整体评估。

当前,通过“自动分类器”节点和“自动数值”节点支持交叉验证。 双击节点,以打开其属性。 通过选择交叉验证选项,将禁用单个训练/测试分区,并且“自动”节点将使用 k 折叠交叉验证来评估所选择的一组不同算法。

您可以指定折叠数 (K),缺省值为 5,范围为 3 到 10。 如果要在交叉验证期间保留可重复的采样,以使在不同执行中生成的模型具有一致的最终评估指标,可以选择可重复交叉验证分区分配选项。 您还可以将随机种子值设置为特定值,以使生成的模型完全可再现。 或者单击生成以始终生成相同的随机值序列,在此情况下,运行节点始终会生成相同模型。

连续机器学习

建模的不便之处在于,由于随时间推移对数据的更改,模型会变得过时。 这通常称为模型漂移概念漂移。 为了有效地帮助克服模型漂移,SPSS Modeler 提供了连续的自动化机器学习。 此功能可用于“自动分类器”节点和“自动数值”节点模型块。 有关更多信息,请参阅 持续机器学习

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more