本教程使用自动数值节点自动创建和比较连续(数值范围)结果的不同模型,例如预测房产的应税价值。 借助于单独节点,可以估计和比较一组候选模型,并生成一个模型子集以进一步分析。 该节点的工作方式与自动分类器节点相同,但针对的是连续目标,而不是标记或标称目标。
该节点将候选模型中的最佳模型合并到单个汇总(整体)模型块中。 此方法将自动化操作的方便性与组合多个模型的优势融为一体,从而产生任何单一模型所不能带来的更为准确的预测。
本示例主要讲述一个负责调整和评估房地产税的虚拟市政机构。 为了更准确地实现这一目标,您需要建立一个模型,根据建筑类型、社区、面积和其他已知因素预测房产价值。
试用教程
在本教程中,您将完成这些任务:
建模流程和数据集样本
本教程使用示例项目中的 "连续目标的自动建模流程。 使用的数据文件是property_values_train.csv。 下图显示了建模流程示例。
数据文件中有一个名为 "taxable_value
的字段,它是您要预测的目标字段或值。 其他字段包含邻里、建筑类型和内部容积等信息,可用作预测因子。
字段名称 | 标签 |
---|---|
property_id |
属性 ID |
neighborhood |
城市内的区域 |
building_type |
建筑物的类型 |
year_built |
建造年代 |
volume_interior |
内部体积 |
volume_other |
车库和其他建筑所占的体积 |
lot_size |
批量 |
taxable_value |
应征税值 |
任务 1:打开示例项目
任务 2:检查数据资产和类型节点
连续目标自动建模包括几个节点。 按照以下步骤检查数据资产和类型节点:
- 从 "资产"选项卡,打开 "连续目标自动建模"建模流程,等待画布加载。
- 双击property_values_train.csv节点。 该节点是一个数据资产节点,指向项目中的property_values_train.csv文件。
- 查看文件格式属性。
- 可选:单击 "预览数据"查看完整数据集。
- 双击类型节点。
- 将taxable_value字段的角色设置为目标。 其他字段用作预测因子。
- 可选:单击 "预览数据"查看过滤后的数据集。
检查您的进度
下图显示了类型节点。 现在您可以配置建模节点了。
任务 3:配置建模节点
本示例使用自动数值建模节点,该节点可估算和比较模型,以尝试连续数值范围的各种方法。 请按照以下步骤配置建模节点:
- 双击应税价值节点,查看其属性。
- 展开基础部分,并设置以下属性:
- 在 "按字段排列模型"字段中,选择 "相关性"。
- 在 "要使用的型号数"字段中,键入 "
3
。 这意味着在运行节点时,将建立三个最佳模型。
- 展开专家部分。 所选算法有六种,因此节点会为每种算法估算一个模型,总共有六个模型。 (或者,您可以修改这些设置,以对每个模型类型的多个变体进行比较。) 由于您在 "基础 "部分将 "要使用的模型数"属性设置为 "
3
,因此节点会计算六种算法的精确度,并构建包含三种最精确算法的单一模型金块。 - 展开合奏部分查看默认设置。 由于本例中使用的是连续目标,因此集合得分是通过平均各个模型的得分而产生的。
检查您的进度
下图显示了建模节点。 现在您可以对模型进行比较了。
任务 4:比较模型
现在您已经指定了要构建的三个模型,请按照以下步骤生成和比较模型:
- 将鼠标悬停在taxable_value节点上,然后单击运行图标 "。
- 在 "输出和模型"窗格中,单击名称为taxable_value 的结果来查看结果。
您将看到运行过程中创建的每个模型的详细信息。 (在实际情况中,需要在一个大型数据集上估计数百个模型,运行流程可能需要很多小时) 该表包含建模节点生成的一组模型。
- 要进一步了解任何单个模型,请单击 "估计器"栏中的模型名称,查看单个模型的结果。
- 查看模型信息页面。 该表包含的信息涉及拟合模型的类型、目标领域、输入特征的数量、激活函数以及生成网络的大小。
- 查看该型号的任何其他页面。
- 关闭模型详细信息。
默认情况下,模型是按准确度(相关性)排序的,因为您在自动数值节点的属性中选择了相关性作为衡量标准。 对于排序目的,使用准确性的绝对值,值越接近 1,说明关系越强。
您可以通过单击不同列的标题对此列进行排序。
基于这些结果,您可以决定使用所有这三个最准确的模型。 通过综合多个模型的预测结果,可以避免单个模型的局限性,从而提高整体准确性。
- 确认 "使用"栏中选择了所有三种型号。
- 关闭视图模型:taxable_value窗口。
检查您的进度
下图显示了型号对照表。 现在您可以运行模型分析了。
任务 5:运行分析节点
现在,您已经查看了三种模型的比较,可以按照以下步骤对模型进行分析:
- 将鼠标悬停在分析节点上,点击运行图标 "。
- 在 "输出和模型"窗格中,单击名称为 "分析 "的输出结果以查看结果。
由集合模型生成的平均得分被添加到一个名为 "
$XR-taxable_value
的字段中,其相关性为0.934,高于三个单独模型的得分。 集合得分还显示出较低的平均绝对误差,在应用于其他数据集时,可能比任何单个模型的表现都要好。
检查您的进度
下图显示了分析节点的模型比较。
目录
在这个 "旗帜目标的自动建模流程示例中,您使用 "自动数字节点比较了几个不同的模型,选出了三个最精确的模型,并将它们添加到流程中的一个集合自动数值模型金块中。
集合模型的性能优于两个单独的模型,在应用于其他数据集时可能会有更好的表现。 如果您的目标是尽可能实现流程自动化,那么这种方法有助于在大多数情况下获得稳健的模型,而无需深入研究任何一个模型的具体细节。
后续步骤
现在您可以尝试其他SPSS® Modeler教程了。