0 / 0
Go back to the English version of the documentation
筛选预测变量
Last updated: 2024年12月11日
筛选预测变量
本教程使用特征选择节点来帮助您确定在预测某种结果时最重要的字段。 从一组数百甚至数千个预测因子中,特征选择节点会筛选、排列和选择可能最重要的预测因子。 最终,您可能会得到一个更快、更高效的模型;一个使用更少预测因子、运行更快、更容易理解的模型。

试用教程

在本教程中,您将完成这些任务:

建模流程和数据集样本

本教程使用示例项目中的筛选预测程序流程。 使用的数据文件是customer_dbase.csv。 下图显示了建模流程示例。

图 1。 样品建模流程
“特征选择”示例流
本示例仅主要讲述其中一种促销活动,并将其作为目标。 它使用CHAID树状构建节点来开发一个模型,以描述哪些客户最有可能对促销做出反应。 其中对以下两种方法作了对比:
  • 不使用特征选择。 数据集中的所有预测变量字段均可用作 CHAID 树的输入。
  • 使用特征选择特征选择节点用于选择最佳的 10 个预测因子。 这些预测因子被输入到 CHAID 树中。

通过比较两个树模型的结果,你可以看到特征选择是如何产生有效结果的。

下图显示了样本数据集。
图 2。 样本数据集
样本数据集

任务 1:打开示例项目

示例项目包含多个数据集和示例建模流程。 如果还没有示例项目,请参阅教程主题创建示例项目。 然后按照以下步骤打开示例项目:

  1. Cloud Pak for Data 中,从导航菜单"导航菜单,选择项目 > 查看所有项目
  2. 单击SPSS ModelerProject
  3. 单击 "资产"选项卡,查看数据集和建模流程。

检查点图标检查您的进度

下图显示了 "项目资产 "选项卡。 现在您可以使用与本教程相关的示例建模流程了。

样本项目

返回到顶部

任务 2:检查数据资产和类型节点

筛选预测器包括几个节点。 按照以下步骤检查数据资产类型节点:

  1. 从 "资产"选项卡打开 "筛选预测"建模流程,等待画布加载。
  2. 双击customer_dbase.csv节点。 该节点是一个数据资产节点,指向项目中的customer_dbase.csv文件。
  3. 查看文件格式属性
  4. 可选:单击 "预览数据"查看完整数据集。
  5. 双击类型节点。 请注意每个字段的角色值:
    • response_01设置为目标
    • response_02response_03custid设置为
    • 所有其他字段均设置为输入
    图 3。 类型节点测量水平
    类型节点
  6. 单击读取值
  7. 可选:单击预览数据,查看应用了类型属性的数据集。
  8. 单击保存

检查点图标检查您的进度

下图显示了类型节点。 现在您可以开始制作模型了。

类型节点

返回到顶部

任务 3:建立模型

请按照以下步骤建立模型:

  1. 双击response_01(特征选择)节点,查看其属性。
  2. 展开 "构建选项"部分,查看用于筛选或取消字段资格的已定义规则和标准。
    图 4: 功能选择构建选项
    特征选择节点的构建选项
  3. 将鼠标悬停在response_01(特征选择)节点上,然后单击运行图标 "运行图标
  4. 在 "输出和模型"窗格中,单击名称为response_01的模型以查看该模型。 结果显示了对预测有用的领域,并按重要性进行了排序。 通过检查这些字段,您可以确定要在后续建模会话中使用的字段。

    要比较无特征选择的结果,必须在流程中使用两个CHAID建模节点:一个使用特征选择,另一个不使用特征选择。

  5. 双击 "具有所有字段 (CHAID)" 节点,查看其属性。
    1. "目标"下,确认已选择 "建立新模型"和"创建标准模型"。
    2. 展开 "基本 "部分,确认 "最大树深度"设置为 "自定义","层数 "设置为 "5
  6. 单击保存
  7. 双击使用前 10 个字段 (CHAID)节点,查看其属性
    1. 验证与所有字段 (CHAID)节点相同的属性。
    2. 单击保存

检查点图标检查您的进度

下图显示了建模节点。 现在您可以运行流程并查看结果了。

CHAID 节点

返回到顶部

任务 4:运行流程并查看结果

请按照以下步骤运行流程,并查看有特征选择和无特征选择的两个模型的结果:

  1. 单击运行所有 "运行图标。 在运行过程中,注意每个模型完成制作所需的时间。
  2. 在 "输出和模型"窗格中,单击名称为 "包含所有字段"的模型以查看结果。
    1. 单击树形图页面。
    2. 放大以查看树形图的范围。
    3. 关闭模型详细信息窗口。
  3. 在 "输出和模型"窗格中,单击名称为 "使用前 10 个字段"的模型运行以查看结果。
    1. 单击树形图页面。
    2. 放大以查看树形图的范围。

    也许很难看出,但第二个模型的运行速度比第一个模型快。 由于这个数据集相对较小,运行时间的差异可能只有几秒钟;但对于更大的真实数据集,差异可能会很明显,几分钟甚至几小时都有可能。 使用特征选择可能会大大加快处理速度。

    您可以使用树形算法来完成特征选择工作,让树形算法为您识别最重要的预测因子。 实际上,CHAID 算法常用于此用途,甚至可以扩展树形结构的层次,以控制其深度和复杂性。 不过,"特征选择"节点更快、更易用。 它能在一个快速步骤中对所有预测因子进行排名,帮助您快速确定最重要的领域。

检查点图标检查您的进度

下图显示了模型的树形图。

视图模型树形图

返回到顶部

目录

第二个树包含的树节点也少于第一个树。 更容易理解。 使用较少的预测变量会降低成本。 这意味着您要收集、处理和输入模型的数据减少。 并且节省了计算时间。 在此示例中,即使使用额外的特征选择步骤,使用较小的预测变量集时,模型构建也会更快。 如果使用更大的真实数据集,节省的时间可能会大大增加。

使用较少的预测变量会使评分更加简单。 例如,您可能仅识别有望对促销作出响应的客户的四个概要文件。 预测因子越多,模型越有可能过度拟合。 更简单的模型对其他数据集的通用性可能更好(不过您需要对这种方法进行测试才能确定)。

后续步骤

现在您可以尝试其他SPSS® Modeler教程了

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more