试用教程
在本教程中,您将完成这些任务:
建模流程和数据集样本
本教程使用示例项目中的筛选预测程序流程。 使用的数据文件是customer_dbase.csv。 下图显示了建模流程示例。
- 不使用特征选择。 数据集中的所有预测变量字段均可用作 CHAID 树的输入。
- 使用特征选择。 特征选择节点用于选择最佳的 10 个预测因子。 这些预测因子被输入到 CHAID 树中。
通过比较两个树模型的结果,你可以看到特征选择是如何产生有效结果的。
任务 1:打开示例项目
任务 2:检查数据资产和类型节点
筛选预测器包括几个节点。 按照以下步骤检查数据资产和类型节点:
- 从 "资产"选项卡打开 "筛选预测"建模流程,等待画布加载。
- 双击customer_dbase.csv节点。 该节点是一个数据资产节点,指向项目中的customer_dbase.csv文件。
- 查看文件格式属性。
- 可选:单击 "预览数据"查看完整数据集。
- 双击类型节点。 请注意每个字段的角色值:
- response_01设置为目标
- response_02、response_03 和custid设置为无
- 所有其他字段均设置为输入
- 单击读取值。
- 可选:单击预览数据,查看应用了类型属性的数据集。
- 单击保存。
检查您的进度
下图显示了类型节点。 现在您可以开始制作模型了。
任务 3:建立模型
请按照以下步骤建立模型:
- 双击response_01(特征选择)节点,查看其属性。
- 展开 "构建选项"部分,查看用于筛选或取消字段资格的已定义规则和标准。
- 将鼠标悬停在response_01(特征选择)节点上,然后单击运行图标 "。
- 在 "输出和模型"窗格中,单击名称为response_01的模型以查看该模型。 结果显示了对预测有用的领域,并按重要性进行了排序。 通过检查这些字段,您可以确定要在后续建模会话中使用的字段。
要比较无特征选择的结果,必须在流程中使用两个CHAID建模节点:一个使用特征选择,另一个不使用特征选择。
- 双击 "具有所有字段 (CHAID)" 节点,查看其属性。
- 在"目标"下,确认已选择 "建立新模型"和"创建标准模型"。
- 展开 "基本 "部分,确认 "最大树深度"设置为 "自定义","层数 "设置为 "
5
。
- 单击保存。
- 双击使用前 10 个字段 (CHAID)节点,查看其属性
- 验证与所有字段 (CHAID)节点相同的属性。
- 单击保存。
检查您的进度
下图显示了建模节点。 现在您可以运行流程并查看结果了。
任务 4:运行流程并查看结果
请按照以下步骤运行流程,并查看有特征选择和无特征选择的两个模型的结果:
- 单击运行所有 "。 在运行过程中,注意每个模型完成制作所需的时间。
- 在 "输出和模型"窗格中,单击名称为 "包含所有字段"的模型以查看结果。
- 单击树形图页面。
- 放大以查看树形图的范围。
- 关闭模型详细信息窗口。
- 在 "输出和模型"窗格中,单击名称为 "使用前 10 个字段"的模型运行以查看结果。
- 单击树形图页面。
- 放大以查看树形图的范围。
也许很难看出,但第二个模型的运行速度比第一个模型快。 由于这个数据集相对较小,运行时间的差异可能只有几秒钟;但对于更大的真实数据集,差异可能会很明显,几分钟甚至几小时都有可能。 使用特征选择可能会大大加快处理速度。
您可以使用树形算法来完成特征选择工作,让树形算法为您识别最重要的预测因子。 实际上,CHAID 算法常用于此用途,甚至可以扩展树形结构的层次,以控制其深度和复杂性。 不过,"特征选择"节点更快、更易用。 它能在一个快速步骤中对所有预测因子进行排名,帮助您快速确定最重要的领域。
检查您的进度
下图显示了模型的树形图。
目录
第二个树包含的树节点也少于第一个树。 更容易理解。 使用较少的预测变量会降低成本。 这意味着您要收集、处理和输入模型的数据减少。 并且节省了计算时间。 在此示例中,即使使用额外的特征选择步骤,使用较小的预测变量集时,模型构建也会更快。 如果使用更大的真实数据集,节省的时间可能会大大增加。
使用较少的预测变量会使评分更加简单。 例如,您可能仅识别有望对促销作出响应的客户的四个概要文件。 预测因子越多,模型越有可能过度拟合。 更简单的模型对其他数据集的通用性可能更好(不过您需要对这种方法进行测试才能确定)。
后续步骤
现在您可以尝试其他SPSS® Modeler教程了。