本教程建立了两个模型来预测未来促销活动的效果,然后对这两个模型进行了比较。
与状态监测教程类似,数据挖掘过程包括探索、数据准备、训练和测试阶段。 并非 "telco.csv
数据文件中的所有数据都有助于预测流失率。 您可以使用筛选器只选择被认为是重要的预测数据(模型中标记为重要的字段)。
试用教程
在本教程中,您将完成这些任务:
建模流程和数据集样本
本教程使用示例项目中的零售促销流程。 使用的数据文件是goods2n.csv。 下图显示了建模流程示例。
任务 1:打开示例项目
任务 2:检查数据资产、派生和类型节点
零售促销包括几个节点。 按照以下步骤检查数据资产、派生和类型节点:
“数据资产”节点
- 从 "资产"选项卡打开 "零售促销"建模流程,等待画布加载。
- 双击goods1n.csv节点。 该节点是一个数据资产节点,指向项目中的goods1n.csv文件。
- 查看文件格式属性。
- 单击 "预览数据"查看完整数据集。
- 请注意,每条记录都包含
Class
.产品类型。Cost
.单位价格。Promotion
.特定促销活动消费金额的索引。Before
.促销前收入。After
.促销后的收入。
两个收入字段(
Before
和 "After
")以绝对值表示。 不过,促销之后(大概也是促销的结果)收入的增加可能是一个更有用的数字。 - 关闭数据预览和属性侧窗格。
“派生”节点
- 双击增加(派生)节点。 该节点得出收入增加的价值。
- 查看设置,尤其是表达式字段;该字段包含一个公式,用于计算增加额占促销前收入的百分比:"
(After - Before) / Before * 100.0
。 - 单击 "预览数据"查看带有导出值的数据集。
- 请注意 "增加"一栏。
对于每个类别的产品,收入增长与促销成本之间几乎存在线性关系。 因此,决策树或神经网络似乎可以合理和准确地预测其他可用字段上的收入增长量。
- 关闭数据预览和属性侧窗格。
类型节点
- 双击 "定义类型(类型)"节点。 该节点指定字段属性,如测量级别(字段包含的数据类型),以及每个字段在建模中作为目标或输入的作用。 测量级别是指示字段中数据的类型的类别。 源数据文件使用三种不同的测量级别:
- 连续字段(如 "
Age
字段)包含连续的数值。 - 一个标称字段(如 "
Education
字段)有两个或多个不同的值,本例中为 "College
或 "High school
"。 - 序数字段(如 "
Income level
字段)描述的是具有多个不同值的数据,这些值具有固有的顺序--本例中为 "Low
、"Medium
"和 "High
。对于每个字段,"类型"节点还指定了一个角色,以表明每个字段在建模中的作用。 字段 "
Increase
的角色设置为 "目标",该字段是派生字段。target
是您要预测值的字段。其他大多数字段的角色设置为输入。 输入字段有时被称为 "
predictors
,或其值被建模算法用来预测目标字段的值的字段。After
字段的角色设置为 "无",因此建模算法不会使用该字段。
- 连续字段(如 "
- 可选:单击 "预览数据"查看带有导出值的数据集。
检查您的进度
下图显示了类型节点。 现在您已准备好生成和比较模型。
任务 3:生成和比较模型
该流程训练了神经网络和决策树,以作出此收入增长预测。 按照以下步骤生成两个模型:
生成模型
- 双击 "增加(神经网络)"节点,查看其属性。
- 展开基础部分,可以看到多层感知器是模型类型。 这一属性决定了网络如何通过隐藏层将预测器与目标连接起来。 多层感知器可以处理更复杂的关系,但代价可能是增加训练和评分时间。
- 展开 "模型选项"部分,查看评估和评分属性。
- 双击 "增加(C&R 树)"节点,查看其属性。
- 点击运行所有 ",等待模型块生成。
- 将增量(C&R 树)模型金块连接到增量(神经网络)。
- 添加分析节点:
- 从调色板中,展开输出部分。
- 将分析节点拖到画布上。
- 将 "增加"(神经网络)模型节点连接到 "分析"节点。
- 更改数据集,使用不同的数据进行分析:
- 双击goods1n.csv节点,查看其属性。
- CV 舔变数据集。
- 导航至数据资产 >GOODS2n.csv。
- 单击选择。
- 单击保存。
- 将鼠标悬停在分析节点上,点击运行图标 "。
- 在 "输出和模型"窗格中,单击名称为 "分析 "的输出以查看结果。
从分析结果中,特别是从预测的收入增长和正确答案之间的线性相关关系中,可以看出训练有素的系统预测收入增长的成功率很高。
进一步的探索可能重点关注经过训练的系统产生相对较大错误的情况。 您可以通过绘制预测收入增幅与实际增幅的对比图来识别这些误差。 然后,您可以使用SPSS Modeler 中的交互式图形在图表上选择离群值,并根据离群值的属性调整数据描述或学习过程,以提高准确性。
检查您的进度
下图显示了分析节点的输出结果。
目录
本例向您展示了如何预测未来促销活动的效果。 与状态监测示例类似,数据挖掘过程包括探索、数据准备、训练和测试阶段。
后续步骤
现在您可以尝试其他SPSS® Modeler教程了。