试用教程
在本教程中,您将完成这些任务:
建模流程和数据集样本
本教程使用示例项目中的 "药物治疗--探索性图表"流程。 使用的数据文件是drug1n.csv。 下图显示了建模流程示例。
“数据”字段 | 描述 |
---|---|
Age |
患者年龄(数字) |
Sex |
M 或 F |
BP |
血压: HIGH , NORMAL 或 LOW |
Cholesterol |
血胆固醇: NORMAL 或 HIGH |
Na |
血液中钠的浓度 |
K |
血液中钾的浓度 |
Drug |
对患者有效的处方药 |
任务 1:打开示例项目
任务 2:检查数据资产
药物治疗--探索图包括几个节点。 按照以下步骤检查数据资产节点:
- 从 "资产"选项卡,打开 "药物治疗--探索性图表"建模流程,等待画布加载。
- 双击drug1n.csv节点。 该节点是一个数据资产节点,指向项目中的drug1n.csv文件。
- 查看文件格式属性。
- 可选:单击 "预览数据"查看完整数据集。
检查您的进度
下图显示了数据资产节点。 现在您可以探索分布图和数据审计图了。
任务 3:探索分布图和数据审计图
数据挖掘过程中,创建汇总视图通常有助于研究数据。 SPSS Modeler提供多种不同类型的图表供您选择,具体取决于您要汇总的数据类型。 例如,要了解对每种药物有反应的患者比例,可探索药物类型(分布)节点。 按照以下步骤探索一些图表:
- 双击药品类型(配送)节点,查看其属性。
- 请单击取消。
- 将鼠标悬停在药品类型(配送)节点上,然后单击运行图标 "。
- 在 "输出和模型"窗格中,单击 "药物类型输出 "查看结果。
图表可以帮助你看清数据的形状。 结果表明,药物 Y
的对症患者最多,而药物 B
和药物 C
的对症患者最少。
另外,您也可以附加并运行7 字段(数据审计)节点,一次性查看所有字段的分布和直方图。
- 双击数据资产节点后的7 字段(数据审核)输出节点。
- 将鼠标悬停在7 字段(数据审核)节点上,然后单击运行图标 "。
- 在 "输出和模型"窗格中,单击 "7 字段(数据审计)"输出查看结果。
检查您的进度
下图说明了该流。 现在您可以创建并探索散点图了。
任务 4:创建并探索散点图
您可以看到哪些因素可能会影响目标变量 "Drug
。 作为研究人员,您知道血液中钠和钾的浓度是两个重要因素。 由于这些浓度都是数值,您可以创建钠与钾的散点图,将药物类别作为颜色叠加。 按照以下步骤创建并探索散点图:
- 从调板的 "图形"部分,将 "绘图"节点拖到画布上。
- 将鼠标悬停在节点上,单击 "编辑标题"按钮,将其重命名为 "Na v. K.
- 将绘图节点连接到drug1n.csv数据资产节点。
- 双击 "Na v。 K (绘图)节点,编辑其属性。
- 在"绘图"部分,选择 "
Na
作为X字段,"K
"作为Y字段,在 "叠加"部分,选择 "Drug
作为颜色字段。 - 单击保存。
- 将鼠标悬停在 "Na v 上。 点击 K(绘图)节点,然后点击运行图标 "。
- 在 "输出和模型"窗格中,点击 "Na v。 K输出以查看结果。
该图清楚地显示了一个临界值。 如果数值高于阈值,则药物 "Y
始终是正确的药物。 而当数值小于阈值时,药物 "Y
永远不会是正确的药物。 该阈值是钠(Na
)与钾(K
)的比率。
检查您的进度
下图显示了散点图。 现在您可以创建并探索网络图表了。
任务 5:创建和探索网络图表
由于许多数据字段都是分类的,因此您也可以尝试绘制网络图表,以映射不同类别之间的关联。 按照以下步骤探索网络图表:
- 从调色板的图表部分,将Web节点拖到画布上,并将其连接到drug1n.csv数据资产节点。
- 双击Web节点编辑其属性。
- 在字段部分,单击添加列。 Select the
BP
(for blood pressure) andDrug
columns. - 单击保存。
- 将鼠标悬停在Web节点上,点击运行图标 "
- 在 "输出和模型"窗格中,单击网络输出查看结果。
从图中可以看出,显然药物 "Y
与所有三个血压水平都有关联。 这个结果并不令人意外,因为您已经确定了在哪种情况下 "Y
药物效果最好。
但是,如果您忽略药物 Y
,转而关注其他药物,那么您可以发现药物 A
和 B
也与高血压相关联。 而药物 C
和 X
与低血压相关联。 而正常血压与药物 "X
有关。 尽管如此,您仍然不知道如何针对特定病人在 "A
和 "B
"之间或 "C
"和 "X
之间选择药物。 在这种情况下,建模可以提供帮助。
检查您的进度
下图显示了网络图。 现在您可以探索高级可视化了。
任务 6:探索高级可视化
前面的章节使用了不同类型的图形节点。 探索数据的另一种方法是使用高级可视化功能。 请按照以下步骤创建和探索高级图表:
- 从调板的 "图表"部分,将 "图表"节点拖到画布上,并将其连接到drug1n.csv数据资产节点。
- 双击图表节点,查看其属性。
- 单击 "启动图表生成器"按钮。
在这里,您可以选择和创建高级图表,从不同角度探索数据,并识别数据中的模式、联系和关系。 在返回建模流程之前,先尝试创建一些图表。
检查您的进度
下图显示了一个3D图表示例。 现在,您可以探索Derive节点了。
任务 7:探索派生节点
正如您在任务 4 的散点图中看到的,钠和钾的比例似乎可以预测何时使用药物 Y。 您可以为每条记录创建一个包含该比率值的字段。 稍后当您构建模型以预测何时使用五种药品中的每种药品时,此字段可能很有用。
按照以下步骤探索Derive 节点:
- 双击Na_too_K (Derive)节点编辑其属性。
- 查看 "表达"部分。 之所以用Na/K表示,是因为用钠值除以钾值可以得到新的面积。您还可以通过点击计算器图标"来创建表达式,打开表达式生成器;这是一种使用内置函数、操作数和字段及其值列表交互式创建表达式的方法。
- 单击 "取消 "返回属性,再次单击 "取消 "返回流程。
- 从调色板的 "图表"部分,将 "直方图"节点拖到画布上,并将其连接到Na_too_K (推导)节点。
- 双击直方图节点,查看其属性。
- 在直方图节点属性中,将Na_too_K指定为要绘制的字段,将Drug指定为颜色叠加字段。
- 单击保存。
- 将鼠标悬停在直方图 节点上,然后点击运行图标 "。
- 在 "输出和模型"窗格中,单击 "直方图输出 "查看结果。
根据图表可以得出结论,当 "Na_to_K
值约为 15 或更高时,"Y
是首选药物。
检查您的进度
下图显示了直方图。 现在,您可以探索 "筛选器"和 "类型"节点了。
任务 8:探索过滤器和类型节点
通过探索和处理数据,您可以形成一些假设。 血液中钠与钾的比率以及血压似乎都会影响药物的选择。 但您尚无法完全解释清楚所有关系。 建模可以提供一些答案。 首先,请按照以下步骤探索 "筛选器"和 "类型"节点:
- 双击 "丢弃字段(筛选器)"节点,查看其属性。
- 由于使用的是派生字段 "
Na_to_K
,原始字段 "Na
和 "K
会被过滤掉,因此在建模算法中不会重复使用。 - 请单击取消。
- 双击 "定义类型(类型)"节点,查看其属性。
- 通过 "类型"节点,您可以指出正在使用的字段类型,以及如何使用它们来预测结果。 请注意,"
Drug
字段的角色设置为 "目标",表明 "Drug
是您要预测的字段。 其他字段的角色设置为输入,因此它们被用作预测因子。 - 请单击取消。
检查您的进度
下图说明了该流。 现在就可以生成模型了。
任务 9:生成模型
请按照以下步骤使用C5.0节点生成模型:
- 将鼠标悬停在药物(C5.0)节点上,点击运行图标 "。
- 在 "输出和模型"窗格中,单击 "药物模型 "查看结果。
树形图以树形格式显示C5.0节点生成的规则集。 现在,你可以看到拼图中缺失的部分了。 对于 Na-to-K 比小于
14.829
且患有高血压的人,年龄决定了药物的选择。 对于低血压患者,胆固醇含量似乎是最有力的预测变量。您可以将鼠标悬停在树中的节点上,以查看更多详细信息,例如每个血压类别的病例数和病例的置信度百分比。
检查您的进度
下图显示了树形图。 现在您可以创建分析节点了。
任务 10:创建分析节点
按照以下步骤,使用分析节点评估模型的准确性:
- 从调色板的 "输出部分,将 "分析节点拖到画布上,并将其连接到 "药物 (C5.0)模型块。
- 将鼠标悬停在分析节点上,点击运行图标 "
- 在 "产出和模型窗格中,点击 "对[药物]的分析输出以查看结果。
分析节点的输出结果显示,通过这个人工数据集,模型正确预测了数据集中每条记录的药物选择。 对于真实数据集,您不太可能看到 100% 的准确性,但您可以使用分析节点来帮助确定模型对于您的特定应用是否具有可接受的准确性。
检查您的进度
下图显示了分析结果。
目录
该示例向您展示了如何创建和探索药物治疗图表,并利用这些图表找出哪种药物可能适合未来患有相同疾病的病人。
后续步骤
现在您可以尝试其他SPSS® Modeler教程了。