您可以使用 SPSS Modeler创建,训练和部署模型。 阅读 SPSS Modeler,然后观看视频并遵循适合初学者且无需编码的教程。
- 必需的服务
- watsonx.aiStudio(包括SPSS Modeler
- watsonx.ai运行时
基本工作流程包含以下任务:
- 创建项目。 项目是您与其他人协作处理数据的地方。
- 将 SPSS Modeler 流添加到项目。
- 在画布上配置节点,然后运行流。
- 查看模型详细信息并保存模型。
- 部署并测试模型。
阅读 SPSS Modeler
借助 SPSS Modeler 流程,您可以使用业务专业知识快速开发预测模型,并将其部署到业务运营中以改进决策。 SPSS Modeler 客户端软件和它所使用的行业标准 CRISP-DM 模型设计的流程界面,促进了从数据到更好业务结果的整个数据挖掘过程。
SPSS Modeler 提供了各种来自机器学习,人工智能和统计信息的建模方法。 通过节点选用板中的方法,您可以根据数据派生新的信息以及开发预测模型。 每种方法各有所长,而且适合于解决特定类型的问题。
观看有关使用 SPSS Modeler 创建模型的视频
观看本视频,了解如何创建和运行SPSS Modeler流程来训练机器学习模型。
此视频提供了一种可视方法来学习本文档中的概念和任务。
尝试使用 SPSS Modeler 创建模型的教程
在本教程中,您将完成以下任务:
- 任务 1: 打开项目。
- 任务 2: 向项目添加数据集。
- 任务 3: 创建 SPSS Modeler 流程。
- 任务 4: 将节点添加到 SPSS Modeler 流。
- 任务 5: 运行 SPSS Modeler 流程并浏览模型详细信息。
- 任务 6: 评估模型。
- 任务 7: 使用新数据部署和测试模型。
完成本教程大约需要 30 分钟。
示例数据
本教程中使用的数据集来自加州大学欧文分校,是一段时间内基于医院招生的广泛研究的结果。 该模型将利用三个重要因素帮助预测慢性肾脏疾病。
完成本教程的提示
以下是成功完成本教程的一些提示。
使用视频图片
以下动画图像显示了如何使用视频图片和目录功能:
在社区中获取帮助
如果您需要本教程的帮助,可以在Cloud Pak for Data社区讨论区提问或寻找答案。
设置浏览器窗口
为了获得完成本教程的最佳体验,请在一个浏览器窗口中打开 Cloud Pak for Data ,并在另一个浏览器窗口中保持本教程页面处于打开状态,以便在两个应用程序之间轻松切换。 请考虑将两个浏览器窗口并排排列,以便更轻松地进行后续操作。
任务 1: 打开项目
您需要一个项目来存储 SPSS Modeler 流程。 您可以使用现有项目或创建项目。
从导航菜单",选择项目 > 查看所有项目
打开现有项目。 如果要使用新项目:
单击新建项目。
选择创建空项目。
输入项目的名称和可选描述。
选择现有的对象存储服务实例或者创建新的对象存储服务实例。
单击创建。
要获取更多信息或观看视频,请参阅创建项目。
检查您的进度
下图显示了新项目。
任务 2: 将数据集添加到项目
To preview this task, watch the video beginning at 00:13.
本教程使用样本数据集。 执行以下步骤以将样本数据集添加到项目:
Access the UCI ML 资源库:慢性肾病数据集 in the 资源中心.
单击 预览。 有三个重要因素可以帮助预测慢性肾脏疾病,作为这项分析的一部分: 测试对象的年龄,血清肌酐测试结果和糖尿病测试结果。 而该类数值表明患者是否曾被确诊为肾脏疾病。
单击添加到项目。
从列表中选择项目,然后单击添加。
单击 查看项目。
在项目的 " 资产 " 页面中,找到 UCI ML 存储库慢性肾脏疾病数据 Set.csv 文件。
检查您的进度
下图显示了项目中的 资产 选项卡。
任务 3: 创建 SPSS Modeler 流程
To preview this task, watch the video beginning at 01:11.
遵循以下步骤在项目中创建 SPSS Modeler 流:
点击新资产 > 以可视化流程构建模型。
输入流的名称和描述。
对于运行时定义,接受 缺省 SPSS Modeler S 定义。
单击创建。 这将打开将用于创建流的流编辑器。
检查您的进度
下图显示了流编辑器。
任务 4: 将节点添加到 SPSS Modeler 流程
To preview this task, watch the video beginning at 01:31.
装入数据后,必须变换数据。 通过将变换器和估计量拖到画布上并将其连接到数据源来创建简单流。 使用选用板中的以下节点:
数据资产: 从项目装入 csv 文件
分区: 将数据划分为训练和测试段
类型: 设置数据类型。 使用它将
class
字段指定为target
类型。C5.0: 分类算法
分析: 查看模型并检查其准确性
表: 预览具有预测的数据
执行以下步骤以创建流:
添加数据资产节点:
从 导入 部分中,将 数据资产 节点拖到画布上。
双击 数据资产 节点以选择数据集。
选择 数据资产> UCI ML 存储库慢性肾脏病数据 Set.csv。
单击选择。
查看数据资产属性。
单击保存。
添加分区节点:
从 字段操作 部分中,将 分区 节点拖到画布上。
将 数据资产 节点连接到 分区 节点。
双击 Partition 节点以查看其属性。 缺省分区将一半数据用于训练,另一半数据用于测试。
单击保存。
添加 "类型" 节点:
从 字段操作 部分中,将 类型 节点拖到画布上。
将 Partition 节点连接到 Type 节点。
双击 类型 节点以查看其属性。 "类型" 节点指定每个字段的测量级别。 此源数据文件使用四个不同的测量级别: "连续" , "分类" , "名义" , "有序" 和 "标志"。
搜索
class
字段。 对于每个字段,角色指示每个字段在建模中扮演的部分。 将class
角色 更改为 目标 -要预测的字段。单击保存。
添加 C5.0 分类算法节点:
从 建模 部分中,将 C5.0 节点拖到画布上。
将 Type 节点连接到 C5.0 节点。
双击 C5.0 节点以查看其属性。 缺省情况下, C5.0 算法会构建决策树。 C5.0 模型通过根据提供最大信息增益的字段拆分样本来工作。 第一次拆分所定义的每个子样本然后再次拆分,通常基于不同的字段,该过程会重复,直到子样本无法再拆分。 最后,将重新检查最低级别的拆分,并且将除去那些对模型的价值没有显着贡献的拆分。
开启 使用此节点中定义的设置。
对于 目标,选择 class。
在 输入 部分中,单击 添加列。
清除 字段名旁边的复选框。
选择 age, sc和 dm。
单击确定。
单击保存。
检查您的进度
下图显示了已完成的流程。
任务 5: 运行 SPSS Modeler 流程并浏览模型详细信息
To preview this task, watch the video beginning at 04:20.
现在,您已设计流,请执行以下步骤来运行流,并检查树形图以查看决策点:
右键单击 C5.0 节点,然后选择 运行。 运行流会在画布上生成新的模型块。
右键单击模型块,然后选择 查看模型 以查看模型详细信息。
查看提供模型摘要的 模型信息 。
单击 排名靠前的决策规则。 一个表显示了一系列规则,这些规则用于根据不同输入字段的值将各个记录分配给子节点。
单击 特征重要性。 图表显示每个预测变量在估计模型中的相对重要性。 由此可以看出,血清肌酐很容易是最重要的因素,糖尿病是下一个最重要的因素。
单击 树形图。 同一模型以树的形式显示,每个决策点都有一个节点。
将鼠标悬停在顶部节点上,这将提供数据集中所有记录的摘要。 数据集中几乎有 40% 的病例被归类为未确诊肾脏疾病。 树可以提供有关哪些因素可能导致的其他线索。
请注意源于顶部节点的两个分支,这指示由 血清肌酐进行拆分。
查看显示血清肌酐大于 1.25的记录的分支。 在这种情况下,其中 100% 的患者都有阳性肾脏疾病诊断。
查看显示血清肌酐小于或等于 1.25的记录的分支。 其中几乎 80% 的患者没有进行阳性肾脏疾病诊断,但几乎 20% 的血清肌酐较低的患者仍被诊断为肾脏疾病。
请注意源自 sc<=1.250的分支,该分支由 糖尿病拆分。
复查显示低血清肌酐 (sc<=1.250) 和确诊糖尿病 (dm = yes) 患者的分支。 这些患者 100% 也被诊断为肾脏疾病。
复查显示低血清肌酐 (sc<=1.250) 和无糖尿病 (dm = no) 患者的分支, 85% 未被诊断为肾脏病,但其中 15% 仍被诊断为肾脏病。
请注意源自 dm = no的分支,由最后一个有效因子 age分割。
Review the branch that shows patients 14 years old or younger (age <= 14). 这一分支显示, 75% 的低血清肌酐和无糖尿病的年轻患者有患肾脏疾病的风险。
复查显示超过 14 岁 (年龄> 14 岁) 的患者的分支。 这一分支显示,只有 12% 的 14 岁以上血清肌酐低,无糖尿病的患者有患肾脏疾病的风险。
关闭模型详细信息。
检查您的进度
下图显示了树形图。
任务 6: 评估模型
To preview this task, watch the video beginning at 07:24.
执行以下步骤以使用 "分析" 和 "表" 节点来评估模型:
从 输出 部分中,将 分析 节点拖到画布上。
将 模型 块连接到 分析 节点。
右键单击 分析 节点,然后选择 运行。
在 " 输出 " 面板中,打开 分析,该分析显示模型正确预测了几乎 95% 的时间进行肾脏疾病诊断。 关闭 分析。
(可选) 在工具栏上,单击 下载 图标以将模型保存为 .str 文件。
右键单击 分析 节点,然后选择 将分支另存为模型。
对于 模型名称,输入
Kidney Disease Analysis
。单击保存。
单击关闭。
从 输出 部分中,将 表 节点拖到画布上。
将 模型 块连接到 表 节点。
右键单击 表 节点,然后选择 预览数据。
当 "预览" 显示时,滚动到最后两列。 $C-Class 列包含肾脏疾病的预测, $CC-Class 列指示该预测的置信度分数。
关闭 预览。
检查您的进度
下图显示了包含预测的预览表。
任务 7: 使用新数据部署和测试模型
To preview this task, watch the video beginning at 09:10.
最后,执行以下步骤以部署此模型并使用新数据预测结果。
返回到项目的 资产 选项卡。
单击 模型 部分,然后打开 肾脏疾病分析 模型。
单击 "推广到部署空间"图标 "。
选择现有部署空间。 如果您没有部署空间,那么可以创建新的部署空间:
提供空间名称。
选择存储服务。
选择机器学习服务。
单击创建。
单击关闭。
选择 提升后转至空间中的模型。
单击提升。
当模型显示在部署空间内时,单击 新建部署。
选择 联机 作为 部署类型。
指定部署名称。
单击创建。
部署完成后,单击部署名称以查看部署详细信息页面。
转至 测试 选项卡。 您可以通过两种方式从部署详细信息页面测试已部署模型:使用表单测试或使用 JSON 代码测试。
单击 JSON 输入,然后复制以下测试数据并将其粘贴以替换现有 JSON 文本:
{ "input_data": [ { "fields": [ "age", "bp", "sg", "al", "su", "rbc", "pc", "pcc", "ba", "bgr", "bu", "sc", "sod", "pot", "hemo", "pcv", "wbcc", "rbcc", "htn", "dm", "cad", "appet", "pe", "ane", "class" ], "values": [ [ "62", "80", "1.01", "2", "3", "normal", "normal", "notpresent", "notpresent", "423", "53", "1.8", "", "", "9.6", "31", "7500", "", "no", "yes", "no", "poor", "no", "yes", "ckd" ] ] } ] }
单击 预测 以预测 62 岁的糖尿病患者和血清肌酐比率 1.8 是否可能诊断为肾脏疾病。 由此产生的预测表明,此患者进行肾脏疾病诊断的概率很高。
检查您的进度
下图显示了具有预测的模型部署的 "测试" 选项卡。
后续步骤
现在,您可以使用此数据集开展进一步分析。 例如,您可以执行以下任务:
其他资源
查找更多 SPSS Modeler 教程
尝试以下其他方法来构建模型:
查看更多 视频
在资源中心查找示例数据集和笔记本,获取构建模型的实践经验
为SPSS Modeler社区做贡献
父主题: 快速入门教程