本教程举例说明何时需要缩短输入数据字符串的长度。 对于二项 logistic 回归模型和包含二项 logistic 回归模型的自动分类器模型,字符串字段被限制为最多不得超过八个字符。 如果字符串超过 8 个字符,可以使用重新分类节点对其重新编码。
本示例以流程的一小部分为重点,展示了过长字符串可能产生的错误类型,并说明了如何使用重新分类节点将字符串细节更改为可接受的长度。 虽然示例使用的是二叉Logistic 回归节点,但您也可以使用自动分类器节点生成二叉 Logistic 回归模型。
试用教程
在本教程中,您将完成这些任务:
建模流程和数据集样本
本教程使用示例项目中的减少输入数据字符串长度流程。 使用的数据文件是drug_long_name.csv。 下图显示了建模流程示例。
任务 1:打开示例项目
任务 2:检查数据资产和类型节点
减少输入数据字符串长度包括几个节点。 按照以下步骤检查数据资产和类型节点:
- 从 "资产"选项卡中,打开 "减少输入数据字符串长度"建模流程,等待画布加载。
- 双击drug_long_name.csv节点。 该节点是一个数据资产节点,指向项目中的drug_long_name.csv文件。
- 查看文件格式属性。
- 可选:单击 "预览数据"查看完整数据集。
- 双击数据资产节点后的类型节点。 该节点指定字段属性,如测量级别(字段包含的数据类型),以及每个字段在建模中作为目标或输入的作用。 测量级别是指示字段中数据的类型的类别。 源数据文件使用三种不同的测量级别:
- 连续字段(如 "
Age
字段)包含连续的数值。 - 标称字段(如 "
Drug
字段)有两个或多个不同的值;在本例中为 "drugA
或 "drugB
"。 - 标志字段(如 "
Sex
字段)描述的数据有多个不同的值,这些值有固有的顺序;在本例中为 "F
和 "M
"。
对于每个字段,"类型"节点还指定了一个角色,以表明每个字段在建模中的作用。 字段 "
Cholesterol_long
的角色设置为 "目标",该字段表示客户的胆固醇水平是正常还是偏高。 目标是要预测值的字段。其他字段的角色设置为输入。 输入字段有时也称为预测变量,或者是建模算法要使用其值来预测目标字段值的字段。
- 连续字段(如 "
- 可选:单击 "预览数据"查看过滤后的数据集。
检查您的进度
下图显示了类型节点。 现在您可以查看Logistic节点了。
任务 3:价值重新分类
在此任务中,您运行模型后发现了一个错误,请按照以下步骤重新分类数值以避免错误:
- 从调板的建模部分,将逻辑节点拖到画布上,并将其连接到数据资产节点之后的现有类型节点。
- 双击Cholesterol_long节点查看其属性。
- 选择二叉过程(而不是默认的多叉过程)。
- 当目标字段是具有两个离散值的标志字段或名义字段时,就会使用二项式模型。
- 当目标字段是一个有两个以上值的名义字段时,就会使用多项式模型。
- 单击保存。
- 将鼠标悬停在Cholesterol_long节点上,然后单击运行图标 "。 错误消息将警告您,
Cholesterol_long
字符串值太长。 您可以使用重新分类节点转换数值来解决这个问题。 重新分类节点可用于折叠类别或重新分组数据以进行分析。 - 双击胆固醇(重新分类)节点,查看其属性。 请注意,"重新分类字段"设置为 "
Cholesterol_long
,而 "新字段名"为 "Cholesterol
"。 - 单击获取值,然后展开自动重新分类部分。 将 "
Cholesterol_long
值添加到原始值列。 - 在新值列中,为 "胆固醇含量高的原始值键入 "
High
,为 "胆固醇水平正常"的原始值键入 "Normal
。 这些设置缩短了数值,以避免出现错误信息。
检查您的进度
下图显示了重新分类节点。 现在您可以检查过滤器节点了。
任务 4:检查过滤器节点
请按照以下步骤查看和检查筛选器节点:
- 双击过滤器节点,查看其属性。
- 请注意,该节点过滤掉了 "
Cholesterol_long
字段。
检查您的进度
下图显示了过滤器节点。 现在您可以定义目标了。
任务 5:确定目标
您可以在类型节点中指定字段属性。 按照以下步骤在类型节点中定义目标:
- 双击过滤器节点后的类型节点,查看其属性。
- 单击 "读取数值"从数据源读取数值,并设置字段测量类型。 角色告诉建模节点,字段是机器学习流程的输入(预测字段)还是目标(预测字段)。 既有和无也是可用的角色,还有 "分区"(Partition),它表示一个字段,用于将记录划分为单独的样本,以进行训练、测试和验证。 值Split指定为字段的每个可能值建立单独的模型。
- 对于胆固醇字段,将作用设置为目标。
- 单击保存。
检查您的进度
下图显示了类型节点。 现在就可以生成模型了。
任务 6:生成模型
请按照以下步骤以表格格式查看模型输出:
- 将鼠标悬停在胆固醇(逻辑)节点上,然后单击运行图标 "。
- 从调板的 "输出"部分,将 "表"节点拖到画布上,并将其连接到模型金块。
- 将鼠标悬停在与胆固醇模型相连的表节点上,然后点击运行图标 "。
- 在 "输出和模型"窗格中,单击名称为 "表"的输出结果以查看表输出。
检查您的进度
下图显示了模型的输出结果。
目录
该示例向您展示了过长字符串可能产生的错误类型,并解释了如何使用重新分类节点将字符串细节更改为可接受的长度。 虽然该示例使用的是二叉Logistic 回归节点,但同样适用于使用自动分类器节点生成二叉 Logistic 回归模型。
后续步骤
现在您可以尝试其他SPSS® Modeler教程了。