0 / 0
Go back to the English version of the documentation
减少输入数据字符串长度
Last updated: 2024年12月11日
减少输入数据字符串长度

本教程举例说明何时需要缩短输入数据字符串的长度。 对于二项 logistic 回归模型和包含二项 logistic 回归模型的自动分类器模型,字符串字段被限制为最多不得超过八个字符。 如果字符串超过 8 个字符,可以使用重新分类节点对其重新编码。

本示例以流程的一小部分为重点,展示了过长字符串可能产生的错误类型,并说明了如何使用重新分类节点将字符串细节更改为可接受的长度。 虽然示例使用的是二叉Logistic 回归节点,但您也可以使用自动分类器节点生成二叉 Logistic 回归模型。

试用教程

在本教程中,您将完成这些任务:

建模流程和数据集样本

本教程使用示例项目中的减少输入数据字符串长度流程。 使用的数据文件是drug_long_name.csv。 下图显示了建模流程示例。

图 1。 样品建模流程
显示二项 Logistic 回归的字符串重新分类的示例流
下图显示了样本数据集。
图 2。 样本数据集
样本数据集

任务 1:打开示例项目

示例项目包含多个数据集和示例建模流程。 如果还没有示例项目,请参阅教程主题创建示例项目。 然后按照以下步骤打开示例项目:

  1. Cloud Pak for Data 中,从导航菜单"导航菜单,选择项目 > 查看所有项目
  2. 单击SPSS ModelerProject
  3. 单击 "资产"选项卡,查看数据集和建模流程。

检查点图标检查您的进度

下图显示了 "项目资产 "选项卡。 现在您可以使用与本教程相关的示例建模流程了。

样本项目

返回到顶部

任务 2:检查数据资产和类型节点

减少输入数据字符串长度包括几个节点。 按照以下步骤检查数据资产类型节点:

  1. 从 "资产"选项卡中,打开 "减少输入数据字符串长度"建模流程,等待画布加载。
  2. 双击drug_long_name.csv节点。 该节点是一个数据资产节点,指向项目中的drug_long_name.csv文件。
  3. 查看文件格式属性
  4. 可选:单击 "预览数据"查看完整数据集。
  5. 双击数据资产节点后的类型节点。 该节点指定字段属性,如测量级别(字段包含的数据类型),以及每个字段在建模中作为目标或输入的作用。 测量级别是指示字段中数据的类型的类别。 源数据文件使用三种不同的测量级别:
    • 连续字段(如 "Age字段)包含连续的数值。
    • 标称字段(如 "Drug字段)有两个或多个不同的值;在本例中为 "drugA或 "drugB"。
    • 标志字段(如 "Sex字段)描述的数据有多个不同的值,这些值有固有的顺序;在本例中为 "F和 "M"。
    图 3。 type 节点属性
    类型节点

    对于每个字段,"类型"节点还指定了一个角色,以表明每个字段在建模中的作用。 字段 "Cholesterol_long角色设置为 "目标",该字段表示客户的胆固醇水平是正常还是偏高。 目标是要预测值的字段。

    其他字段的角色设置为输入。 输入字段有时也称为预测变量,或者是建模算法要使用其值来预测目标字段值的字段。

  6. 可选:单击 "预览数据"查看过滤后的数据集。

检查点图标检查您的进度

下图显示了类型节点。 现在您可以查看Logistic节点了。

类型节点

返回到顶部

任务 3:价值重新分类

在此任务中,您运行模型后发现了一个错误,请按照以下步骤重新分类数值以避免错误:

  1. 从调板的建模部分,将逻辑节点拖到画布上,并将其连接到数据资产节点之后的现有类型节点。
  2. 双击Cholesterol_long节点查看其属性。
  3. 选择二叉过程(而不是默认的多叉过程)。
    • 当目标字段是具有两个离散值的标志字段或名义字段时,就会使用二项式模型。
    • 当目标字段是一个有两个以上值的名义字段时,就会使用多项式模型。
  4. 单击保存
  5. 将鼠标悬停在Cholesterol_long节点上,然后单击运行图标 "运行图标。 错误消息将警告您,Cholesterol_long 字符串值太长。 您可以使用重新分类节点转换数值来解决这个问题。 重新分类节点可用于折叠类别或重新分组数据以进行分析。
    图 4: 通知
    错误消息
  6. 双击胆固醇(重新分类)节点,查看其属性。 请注意,"重新分类字段"设置为 "Cholesterol_long,而 "新字段名"为 "Cholesterol"。
  7. 单击获取值,然后展开自动重新分类部分。 将 "Cholesterol_long值添加到原始值列。
  8. 在新值列中,为 "胆固醇含量高的原始值键入 "High,为 "胆固醇水平正常"的原始值键入 "Normal。 这些设置缩短了数值,以避免出现错误信息。

检查点图标检查您的进度

下图显示了重新分类节点。 现在您可以检查过滤器节点了。

reclassify 节点属性

返回到顶部

任务 4:检查过滤器节点

请按照以下步骤查看和检查筛选器节点:

  1. 双击过滤器节点,查看其属性。
  2. 请注意,该节点过滤掉了 "Cholesterol_long字段。

检查点图标检查您的进度

下图显示了过滤器节点。 现在您可以定义目标了。

filter 节点属性

返回到顶部

任务 5:确定目标

您可以在类型节点中指定字段属性。 按照以下步骤在类型节点中定义目标:

  1. 双击过滤器节点后的类型节点,查看其属性。
  2. 单击 "读取数值"从数据源读取数值,并设置字段测量类型。 角色告诉建模节点,字段是机器学习流程的输入(预测字段)还是目标(预测字段)。 既有也是可用的角色,还有 "分区"(Partition),它表示一个字段,用于将记录划分为单独的样本,以进行训练、测试和验证。 值Split指定为字段的每个可能值建立单独的模型。
  3. 对于胆固醇字段,将作用设置为目标
  4. 单击保存

检查点图标检查您的进度

下图显示了类型节点。 现在就可以生成模型了。

类型节点目标

返回到顶部

任务 6:生成模型

请按照以下步骤以表格格式查看模型输出:

  1. 将鼠标悬停在胆固醇(逻辑)节点上,然后单击运行图标 "运行图标
  2. 从调板的 "输出"部分,将 ""节点拖到画布上,并将其连接到模型金块。
  3. 将鼠标悬停在与胆固醇模型相连的节点上,然后点击运行图标 "运行图标
  4. 在 "输出和模型"窗格中,单击名称为 ""的输出结果以查看表输出。

检查点图标检查您的进度

下图显示了模型的输出结果。

模型输出

返回到顶部

目录

该示例向您展示了过长字符串可能产生的错误类型,并解释了如何使用重新分类节点将字符串细节更改为可接受的长度。 虽然该示例使用的是二叉Logistic 回归节点,但同样适用于使用自动分类器节点生成二叉 Logistic 回归模型。

后续步骤

现在您可以尝试其他SPSS® Modeler教程了

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more