0 / 0
Go back to the English version of the documentation
“扩展”模型块
Last updated: 2024年10月07日
扩展模型块 (SPSS Modeler)

运行包含用于定义模型构建和模型评分的 R 脚本或 Python for Spark 脚本的“扩展模型”节点后,“扩展”模型块就会生成并放在流程画布上。

缺省情况下,“扩展”模型块包含用于模型评分的脚本、用于读取数据的选项,以及 R 控制台或 Python for Spark 的任何输出。 “扩展”模型块也可以选择性包含各种其他形式的模型输出,例如图形和文本输出。 生成“扩展”模型块并将其添加至流程画布之后,可以将一个输出节点与其连接。 然后,在流程中,可以通常的方式使用该输出节点,以获取有关数据和模型的信息,以及以各种格式导出数据。

“语法”选项卡

R 模型评分语法。 如果使用的是 R,那么用于模型评分的 R 脚本会显示在此字段中。 缺省情况下,此字段已启用,但不可编辑。 要编辑 Python 模型评分脚本,请单击编辑

Python模型评分语法 如果使用的是 Python for Spark,那么用于模型评分的 Python 脚本会显示在此字段中。 缺省情况下,此字段已启用,但不可编辑。 要编辑 Python 模型评分脚本,请单击编辑

单击编辑会使评分语法字段可编辑,您然后可以在评分语法字段中输入内容,以编辑模型评分脚本。 例如,在运行“扩展模型”节点以生成“扩展”模型块之后,如果您在模型评分脚本中发现错误,您可以编辑模型评分脚本。 如果通过再次运行“扩展模型”节点重新生成该模型,那么您对“扩展”模型块中的模型评分脚本所做的所有更改都会丢失。

“模型选项”选项卡

读取数据选项。 这些选项仅适用于 R,不适用于 Python for Spark。 利用这些选项,您可指定如何处理缺失值、标志字段以及具有日期或日期时间格式的变量。

  • 以批处理方式读取数据。 如果要处理大量数据(例如,这些数据太大,无法放入 R 引擎的内存中),请使用此选项将数据拆分为多个可以单独发送和处理的批次。 请指定要包括在每个批次中的最大数据记录数。

    对于“扩展变换”节点和“扩展”模型块,数据都是成批传递通过 R 脚本。 因此,在 Hadoop 或数据库环境中运行的模型评分脚本和流程节点脚本不应包括跨越或合并数据行的操作,例如排序或聚集。 实施这项限制是为确保可以在 Hadoop 环境中以及在数据库内挖掘期间拆分数据。 “扩展输出”和“扩展模型”节点没有此限制。

  • 转换标志字段。 指定处理标志字段的方式。 共有两个选项:字符串转换为因子,整数和实数转换为双精度数逻辑值(True 和 False)。 如果选择逻辑值(True 和 False),那么标志字段的原始值会丢失。 例如,如果字段的值为 MaleFemale,那么这些值会更改为 TrueFalse
  • 将缺失值转换为 R "不可用" 值 (NA)。 选中时,任何缺失值都将转换为 RNA值。 值NA由 R 用于标识缺失值。 您使用的某些 R 函数可能具有一个自变量,该自变量可以控制当数据包含时该函数的行为方式NA例如,该函数可能允许您选择自动排除包含以下内容的记录:NA。如果未选择此选项,那么会将任何缺失值未更改地传递给 R ,并且在 R 脚本运行时可能会导致错误。
  • 将日期/时间字段转换为具有特殊时区控制的 R 类。如果选中此选项,那么具有日期或日期时间格式的变量会转换为 R 日期/时间对象。 必须选择下列其中一个选项:
    • R POSIXct. 具有日期或日期时间格式的变量将转换为 RPOSIXct
    • R POSIXlt (列表)。 将具有日期或日期时间格式的变量转换为 RPOSIXlt
    注: POSIX 格式是高级选项。 仅当 R 脚本指定以需要这些格式的方式处理日期时间字段时,才使用这些选项。 POSIX 格式不适用于具有时间格式的变量。
针对数据库运行“扩展”模型块时,无法识别您为转换标志字段将缺失值转换为 R 中的“不可用”值 (NA)将日期/时间字段转换为具有特殊时区控制的 R 类控件选择的选项。 针对数据库运行该节点时,将会改用这些控件的缺省值:
  • 转换标志字段设置为字符串转换为因子,整数和实数转换为双精度数
  • 将缺失值转换为 R 中的“不可用”值 (NA) 已选中
  • 将日期/时间字段转换为具有特殊时区控制的 R 类 未选中

“控制台输出”选项卡

控制台输出选项卡包含语法选项卡上的 R 脚本或 Python for Spark 脚本运行时收到的任何输出(例如,如果使用的是 R 脚本,那么该选项卡会显示运行“扩展”模型块的语法选项卡上 R 模型评分语法字段中的 R 脚本时从 R 控制台收到的输出。 该输出包括运行 R 或 Python 脚本时生成的任何 R 或 Python 错误消息或警告,以及来自 R 控制台的任何文本输出。 该输出主要用于调试脚本。

每次运行模型评分脚本时,从 R 控制台或 Python for Spark 收到的输出都会覆盖控制台输出选项卡的内容。 控制台输出不可编辑。

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more