Go back to the English version of the documentation设置流程的属性
设置 SPSS Modeler 流的属性
Last updated: 2024年12月20日
您可以指定要应用于当前流的属性。
要设置流属性,请单击 流属性 图标 。
您可以配置以下属性。
选项
- 总则
- 要在数据预览中显示的最大行数
- 预览节点的数据时,可以指定要显示的行数。
- 限制名义字段的成员数
- 当成员数超过您在 最大成员数中设置的最大成员数时,名义 (集) 字段的数据类型将变为 无类型 。 当您使用大型名义字段时,此选项很有用。 当字段的测量级别设置为 无类型时,其角色将自动设置为 无。 设置为 无 的字段不可用于建模。
- 日期/时间
- 导入日期/时间/时间戳记作为
- 选择是使用日期和时间格式在日期和时间字段中存储数据,还是将其作为字符串变量导入。
- 在时间戳记字段中使用微秒
- 如果您具有以微秒为单位度量的时间戳记数据,那么可以启用此选项以在流中使用更精确的数据。 要启用此选项,请对 导入日期/时间/时间戳记作为 设置选中此复选框和 字符串 。注意: 此选项仅适用于支持 SQL 回推的连接器。
- 日期格式
- 选择日期存储字段要使用的日期格式或 CLEM 日期函数将字符串解析为日期时使用的日期格式。
- 时间格式
- 选择时间存储字段要使用的时间格式或 CLEM 时间函数将字符串解析为时间时使用的时间格式。
- 回滚天数/分钟数
- 对于时间格式,请选择是否将负数时差解释为引用前一天或前一小时。
- 日期基线(一月一日)
- 选择处理单个日期的 CLEM 日期函数所要使用的基线年份(一月 1 日始终不变)。
- 两位日期开始于
- 指定分界年份,以便对仅以两位数表示的年份添加世纪位。 例如,指定 1930 作为分界年份后,就会假定 05/11/02 在 2002 年。 同一设置会将 20 世纪用于 30 之后的日期,因此假设 05/11/73 在 1973 年。
- 时区
- 选择如何选择要用于
datetime_now
CLEM 表达式的时区。- 如果选择 服务器,那么将从运行 SPSS Modeler 运行时的位置使用时区 (有时此时间与 客户机 选项相同)。 或者,如果流使用来自数据库的数据,并且受支持的数据库使用 SQL 回送,那么
datetime_now
表达式将使用数据库的时间。 - 如果选择客户机,那么将使用 SPSS Modeler 安装所在机器的时区。
- 或者,可以为时区选择任何全球标准时间值。
- 如果选择 服务器,那么将从运行 SPSS Modeler 运行时的位置使用时区 (有时此时间与 客户机 选项相同)。 或者,如果流使用来自数据库的数据,并且受支持的数据库使用 SQL 回送,那么
- 数字格式
- 您可以指定 SPSS Modeler 以标准,科学或货币显示格式显示实数时要使用的小数位数。
- 优化
- 您可使用这些设置来优化流程性能。
- 启用流程重写
- 流程重写在后台重新排列流程中的节点以改善操作效率,而不改变流程语义。
- 优化 CLEM 表达式
- 此选项使优化器能够在流运行之前搜索可预处理的 CLEM 表达式,以提高处理速度。 例如,如果您有
log(salary)
之类的表达式,那么优化器将计算实际工资值并传递该值以进行处理。 此选项可用于提高 SQL 回送和 SPSS Modeler 性能。 - 优化语法执行
- 此流重写方法可提高具有多个包含 SPSS Statistics 语法的节点的操作效率。 优化是通过将多个语法命令组合成单一操作来实现,而不是将每个语法命令作为单独的操作来运行。
- 优化其他执行
- 对于无法委派给数据库执行的操作,这种流程重写方法可以提高操作效率。 优化是通过尽量减少流程中的数据量来实现。 将重写流以将操作推送到更靠近数据源的地方,同时保持数据完整性。 此更改会减少下游的数据,以便执行成本高昂的操作 (例如,连接)。
- 启用并行处理
- 当在具有多个处理器的计算机上运行时,此选项允许系统在这些处理器之间均衡负载,这会导致更快的性能。 使用多个节点或使用以下单个节点可受益于并行处理: C5.0,合并 (按键) ,排序,分级 (列组和平铺方法) 和聚集 (使用一个或多个关键字段)。
- 生成 SQL
- 此选项将 SQL 处理推回到数据库。 打开或关闭此选项仅影响您创建的新流。 无法切换现有流的设置。 有关将此选项与流配合使用的更多信息,请参阅 SQL 优化。
- 数据库高速缓存 (仅限 SQL)。 对于生成要在数据库中运行的 SQL 的流程,可以在流程中间将数据缓存到数据库中的临时表,而不是缓存到文件系统。 与 SQL 优化结合使用时,此选项可显着提高性能。 例如,可以将合并多个表以创建数据挖掘视图的流程的输出缓存,然后在需要时复用。 启用数据库高速缓存后,将鼠标悬停在流中的任何非终端节点上,然后单击溢出菜单 ,然后选择 。 现在,数据将在此节点进行高速缓存,并且在下次流运行时将自动在数据库中直接创建高速缓存。 这允许生成下游节点的 SQL,从而进一步改善性能。 或者,如有需要,可以禁用此选项,例如在策略或许可权阻止将数据写入数据库时禁用此选项。 如果未启用数据库高速缓存或 SQL 优化,那么会改为将高速缓存写入文件系统。
- 使用松弛转换 (仅限 SQL)。 此选项允许将数据从字符串转换为数字,或将数字转换为字符串(如果以适当的格式存储)。 例如,如果数据以字符串形式保存在数据库中,但实际上包含有意义的数字,那么可以转换数据,以便在回推发生时使用。
- 此选项将 SQL 处理推回到数据库。 打开或关闭此选项仅影响您创建的新流。 无法切换现有流的设置。 有关将此选项与流配合使用的更多信息,请参阅 SQL 优化。
- 日志记录
- 运行时在消息日志中显示 SQL
- 指定是否将运行流程时生成的 SQL 传递到消息日志中。
- 在准备期间在消息日志中显示 SQL 生成
- 指定在流程预览期间,是否将生成的 SQL 预览传递到消息日志。
- SQL 格式
- 指定日志中显示的任何 SQL 是否应包含由 SPSS Modeler生成的格式为
{fn FUNC(…)}
的本机 SQL 函数或标准 ODBC 函数。 前者依赖于可能未实现的 ODBC 驱动程序功能。 - 重置 SQL 格式以提高可读性
- 指定是否应重新编排日志中显示的 SQL 以提高可读性。
- 显示记录状态
- 指定在记录到达终端节点后,报告记录的时间。 指定要用于每 N 条记录更新状态的数字。
参数
参数是用户定义的变量,通过当前流或 SuperNode保存并持久存储。 参数通常用于脚本编制以控制脚本的行为,并且还可以从用户界面访问这些参数。您可以定义参数,以用于 CLEM 表达式以及脚本编制。 流属性中定义的参数可供流中的所有节点使用。 为 SuperNode 设置的参数在 SuperNode外部不可用。 如果保存流,那么还会保存为该流设置的任何参数。
有关参数的更多信息,请参阅 流和 SuperNode 参数。
单击 添加值 并输入新参数的以下信息:
- 名称
- 此名称就是在表达式中引用参数的方式。 例如,要为最低温度创建参数,可以输入 minvalue。
在 CLEM 表达式中使用参数时,这些参数将放在单引号内,例如
'$P-minvalue'
。 请勿输入$P-
前缀。 它表示 CLEM 表达式中的参数。 - 标签
- 列出每个已创建的参数的描述性名称。
- 存储器
- 存储指出在参数中存储数据值的方式。 例如,如果值具有要保留的前导零 (例如
008
) ,请选择 字符串 作为存储类型。 否则,将从值中除去零。 - 值
- 列出每个参数的当前值,您可以根据需要进行更改。 必须以 ISO 标准表示法 (YYYY-MM-DD) 指定日期参数的值。
- 度量
- 请选择测量级别,以用来描述参数的特征。 您可以更改此值以反映您打算使用该参数的方式。 例如, 无类型 指示参数可以具有与其存储器兼容的任何值。
- 是否提示?
- 如果要提示用户在启动运行时为此参数输入值,请选择此选项。 您可以使用此选项,在此选项中,您可能需要在不同场合为同一参数输入不同的值。
全局
在流属性的 全局值 选项卡中,可以查看为当前流设置的全局值。 将使用 设置全局量 节点来创建全局值,以确定所选字段的统计信息,例如平均值,总和或标准差。
设置全局量 节点运行后,这些值可用于流操作中的各种用途。
您无法在流属性中的表中编辑全局值,但可以清除流的所有全局值。
注释
如果需要向组织中的其他人描述流,那么可以向流,节点和模型块附加说明注释。 然后,其他人可以在屏幕上查看这些评论,甚至可以打印包含您的评论的流图像。
使用流属性的 注释 选项卡向流添加文本注释。 仅当 注释 选项卡处于打开状态时,这些注释才可视,但流注释也可以显示为屏幕上的注释。