0 / 0
Go back to the English version of the documentation
“模拟拟合”节点
Last updated: 2024年7月05日
Sim Fit 节点 (SPSS Modeler)

“模拟拟合”节点将一组候选统计分布拟合到数据中的每个字段。 每个分布到字段的拟合将通过拟合度标准进行评估。 运行“模拟拟合”节点时,将构建一个“模拟生成”节点(或更新现有节点)。 将为每个字段分配其最佳拟合分布。 然后,可以使用“模拟生成”节点为每个字段生成模拟数据。

虽然“模拟拟合”节点是一个终端节点,但它不会向“输出”面板添加输出或导出数据。

注: 如果历史数据稀疏 (即,有许多缺失值) ,那么拟合组件可能难以找到足够的有效值来拟合数据的分布。 对于数据较为稀疏的情况,您应该先移除不需要的稀疏字段或插补缺失值,然后再进行拟合。 通过使用“数据审核”节点的质量选项,您可以查看完整记录数、识别稀疏字段并选择插补方法。 如果用于分布拟合的记录数不足,那么可以使用“平衡”节点来增加记录数。

使用“模拟拟合”节点自动创建“模拟生成”节点

首次运行“模拟拟合”节点时,将使用指向“模拟拟合”节点的更新链接生成一个“模拟生成”节点。 再次运行“模拟拟合”节点时,只有在已移除更新链接的情况下才会生成新的“模拟生成”节点。 您还可以使用“模拟拟合”节点来更新已连接的“模拟生成”节点。 结果取决于是否在这两个节点中存在相同的字段,以及是否在“模拟生成”节点中解锁了这些字段。 有关更多信息,请参阅 Sim Gen 节点

“模拟拟合”节点只能具有一个指向“模拟生成”节点的更新链接。 要定义指向“模拟生成”节点的更新链接,请完成下列步骤:

  1. 右键单击“模拟拟合”节点并选择定义更新链接
  2. 单击要定义的更新链接所指向的“模拟生成”节点。

要移除“模拟拟合”节点与“模拟生成”节点之间的更新链接,请右键单击该更新链接,然后选择移除链接

分布拟合

统计分布是某个变量可以使用的值的理论出现频率。 在“模拟拟合”节点中,会将一组理论统计分布与每个数据字段进行比较。 将调整理论分布的参数,以便根据拟合优度的度量 ( Anderson-Darling 标准或 Kolmogorov-Smirnov 标准) 为数据提供最佳拟合度。 通过“模拟拟合”节点实现的分布拟合的结果显示拟合了哪些分布、每个分布的最佳参数估算以及每个分布与数据的拟合度。 分布拟合期间,还可以计算具有数字存储类型的字段之间的相关性,以及具有分类分布的字段之间的偶然性。 分布拟合的结果将用于创建“模拟生成”节点。

将任何分布与数据进行拟合之前,会在前 1000 条记录中查找缺失值。 如果缺失值过多,那么无法进行分布拟合。 在这种情况下,您必须确定以下某个选项是否适用:
  • 使用上游节点以移除包含缺失值的记录
  • 使用上游节点针对缺失值对值进行插补。
分布拟合未排除用户缺失值。 如果您的数据包含用户缺失值,并且您希望从分布拟合中排除这些值,那么应该将这些值设置为系统缺失值。

拟合分布时,将不会考虑字段的角色。 例如,角色为目标的字段的处理方式与角色为输入两者分区分割频率标识的字段相同。

分布拟合期间,将根据字段的存储类型和测量级别以不同方式对这些字段进行处理。 下表描述了分布拟合期间的字段处理。

表 1. 根据字段的存储类型和测量级别进行的分布拟合
存储类型     测量级别      
  连续 分类 标志 名义 有序 无类型
字符串 不可能   对分类分布、骰子分布和固定分布进行拟合      
整数          
实数          
时间 对所有分布进行拟合。 将计算相关性和偶然性。 对分类分布进行拟合。 不计算相关性。   对二项式分布、负二项式分布和泊松分布进行拟合,并计算相关性。 将忽略字段,并且不会将字段传递到“模拟生成”节点。
日期          
时间戳记          
未知   根据数据确定相应的存储类型。    

对于测量级别为有序的字段,其处理方式类似于连续字段,并且它们包含在“模拟生成”节点中的相关表内。 如果您要将二项式分布、负二项式分布或泊松分布以外的分布拟合到有序字段,那么必须将字段的测量级别更改为连续。 如果您先前为有序字段的每个值定义了标签,并且随后将测量级别更改为连续,那么这些标签将丢失。

在分布拟合到具有多个值的字段时,将以相同方式处理具有单个值的字段。 具有存储类型时间、日期或时间戳记的字段将作为数字进行处理。

将分布拟合到分割字段

如果您的数据包含分割字段,并且您希望对每个分割单独执行分布拟合,那么必须使用上游“重构”节点来变换数据。 使用“重构”节点可以为分割字段的每个值生成一个新字段。 随后,可以将此重构数据用于“模拟拟合”节点中的分布拟合。

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more