“模拟拟合”节点将一组候选统计分布拟合到数据中的每个字段。 每个分布到字段的拟合将通过拟合度标准进行评估。 运行“模拟拟合”节点时,将构建一个“模拟生成”节点(或更新现有节点)。 将为每个字段分配其最佳拟合分布。 然后,可以使用“模拟生成”节点为每个字段生成模拟数据。
虽然“模拟拟合”节点是一个终端节点,但它不会向“输出”面板添加输出或导出数据。
使用“模拟拟合”节点自动创建“模拟生成”节点
首次运行“模拟拟合”节点时,将使用指向“模拟拟合”节点的更新链接生成一个“模拟生成”节点。 再次运行“模拟拟合”节点时,只有在已移除更新链接的情况下才会生成新的“模拟生成”节点。 您还可以使用“模拟拟合”节点来更新已连接的“模拟生成”节点。 结果取决于是否在这两个节点中存在相同的字段,以及是否在“模拟生成”节点中解锁了这些字段。 有关更多信息,请参阅 Sim Gen 节点 。
“模拟拟合”节点只能具有一个指向“模拟生成”节点的更新链接。 要定义指向“模拟生成”节点的更新链接,请完成下列步骤:
- 右键单击“模拟拟合”节点并选择定义更新链接。
- 单击要定义的更新链接所指向的“模拟生成”节点。
要移除“模拟拟合”节点与“模拟生成”节点之间的更新链接,请右键单击该更新链接,然后选择移除链接。
分布拟合
统计分布是某个变量可以使用的值的理论出现频率。 在“模拟拟合”节点中,会将一组理论统计分布与每个数据字段进行比较。 将调整理论分布的参数,以便根据拟合优度的度量 ( Anderson-Darling 标准或 Kolmogorov-Smirnov 标准) 为数据提供最佳拟合度。 通过“模拟拟合”节点实现的分布拟合的结果显示拟合了哪些分布、每个分布的最佳参数估算以及每个分布与数据的拟合度。 分布拟合期间,还可以计算具有数字存储类型的字段之间的相关性,以及具有分类分布的字段之间的偶然性。 分布拟合的结果将用于创建“模拟生成”节点。
- 使用上游节点以移除包含缺失值的记录
- 使用上游节点针对缺失值对值进行插补。
拟合分布时,将不会考虑字段的角色。 例如,角色为目标的字段的处理方式与角色为输入、无、两者、分区、分割、频率和标识的字段相同。
分布拟合期间,将根据字段的存储类型和测量级别以不同方式对这些字段进行处理。 下表描述了分布拟合期间的字段处理。
存储类型 | 测量级别 | |||||
---|---|---|---|---|---|---|
连续 | 分类 | 标志 | 名义 | 有序 | 无类型 | |
字符串 | 不可能 | 对分类分布、骰子分布和固定分布进行拟合 | ||||
整数 | ||||||
实数 | ||||||
时间 | 对所有分布进行拟合。 将计算相关性和偶然性。 | 对分类分布进行拟合。 不计算相关性。 | 对二项式分布、负二项式分布和泊松分布进行拟合,并计算相关性。 | 将忽略字段,并且不会将字段传递到“模拟生成”节点。 | ||
日期 | ||||||
时间戳记 | ||||||
未知 | 根据数据确定相应的存储类型。 |
对于测量级别为有序的字段,其处理方式类似于连续字段,并且它们包含在“模拟生成”节点中的相关表内。 如果您要将二项式分布、负二项式分布或泊松分布以外的分布拟合到有序字段,那么必须将字段的测量级别更改为连续。 如果您先前为有序字段的每个值定义了标签,并且随后将测量级别更改为连续,那么这些标签将丢失。
在分布拟合到具有多个值的字段时,将以相同方式处理具有单个值的字段。 具有存储类型时间、日期或时间戳记的字段将作为数字进行处理。
将分布拟合到分割字段
如果您的数据包含分割字段,并且您希望对每个分割单独执行分布拟合,那么必须使用上游“重构”节点来变换数据。 使用“重构”节点可以为分割字段的每个值生成一个新字段。 随后,可以将此重构数据用于“模拟拟合”节点中的分布拟合。