IBM Match 360 with Watson 包含数据工程师用户可用于调整和定制匹配算法的工具。 通过调整算法,您可以控制 IBM Match 360 匹配数据以创建主数据实体的方式。
- 所需许可权
- 要配置主数据实例,您必须是 IBM Match 360 服务的 DataEngineer 用户组的成员。
配置和调整算法有四个关键部分:
选择匹配的属性。 通过选择在匹配过程中进行比较的数据模型属性,您可以告知 IBM Match 360 with Watson 算法应重点考虑哪些数据点。 选择具有强差异化特征的属性很重要。 唯一标识(例如驱动程序许可证号)是绝佳的匹配属性。 在第一次运行匹配之前,必须选择匹配的属性。
请求并完成对复审。 请求对复审以生成智能调整建议,从而优化匹配算法的权重和匹配阈值。 在对复审期间,数据管理者会比较记录对,以确定它们是匹配,可能是匹配还是不匹配。 数据专员的回答为生成的调整建议提供了参考。
应用调整建议。 完成对复审任务后,数据工程师可以决定是否应用调整建议。
定义自动链接和文书复审阈值。 如果您接受来自对复审的调整建议,那么将自动确定自动链接阈值和文书阈值,但如果需要,您始终可以手动覆盖阈值。 IBM Match 360 完成的每个记录到记录匹配比较都会生成匹配分数。 此分数可以作为从 0 到 100 的百分比值,其中 0 是明确的不匹配项, 100 是明确的匹配项。 作为配置匹配算法的一部分,数据工程师可以定义两个阈值:
autolink 阈值 定义算法的最小匹配分数,以在任何两个记录之间进行自动匹配决策。
- 如果自动链接阈值较低,那么您将具有更多总体匹配项,并且可能具有更多假正匹配项。
- 如果自动链接阈值很高,那么您将具有更少的总体匹配项和更多的单项实体 (仅由单个成员记录组成) ,并且可能具有更多的假负非匹配项。
文书复审阈值 定义潜在匹配的最小匹配分数。 低于文书复审阈值的分数被视为不匹配。 在文书复审阈值和自动链接阈值之间的范围内的评分可以通过潜在匹配工作流程发送,以便由数据管理者用户进行补救。
匹配算法阈值 重要信息: 如果未在匹配设置中启用文书范围,那么潜在的匹配工作流程无法生成任何任务。 有关潜在匹配工作流程的信息,请参阅 [配置主数据工作流程] (https:m360-config-workflow.html)。
有关使用 IBM Match 360 REST API 的高级算法调整过程的信息,请参阅 高级匹配算法调整。
在本主题中:
准备调整匹配算法
如果您尚未对数据运行匹配,那么必须先选择匹配属性,然后再运行匹配。 如果需要,稍后可以更改您的选择。
在至少运行一次匹配之后,才能更改自动链接阈值敏感度或请求对复审。 此限制可确保您具有一定的比较基础,用于从缺省敏感度更改阈值。 例如,如果您注意到数据中的假正匹配过多,那么可以提高敏感度。 如果单项记录过多,那么可以降低敏感度。
在修改匹配算法设置之前,请考虑创建新的配置快照以保存当前设置。 如果您对更改结果感到不满,那么拥有快照将使以后更容易还原到先前的配置。 有关创建快照的信息,请参阅 使用快照保存和装入主数据配置设置。
选择匹配属性
要选择 IBM Match 360 在匹配算法中使用的属性,请执行以下操作:
从主数据导航菜单中,单击匹配设置"
。
选择要调整其匹配算法的实体类型。
转至 匹配设置 选项卡,并在侧边栏中选择 属性选择 ,以选择要在匹配数据中使用的属性。 您首次转至此选项卡时,IBM Match 360 会根据数据模型自动生成一些建议的属性以用于匹配。
查看匹配属性及其组件字段的列表。 这些属性和字段将用作比较的基础,以匹配记录并创建主数据实体。 要在列表中添加或除去属性,请单击 编辑属性 ,然后根据需要选择或清除属性及其组件字段。
选择匹配属性时,请使用匹配强度指示器来查看更改对匹配算法的影响程度的估算。
如果已将任何定制属性添加到数据模型,那么缺省情况下不会选择这些属性以进行匹配。 如果要在匹配中使用定制属性类型,那么必须选择该属性类型,然后指定要考虑其哪些字段。 如果未指定任何字段,那么匹配的算法无法使用该属性。
对于非定制 (预定义) 属性类型,如果未指定要考虑的字段,那么匹配算法将使用缺省字段集。
当您对匹配的属性更改感到满意时,请单击 保存。
根据更新后的设置重新生成匹配的实体。 点击操作栏中的运行匹配图标 "
。
匹配过程需要一段时间才能完成。 此过程会在后台运行,因此您可以继续工作。 完成时将通知您,然后您可以在 匹配结果 选项卡上查看结果的详细信息。
请求对复审和应用调整建议
使用对复审来调整匹配算法。 每个组织都对虚假匹配具有不同级别的风险容忍度,对复审可帮助确定适合您的匹配设置。
数据工程师可以请求数据管理员完成对复审,然后决定是否接受生成的调整建议。
要请求对复审:
从主数据导航菜单中,单击匹配设置"
。
选择要调整其匹配算法的实体类型。
在侧边栏中选择 算法调整 以访问算法调整工具。
在 " 对复审 " 部分中,单击 请求对复审。
选择应在此任务中复审的记录对数。 复审更多对将产生更好的调整建议。 如果复审的对太少,那么 IBM Match 360 将无法生成建议。
注: 实际生成的对数可能与此步骤中定义的数字不匹配。 生成的记录对数取决于系统中的可用数据量和其他因素。单击 发送请求。
IBM Match 360 开始生成记录对并创建对复审任务。 算法调整 部分使您能够通知您复审的状态 (生成对 或 正在进行复审) ,并且还会跟踪当前复审任务的进度。
有关以数据管理员用户身份完成对复审任务的信息,请参阅 完成对复审。
要复审并应用由对复审生成的调整建议,请执行以下操作:
从主数据导航菜单中,单击匹配设置"
。
选择要调整其匹配算法的实体类型。
在侧边栏中选择 算法调整 以访问算法调整工具。
在 对复审 部分中,复审最新对复审任务的进度。 您可以查看已复审的对总数以及确定为匹配,不匹配或不确定匹配的对数。
在 阈值 部分中,查看当前匹配算法设置以及当前误报率和误报率的估计值。
如果完成的对复审太少,或者尚未运行匹配,那么无法显示误报率和误报率。
展开 阈值建议 部分。
查看对匹配算法设置的建议更新。 根据已复审的对,建议表示具有最低误报率和误报率的阈值。
如果要使用建议的设置,请单击 应用建议。 应用建议将更改自动链接敏感度以及每个属性的关联匹配权重。
根据更新后的设置重新生成匹配的实体。 转到匹配结果选项卡,然后单击操作栏中的运行匹配图标 "
。
匹配过程需要一段时间才能完成。 此过程会在后台运行,因此您可以继续工作。 完成时将通知您,然后您可以在 匹配结果 选项卡上查看结果的详细信息。
手动更改自动链接和文书复审阈值
如果不使用对复审来生成建议,那么查找适合您需求的正确自动和文书复审敏感度可能需要一些试错。 根据组织的特定需求,您可能需要重复调整敏感度和多次重新匹配数据的过程。
总自动链接阈值是通过将自动链接敏感度 (0-100) 乘以最大可能匹配分数来计算的,该分数是根据算法中选定的匹配属性及其最大权重确定的。
要手动更改匹配 alogrithm 的自动链接和文书复审阈值的敏感度,请执行以下操作:
- 从主数据导航菜单中,单击匹配设置"
。
- 选择要调整其匹配算法的实体类型。
- 在侧边栏中选择 算法调整 以访问算法调整工具。
- 查看 阈值 部分中的当前设置。
- 使用滑块或输入数字值来更新自动链接和文书复审阈值,然后单击 应用阈值。 系统将提示您运行匹配以应用算法更改。
- (可选) 您可以使用 文书范围 切换开关来禁用文书复审范围。 如果禁用了文书范围,那么算法只能做出匹配或不匹配决策,并且无法将任何潜在的匹配任务排队以供数据管理员进行补救。
- 根据更新后的设置重新生成匹配的实体。 转到匹配结果选项卡,然后单击操作栏中的运行匹配图标 "
。
匹配过程需要一段时间才能完成。 此过程会在后台运行,因此您可以继续工作。 完成时将通知您,然后您可以在 匹配结果 选项卡上查看结果的详细信息。
后续步骤
了解更多信息
父主题: 配置主数据