自动术语分配是将业务术语自动映射到数据资产和资产列的过程,作为元数据扩充的一部分。
除了任何自动分配的业务术语外,您还可以通过编辑项目或目录中的数据资产属性或者在使用扩充项结果时手动分配术语。
如果将自动术语分配配置为元数据扩充的一部分,那么将通过多种方法生成此类分配。 这些方法还会生成要分配的术语的建议。
根据置信度级别分配术语。 最初,这些关联表示为领域专家和管理员可复审和手动分配的候选项。 分配项或建议项的置信度显示为百分比值。 此值表示 总体置信度。 请参阅 如何计算总体置信度。 建议或自动分配术语时的置信度级别由项目的扩充设置确定。 对于术语建议,要超过的缺省置信度级别为 75% ,而对于自动分配候选术语,缺省置信度级别为 90%。 请参阅 缺省扩充设置。 项目管理员可以定制这些设置。
只能分配已发布的业务术语。 分配的术语不会影响数据类分配。
术语分配的质量
要实现高质量术语分配,请考虑以下提示:
确保要在元数据扩充中使用的类别仅包含相关监管工件。 您可能希望在设置业务词汇表时已考虑此问题。
使用术语分配阈值进行试验。 更改阈值可能会对分配的术语数产生巨大影响。 查找误报数较少且未漏报过多的误报数的阈值。
分析某些误报以查找建议或分配这些术语的模式或有效原因。 如果大多数误报可归因于特定算法,请考虑在扩充设置中禁用该算法并重新运行术语分配。 请检查这是否减少误报数。
确保在仅向其发布经过仔细复审的术语分配的目录上训练 ML 模型。 最好将一个目录专用于模型训练。
对于基于列数据或元数据的术语分配,请在术语和数据类之间创建关系。 确保您使用的数据类不会产生误报。
术语分配方法
您可以使用全部或部分可用的术语分配方法。
名称匹配
名称匹配方法的结果基于术语名称或缩写与数据资产或列的名称之间的相似性。 例如,列 CREDNUM 可能与术语 Credit Card Number 相关联,因为这两个名称之间存在相似性。 名称匹配仅与具有术语名称和缩写的数据资产和列名匹配。 不考虑描述。 基于 mL 的术语分配处理名称和描述。
基于数据类分配
基于类的赋值方法基于数据分类生成赋值。 如果作为列分析的结果或手动为资产列选择了数据类,并且如果此数据类链接到一个或多个业务术语,那么如果这些术语超过了各自的阈值,那么将建议或分配这些术语。 术语置信度级别与术语所链接的数据类的置信度相同。 例如,如果链接了数据类和术语,那么分类为具有 90% 置信度的电子邮件地址的列 COL1 可能会分配给术语 "电子邮件地址"。 因为列的名称与术语之间没有相似性,所以名称匹配方法无法进行此关联。
要启用基于类的分配方法,请务必在运行术语分配之前复审数据类到术语的链接,因为适当的链接是高质量结果的重要先决条件。
机器学习
用于生成术语分配的机器学习 (ML) 方法使用内置的受监督机器学习模型。 这些模型包含用于术语分配的模型和用于术语移除的模型。
ML 模型基于已发布的术语以及项目或目录中的训练数据中存在的术语分配进行训练。 请参阅 机器学习模型的训练数据。 如果没有可用的术语分配,那么术语分配模型的训练将重点关注名称和术语描述中的词以及数据资产或列的语言相似性。 可以根据该相似性来分配术语。 随着已复审的分配数不断增加,可以独立于语言相似性来分配术语,因为具有相似特征的列上的术语分配可用。
语义术语分配
这种方法使用经过微调的IBMSlate 基础模型来分配和建议特定领域的业务术语。 模型会考虑资产和列的名称和描述,并在语义上将术语与该元数据相匹配。 因此,即使术语不是完全匹配项,也可以对其进行分配。
已拒绝的术语
当您复审元数据扩充结果中的术语分配时,可能会发现您认为对于数据资产不准确的术语。 您可以除去此类术语,从而提供负反馈。 这些条款被视为已被拒绝。 如果培训范围是项目,那么在重新运行自动术语分配时,可以根据这些拒绝的术语来调整术语分配的置信度分数。 通过此负置信度值来调整每个选定项分配方法返回的各个置信度值,以计算项的总体置信度分数。 请参阅 如何计算总体置信度分数。
机器学习模型的训练数据
对于每个项目,您可以在缺省扩充设置中定义是使用项目中的资产还是使用所选目录中的资产来训练用于自动术语分配的内置 ML 模型。 仅当训练范围是项目时,才可以根据拒绝来调整置信度分数。
缺省设置是在项目中训练模型。 在这种情况下,将使用任何已发布的业务术语以及项目中标记为已复审的列上的任何可用术语分配或拒绝来训练模型。
当您选择目录作为训练作用域时,将使用任何已发布的业务术语以及所选目录中可用的任何术语分配来训练术语分配的模型。 无法使用目录中的资产来训练术语拒绝的模型。
何时训练模型?
当启动元数据扩充作业并且满足下列其中一个条件时,将触发内置 ML 模型的模型训练:
尚无可用的模型。
自上次训练模型以来,已创建新的业务术语或已更新现有术语。 该术语不必分配给任何资产或列。
培训范围项目: 自上次培训模型以来,至少有 21 列标记为已复审。
训练作用域目录: 所选目录中至少 21 个列上的分配已更改,因为自上次训练模型以来已分配或除去了术语。
最后一次训练没有成功完成或在合理的时间内完成。
如果在首次使用模型进行置信度分数调整时没有关于术语拒绝的信息,那么将在稍后进行此模型的初始训练,这意味着在后续模型训练周期上提供有关被拒绝术语的信息时,将对其进行初始训练。
如何计算总体置信度
将术语与数据资产关联的方法会计算 置信度,该置信度是可配置最小值与 1 之间的数字值。 可以在 缺省扩充设置中配置的术语分配的 建议阈值 定义了最小值。
分配项或建议项的置信度显示为百分比值。 此值表示 总体置信度。 总体置信度是所选术语分配方法返回的置信度值的最大值,可由 ML 模型为术语移除返回的任何负置信度值进行调整。
您可以选择是否根据先前拒绝的业务术语来调整所选术语分配方法返回的置信度值。
示例:
假定已启用所有方法,那么列 ADDRESS 和术语 "家庭地址" 的置信度值为:
Name matching: 0.5
Class-based assignment: 0.4
ML-based assignment: 0.3
Semantic assignment: 0.5
ML model for rejections: -0.4
通过减去针对拒绝项返回的置信度值来计算每种方法的实际置信度值:
Name matching: 0.5 - 0.4 = 0.1
Class-based assignment: 0.4 - 0.4 = 0
ML-based assignment: 0.3 - 0.4 = -0.1
Semantic assignment: 0.5 - 0.4 = 0.1
总体置信度为 0.1 ,因为这是为方法计算的最大值。
如果为多个方法计算了一个术语的相同置信度值,那么只会自动分配一个置信度值。 选择此类术语的顺序如下:
- 由基于数据类的赋值方法找到的术语
- 语义术语-赋值方法找到的术语
- 由 ML 方法找到的术语
- 通过名称匹配方法找到的术语
新分析结果如何更新现有术语分配
重新运行扩充项时,新的分析结果将更新术语分配,如下所示:
术语分配的类型 | 已复审数据资产或列 | 未复审数据资产或列 |
---|---|---|
手动分配的术语 | 条款保持不变。 | 条款保持不变。 |
已拒绝的术语 | 条款保持不变。 | 条款保持不变。 |
建议术语 | 术语将被删除并替换为新的建议术语。 | 术语将被删除并替换为新的建议术语。 |
自动分配的术语 | 现有条款保持不变。 新检测到的术语将作为建议术语添加。 | 将更新现有术语分配。 |
了解更多信息
父主题: 元数据扩充结果