0 / 0
Go back to the English version of the documentation
复审元数据扩充结果
Last updated: 2024年12月13日
复审元数据扩充结果

在扩充作业完成后复审扩充结果。 通过查看元数据扩充资产来访问结果。

所需许可权
要查看扩充项结果,必须在项目中至少具有 查看者 角色。
要编辑结果,必须在项目中至少具有 编辑者 角色。 要更改术语分配,您还必须至少具有对扩充项中使用的类别的查看访问权。

元数据扩充资产列示在项目的 " 资产 " 页面的 元数据扩充项 部分中。 要查看元数据扩充资产,请单击其名称或从资产的溢出菜单中单击 查看

侧面板提供有关元数据扩充的相关信息的摘要。

结果表和详细信息面板中使用了以下指示符:

  • 自动分配的术语或数据类的紫色点
  • 自动分配的显示名称和自动分配的 AI 生成的描述的紫色正方形
  • 蓝点表示接受了显示名称或描述建议,或表示编辑了显示名称或描述
    当资产发布到目录时,该指示符将被移除。
  • AI 图标 AI 图标 用于人工智能建议的描述

元数据扩充将在项目中可用的资产上运行。 因此,在以下情况下,扩充资产的列表可能与所配置的包含元数据导入资产的作用域不对应:

  • Metadata import 在扩充项启动时尚未完成。
  • Metadata import 对一组资产失败或完全失败。

在资产级别复审结果

资产 选项卡上,为元数据扩充作用域中的每个数据资产提供了以下信息:

  • 资产名称。 对于关系数据,还会显示表类型。
  • 源信息。
  • 显示名称。 您可以编辑名称并接受直接插入的建议名称。
  • 描述。 您可以编辑描述并接受 AI 建议的内联描述。
  • 分配的业务术语和建议的术语数。
  • 指定分类。
  • 分配的主键和建议的主键数。
  • 在上次扩充中实现的总体数据质量得分。
  • 复审状态。
  • 上次扩充的状态和日期及时间。
  • 发布状态。

直到扩充项至少运行一次,才会填充 名称上下文 列。

缺省情况下,所有信息都显示在选项卡上。 您可以定制视图并仅显示所需的信息。 单击自定义列图标"定制列" 图标,取消选择要隐藏的所有列。 您还可以通过单击条目并将其拖动到新位置来对列进行重新排序。

检查资产详细信息和扩充项结果:

您可以通过单击资产名称或单击溢出菜单 操作图标三个垂直点 中的 查看列,直接进入单个资产的列。

每个资产的详细结果也在项目中的 资产概要文件 中提供。 还可以从列详细信息面板中的 监管 选项卡访问列级别概要文件详细信息。 对于Data Virtualization和watsonx.data视图资产,禁止所有用户访问剖析结果,以防止意外暴露值分布。

如果要从扩充项作用域中除去特定资产,请选择该资产,然后从溢出菜单中单击 除去资产

资产和扩充项详细信息

通过单击资产名称或从溢出菜单中单击 查看资产详细信息 来访问资产和扩充项详细信息。 在侧面板的 详细信息 选项卡上,您可以找到以下信息:

  • 数据资产的源: 已连接资产的连接和数据库。 对于从本地系统上载的文件, 项目 显示在 列中。
  • 资产详细信息: 表类型,资产中的列数和行数及其数据格式。
  • 资产所有者。 资产所有者通常是将资产添加到项目的用户,但从目录添加的资产除外。 在这种情况下,目录资产所有者也是项目资产所有者。
  • 选择的扩充选项。
  • 采样方法。
  • 资产上次浓缩的日期,以及该浓缩任务运行详情的链接。
  • 资产描述。

显示名称

如果扩充选项包含 展开元数据 选项,那么此部分最初包含通过模糊匹配找到的数据资产的备用名称。 模糊匹配基于预定义词汇表扩展源名称,以提供易于理解的名称。 可能已分配扩展名称,因为置信度足够高,或者这是您可以接受的建议。 您可以随时编辑显示名称。

描述

此部分可以包含资产的描述。 如果扩充选项包含 展开元数据 选项,那么此部分最初包含 AI 生成的描述。 可能已分配此描述,因为置信度足够高,或者这是您可以接受的建议。 您可以随时编辑描述。

此部分显示已连接资产的连接和数据库。 对于从本地系统上载的文件, 项目 显示在 列中。

资产详细信息

资产详细信息包括资产中的列数和行数以及资产的数据格式。 对于关系数据,还会列出表类型。

资产所有者

资产所有者通常是将资产添加到项目的用户,但从目录添加的资产除外。 在这种情况下,目录资产所有者也是项目资产所有者。

扩充项详细信息

扩充项详细信息包括所选扩充项的列表,所选采样方法,上次扩充资产的日期以及指向相应作业运行的链接。

监管信息

资产的管理信息包括已分配和建议的业务术语和已分配的分类,这些术语和分类列于结果的 Business termsClassifications 栏中。 对于分配的术语,紫点指示至少有一个术语是自动分配的。

通过单击资产名称、单击 Business termsClassifications 列中的 View more 链接或单击溢出菜单中的 View asset details 来访问资产的详细管理信息。 在侧面板的管理选项卡上,您可以管理学期和分类任务。

条款

复审分配的术语和建议的术语。 对于每个分配或建议的术语,将显示置信度分数。 您可以单击某个术语以查看其某些属性: 其描述,其主类别和辅助类别,数据专员列表,分层类型关系以及相关分类和数据类。

根据需要接受建议。 您还可以搜索未列示为建议的任何业务术语,并手动分配这些业务术语。 除去您认为不准确的任何已分配术语。 在下次扩充运行时将考虑此类负反馈。 批量除去的术语与单独除去的术语处理方式不同。 如果从单个资产中除去某个术语,那么该术语将被视为已拒绝。 它也会在侧面板中列出,您可以随时重新分配它。 有关更多信息,请参阅 术语分配

分类

审查指定的分类。 根据项目设置,在自动分配业务术语时,也会分配与业务术语相关的分类。 您可以分配更多分类,或删除系统分配的分类并用其他分类取而代之。 有关项目设置的更多信息,请参阅 默认丰富设置:分类分配

有关主键和关系的信息

通过单击资产名称,单击 主键 列中的 查看更多 链接或从溢出菜单中单击 查看资产详细信息 来访问资产的键和关系信息。 在侧面板的 密钥 选项卡上,可以管理密钥分配和关系。

对于通过主键分析识别的主键,将显示唯一值的数目和百分比,空值的数目和百分比以及分析的列数。 对于在没有先前主键分析的情况下手动选取和分配的键,或者对于由深入键关系分析生成的建议主键,此信息不可用。

关系 部分提供分配的关系的以下视图:

  • 父代 选项卡: 在与所列资产的关系中,当前资产提供主键。
  • 子项 选项卡: 在与所列资产的关系中,当前资产提供外键。

如果已运行关系分析,但尚未分配任何关系,那么可以单击加号图标以查看和处理分析结果。

您可以随时通过单击画笔图标来编辑分配的关系。

有关更多信息,请参阅 标识主键标识关系

数据质量得分

仅当至少对资产应用了一次数据质量检查时,才会显示数据质量得分。 否则,将显示短划线 (-)。 为数据资产显示的分数是数据资产中各列提供的分数的加权平均值。 低于指定阈值的数据质量得分将以红点标记。 等于或超过指定阈值的数据质量得分将标记为绿色。

增量值显示与最新分析前 90 天的得分相比,总体数据质量得分的变化情况:

  • 指向右上方的绿色箭头(指向右上方的箭头)表示数据质量得分上升。
  • 红色箭头指向右下方(指向右下方的箭头)表示数据质量得分下降。

要快速查找具有质量问题的资产,尤其是在扩充范围较大时,您可以按质量得分对列表进行过滤。

有关数据质量问题的详细信息,请选择资产并从溢出菜单中单击 查看数据质量详细信息 ,或者单击质量分数。

有关更多信息,请参阅 数据质量分析结果数据质量得分

复审状态

最初,元数据扩充项中所有资产的复审状态为 未复审。 在资产概要文件中复审资产的扩充项结果后,可以将资产的复审状态设置为 已复审。 因此,团队中的每个人都知道已经看了什么,还需要审查什么。 如果以后的丰富运行更新了状态为已审查的资产结果,则该资产的审查状态将设置为审查后再分析 (指示已复审资产的扩充项结果更改的图标)。对于在元数据导入过程中发现的资产更新,审查状态不会改变。

请注意,对于标记为 "已复审" 的资产,在重新运行扩充项时不会更新术语分配。 有关更多信息,请参阅 新的分析结果如何更新现有术语分配

按复审状态过滤资产列表,以快速查找必须查看的任何资产。

您可以随时重置资产的复审状态。 要更改复审状态,请从资产的溢出菜单中单击 标记为已复审标记为未复审 。 要一次更改多个资产的复审状态,请选择资产,单击 更多,然后选择 标记为已复审标记为未复审。 资产的复审状态与其列的复审状态无关。 您还可以使用 API 而不是用户界面来设置资产的复审状态。 这些 API 的链接在 了解更多信息 部分中列出。

当您对复审状态进行批量更改时,您可能会在更改实际完成之前看到一条成功消息,具体取决于所请求的更改的数量。 您可能需要多次刷新视图,然后才能看到所有已应用的更改。

扩充状态

扩充项状态列可以具有以下值:

未分析
此资产是在上次扩充项运行后添加的。
已完成
此资产的扩充已完成。 如果扩充项发生在当前扩充项资产外部,例如,如果资产在添加到此扩充项之前已手动进行概要分析,那么也会显示此状态。
已失败
扩充期间发生错误。
已取消
已取消扩充项的作业运行。

您可以按扩充项状态对结果列表进行排序或过滤。 对于排序,主排序顺序为 "按状态"。 升序顺序为“已取消”、“失败”和“已完成”。 根据常规排序顺序,状态为 未分析 的资产将在列表顶部或末尾无序显示。

发布状态

此列显示是否已将资产发布到目录。 在侧面板的资产信息中提供了发布详细信息,例如目标目录或发布作业的名称。

但是,仅显示最新发布请求的详细信息。

在列级别查看结果

选项卡上,为元数据扩充作用域内的数据资产中的每个列提供了以下信息:

  • 列名。 名称旁边的 Key 图标 密钥图标 表示该列被指定为主键。
  • 列所属的表以及该资产的上下文。
  • 显示名称。 您可以编辑名称并接受 AI 建议的内联名称。
  • 描述。 您可以编辑描述并接受 AI 建议的内联描述。
  • 分配的业务术语和建议的术语数。
  • 已分配数据类。
  • 指定分类。
  • 此列的数据质量得分。
  • 复审状态。

选项卡为空,直到扩充项至少运行一次为止。

缺省情况下,所有信息都显示在选项卡上。 您可以定制视图并仅显示所需的信息。 单击自定义列图标"定制列" 图标,取消选择要隐藏的所有列。 您还可以通过单击条目并将其拖动到新位置来对列进行重新排序。

如果只想检查特定数据资产的列,请单击 Assets 选项卡上的资产名称,或从溢出菜单 操作图标三个垂直点 中单击 View columns

检查列详细信息和扩充项结果:

列详细信息

通过单击列名或从溢出菜单中单击 查看列详细信息 来访问列和扩充项详细信息。 在侧面板的 详细信息 选项卡上,您可以找到以下信息:

  • 显示名称。 如果扩充选项包含 展开元数据 选项,那么此部分最初包含通过模糊匹配找到的列的备用名称。 模糊匹配基于预定义词汇表扩展源名称,以提供易于理解的名称。 可能已分配扩展名称,因为置信度足够高,或者这是您可以接受的建议。 您可以随时编辑显示名称。

  • 描述。 此部分可以包含列的描述。 如果扩充选项包含 展开元数据 选项,那么此部分最初包含 AI 生成的描述。 可能已分配此描述,因为置信度足够高,或者这是您可以接受的建议。 您可以随时编辑描述。

  • 部分中列所属的资产的上下文。

  • 有关每个列的数据的统计信息,例如相异值的数量,唯一值的百分比,最小值,最大值或平均值,有时还包括该列中的标准差。 distinct 值的数量指示列的采样数据中存在的不同值的数量。 唯一 值的百分比指示仅在列中出现一次的不同值的百分比。

    根据列的数据格式,统计信息略有不同。 例如,数据类型为整数的列的统计信息具有最小值,最大值和平均值以及标准偏差值,而数据类型为字符串的列的统计信息具有最小长度,最大长度和平均长度值。

  • 找到的值的频率分布以及缺失值的数量。

  • 采样行中列的数据格式。

  • 资产所有者。

列概要文件中提供了每个列的更详细结果。 要查看该概要文件:

  • 从列的溢出菜单中选择 查看数据概要文件
  • 单击列详细信息中 StatisticsFormats 旁边的 Open column profile 图标 打开列概要文件图标
  • 单击 统计信息格式 部分中的 查看全部 链接。 此链接是否可用取决于结果数。

如果列受数据保护规则约束,那么只有此信息的子集可用: 描述和上下文

对于Data Virtualization和watsonx.data视图资产,禁止所有用户访问剖析结果,以防止意外暴露值分布。

监管信息

列的治理信息包括已分配和建议的业务术语(列于结果的 业务术语列)、已分配和建议的数据类别(列于 数据类别列)以及已分配的分类(列于 分类列)。 自动分配的数据类由数据类名称旁边的紫色点标识。 对于分配的术语,点指示至少有一个术语是自动分配的。

通过单击列名、单击 业务术语数据类别分类 列中的 查看更多 链接,或单击溢出菜单中的 查看列详细信息,访问列的详细管理信息。 在侧面板的管理选项卡上,您可以管理术语、数据类别和分类分配。

当您点击 查看更多链接时,也会提供相同的信息,当您将鼠标悬停在特定列上时,该链接会出现在业务术语、数据类或分类的下方。

条款

复审分配的术语和建议的术语。 对于每个分配或建议的术语,将显示置信度分数。 您可以单击某个术语以查看其某些属性: 其描述,其主类别和辅助类别,数据专员列表,其分层类型关系以及相关分类和数据类。

根据需要接受建议。 您还可以搜索未列示为建议的任何业务术语,并手动分配这些业务术语。 除去您认为不准确的任何已分配术语。 在下次扩充运行时将考虑此类负反馈。 批量除去的术语与单独除去的术语处理方式不同。 如果从单个列中除去术语,那么该术语将被视为已拒绝。 它也会在侧面板中列出,您可以随时重新分配它。 有关更多信息,请参阅 术语分配

请注意,术语分配不会影响数据类分配。 如果通过 ML 模型或通过名称匹配将与数据类关联的术语分配给列,那么也不会自动分配相关数据类。

数据类

查看分配的数据类和建议的数据类。 您可以单击数据类以查看其某些属性: 其描述,其主类别和辅助类别,数据匹配类型,其父数据类和从属数据类以及相关分类和数据类。

用于分配或建议数据类的置信度分数必须至少等于设置的阈值。 请参阅 数据类分配设置。 如果直接在数据类上设置阈值,那么在分配数据类时,此阈值优先。 不考虑建议。 除置信度分数外,还会考虑数据类的优先级。 请参阅 将数据匹配添加到数据类

有关数据类的详细信息,请参阅 数据类预定义数据类

短划线 (-) 指示在分析期间未分配任何数据类。

多个数据类是仅在列级别检测并分配的更通用标识。 在值级别无法识别更具体的数据类时,就会分配这些数据类。 通用标识符包括以下数据类别:代码、标识符、指示符、数量和文本

手动分配数据类 (建议的数据类或完全不同的数据类) 时,将在下一次增补运行中分配与该数据类相关联的术语。 但是,术语分配不需要自动分配关联的数据类。

分类

审查指定的分类。 根据项目设置,在自动分配数据类或业务术语时,也会分配与数据类或业务术语相关的分类。 您可以分配更多分类,或删除系统分配的分类并用其他分类取而代之。 有关项目设置的更多信息,请参阅 默认丰富设置:分类分配

数据质量得分

仅当至少对列应用了一次数据质量检查时,才会显示数据质量得分。 否则,将显示短划线 (-)。 根据应用的数据质量检查结果,为数据资产中的每个单独列计算数据质量得分。 数据质量分析结果中的设置确定是否考虑列的质量核心来计算总体资产和维度评分。

增量值显示数据质量得分与最新分析前 90 天的得分相比的变化情况:

  • 指向右上方的绿色箭头(指向右上方的箭头)表示数据质量得分上升。
  • 红色箭头指向右下方(指向右下方的箭头)表示数据质量得分下降。

要快速查找具有质量问题的列,尤其是在扩充范围较大时,可以按质量得分对列表进行过滤。

有关数据质量问题的详细信息,请选择列,然后从溢出菜单中单击 查看数据质量详细信息 ,或者单击该列的质量分数。

有关更多信息,请参阅 数据质量分析结果数据质量得分

复审状态

最初,元数据扩充项中所有列的复审状态为 未复审。 复审列的扩充项结果后,可以将其复审状态设置为 已复审。 因此,团队中的每个人都知道已经看了什么,还需要审查什么。 如果以后的充实运行更新了状态为已审查的列的结果,则该列的审查状态将设置为审查后再分析指示已复审列的扩充项结果更改的图标)。对于在元数据导入过程中发现的更新,审查状态不会改变。

请注意,对于标记为 "已复审" 的列,术语分配不会在扩充项的重新运行时更新。 有关更多信息,请参阅 新的分析结果如何更新现有术语分配

您可以随时重置列的复审状态。 要更改复审状态,请从列的溢出菜单中单击 标记为已复审标记为未复审 。 要一次更改多个列的复审状态,请选择这些列,单击 更多,然后选择 标记为已复审标记为未复审。 列的复审状态与其包含资产的复审状态无关。 您还可以使用 API 而不是用户界面来设置列的复审状态。 这些 API 的链接在 了解更多信息 部分中列出。

当您对复审状态进行批量更改时,您可能会在更改实际完成之前看到一条成功消息,具体取决于所请求的更改的数量。 您可能需要多次刷新视图,然后才能看到所有已应用的更改。

如果使用基于 ML 的术语分配的内置机器学习模型并从项目资产进行训练,那么标记为 "已复审" 且已自动分配业务术语的列将用作训练数据。

按复审状态过滤列的列表,以快速查找必须查看的任何列。

下一步

了解更多信息

父主题: 管理元数据扩充

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more