0 / 0
Go back to the English version of the documentation
设计元数据扩充项
Last updated: 2024年12月13日
设计元数据扩充项

丰富资产元数据时,必须决定要丰富哪些数据资产、添加哪种类型的元数据以及是否安排丰富作业。

通常,元数据扩充是更大的数据整理计划的一部分。 例如,导入数据资产的元数据后,可以将业务元数据添加到导入的数据资产,确定资产之间的关系,并且可以运行分析这些资产的数据质量。 最后,您可以将已完成的数据资产发布到目录以与组织共享。 在设计元数据扩充之前,请确保了解您的选择对总体管理计划的影响。 请参阅 规划管理

项目设置

选择或创建您要工作的项目。 请记住,标记为敏感的项目不允许发布到目录或下载数据。 因此,如果您想共享丰富的资产或下载结果以在电子表格中进行审查,它们并不适合。

作为项目管理员,定义适用于所选项目中所有元数据充实的默认充实设置。 您可以在创建或编辑元数据扩充项时覆盖其中一些设置。

浓缩范围

通常,扩充元数据时的第一步是选择要扩充的数据。 您可以充实关系型和结构化数据资产。

元数据扩充将在项目中可用的资产上运行。 因此,在以下情况下,扩充结果中的扩充资产列表可能与所配置的包含元数据导入资产的作用域不对应:

  • Metadata import 在扩充项启动时尚未完成。
  • Metadata import 对一组资产失败或完全失败。

初始数据作用域

数据资产 列表显示所有受支持格式的资产。 您可以充实关系型和结构化数据资产。 您可以选择个别资产,但也可以选择元数据导入资产以从这些元数据导入中扩充整个数据资产集。 但是,无法选择已包含在元数据扩充项中的数据资产或元数据导入。 对于个别数据资产,可以将鼠标悬停在资产名称上,以查看包含资产的元数据扩充项。

在下列情况下,将自动从选择范围中排除元数据导入资产:

  • 它具有目录作为导入目标。

  • 它是在不支持访问实际数据的连接上运行的。

    请参阅导入元数据

    请记住: 每个数据资产或元数据导入只能包含在每个项目的一个元数据扩充项中。 如果要使用不同的扩充选项多次扩充数据资产,那么需要在单独的项目中执行此操作。

如果所选数据资产的任何连接配置为使用个人凭证而不是共享凭证,那么必须先解锁该连接,然后才能继续。

您还可以创建空的元数据扩充资产并在以后设置作用域。

扩充项的重新运行范围

对于扩充项的重新运行 (无论是手动调度还是手动运行) ,数据作用域可以是最初选择的数据作用域中的所有资产,也可以是资产的子集。 缺省选项为 新建和修改的资产以及未在先前运行中扩充的资产。 使用此选项时,将按如下所示选择资产以进行扩充:

  • 上次运行扩充项后添加的资产
  • 在最近一次运行扩充项后添加或除去列的资产
  • 上次运行扩充项后资产或列描述发生更改的资产
  • 先前扩充失败或已取消的资产

无论资产是新资产还是已修改资产,都将始终对整个数据资产运行扩充。

作业运行日志会显示元数据浓缩的重新运行情况,这些元数据浓缩是将有限数据范围配置为delta元数据浓缩作业运行的。

扩充目标

您可以从以下扩充项目标中进行选择:

概要分析数据

生成有关资产内容的基本统计数据,分配和建议数据类别。

这种类型的概要分析速度很快,但对某些度量 (例如频率分布和唯一性) 进行了一些近似值。 要在不使用近似值的情况下获取更准确的结果,请对所选数据资产运行高级概要分析。 请参阅 高级数据概要分析。 有关统计信息的更多信息,请参阅 详细概要分析结果

数据类描述该列中的数据内容:例如,城市、帐号或信用卡号。 数据类可用于通过数据保护规则来屏蔽数据或通过策略来限制对数据资产的访问。 此外,如果存在相应的数据类到术语链接,那么它们可以为术语分配做出贡献。

数据类的置信度是与数据类匹配的非空值的百分比。 要分配或建议的数据类的置信度分数必须至少等于设置的阈值。 请参阅 数据类分配设置。 如果直接在数据类上设置阈值,那么在分配数据类时,此阈值优先。 不考虑建议。 除置信度分数外,还会考虑数据类的优先级。

多个数据类是在列级别检测到并分配的更通用标识。 在值级别无法识别更具体的数据类时,就会分配这些数据类。 通用标识符的置信度始终为 100%,包括以下数据类别:代码、标识符、指标、数量和文本。

建议使用基于概要分析统计信息的单列主键。 如果已在数据中定义主键和外键约束,并且此信息包含在元数据导入中,那么将自动分配这些键。

从扩充结果中,可以运行检查实际数据的多列主键分析。 有关更多信息,请参阅 标识主键

扩展元数据

为数据资产和列生成语义名称和描述。 根据收集到的元数据和预定义的词汇表,通过模糊匹配以及将名称与所选类别中的业务术语缩写进行比较,对源中存在的名称进行扩充。 如果源中的资产或列名称可以与业务术语缩写匹配,则相应的业务术语将被用作显示名称。 生成式人工智能用于根据扩展名称、周围列和数据资产的上下文提供描述。 使用此选项可提供比通常非常技术的原始名称更容易使用的备用名称。 AI 生成的描述有助于了解内容,尤其是在数据源中缺少列或数据资产描述时。 分配和建议阈值在缺省扩充设置中定义。

分配术语和分类

自动为列和整个资产分配业务术语,或建议业务术语以供手动分配。 这些分配或建议由一组服务生成。 请参阅 自动术语分配 (Automatic term assignment)

根据哪个术语分配服务对您的项目处于活动状态,术语分配可能需要概要分析。

此外,还可根据自动分配的术语和数据类别为数据资产和列分配分类。 必须在默认充实设置中启用分类分配。 基于数据类别的分类分配也需要剖析。

运行基本质量分析

对数据资产的列运行预定义的数据质量检查。 应用的检查集是在扩充设置中定义的。 请参阅 基本质量分析设置。 每个检查都可以对资产的总体数据质量核心作出贡献。 此类数据质量分析只能与概要分析结合使用。 因此,当您选择分析数据质量时,将自动选择 概要分析数据 选项。

您可以选择是否要将这些检查的输出写入数据库。 如果存在缺省设置,那么将相应地填充这些部分。 您可以覆盖设置。 如果不存在缺省设置,请配置输出和输出位置。 有关支持哪些数据源作为输出目标的信息,请参阅 支持的数据源中的列 输出表 。 模式和表名必须遵循以下约定:

  • 名称的第一个字符必须是字母字符。
  • 其余名称可以由字母字符,数字字符或下划线组成。
  • 名称不得包含空格。

如果选择将异常或发现问题的行 (异常记录) 写入现有表,请确保这些表具有必需的格式。 请参阅 数据质量输出 (Data quality output)

如果您选择的连接已锁定,那么将要求您输入个人凭证。 这是一次性步骤,用于为您永久解锁该连接。

设置关系

使用概要分析统计信息和列之间的名称相似性来提供主键和外键以及建议或分配资产与列之间的关系。 将应用密钥关系的缺省扩充设置。 此类型的关系分析需要概要分析。

根据 SLA 规则评估数据质量

检查数据质量是否符合定义的数据质量服务级别协议。 数据质量 SLA 规则为数据资产或数据资产中的列定义数据质量阈值。 使用此丰富选项,元数据丰富中的数据资产将根据数据质量 SLA 规则中的选择标准进行检查。 如果数据资产或单个列符合数据质量 SLA 规则的选择标准,则会根据该 SLA 规则中定义的质量阈值检查其数据质量。

使用该选项进行浓缩运行后,会为浓缩中的每个数据资产生成一份 SLA 合规性报告,与是否违反任何数据质量 SLA 规则条件无关。 SLA 合规性报告是数据资产质量信息的一部分,可从丰富结果或项目中资产的数据质量页面获取。

根据数据质量 SLA 规则的配置,如果数据资产违反了该规则,可能会启动数据质量修复工作流。

如果将这一目标与其他目标结合起来,需要考虑以下因素:

  • 如果还选择了剖析数据目标,则只有在成功完成剖析后才会运行数据质量 SLA 评估。
  • 如果还选择了 " 分配术语和分类 "目标,则只有在成功完成术语分配后才会运行数据质量 SLA 评估。 由于学期作业要求对数据进行剖析,因此剖析工作也必须顺利完成。

您可以将数据质量 SLA 评估作为唯一目标来运行元数据浓缩。 不过,在此之前,请确认丰富范围中的数据资产或列已分配术语并有数据质量分数。 此外,在这种情况下,重运行的数据范围应设置为所有数据资产

类别选择

选择类别以确定可在扩充期间应用的数据类和业务术语。 创建扩充项时,项目管理员可能限制了要选择的类别集。 当您编辑扩充项时,此限制不适用。 在任何情况下,只能从您是至少具有 查看者 角色的合作者的类别中进行选择。

仅选择具有与您的用例相关的监管工件的类别。

此选择仅适用于自动分配和建议。 手动分配术语或数据类时,可以从您有权访问的所有类别中进行选择。

对要从中选择的类别集的更改或实际类别选择将在下次扩充项运行时生效。 但是,现有分配保持不变。

如果在运行元数据扩充项之后撤销了对任何选定类别的访问权,并且未对扩充项进行任何更改,那么任何重新运行仍将考虑数据类和术语分配的所有选定类别。

采样

您可以从以下采样类型中进行选择:

基本

基本采样使用最小的可能样本大小来加快过程: 分析每个表 1,000 行,并根据每列最频繁的 100 个值进行分类。

中等

中等采样与中等样本大小配合使用,可提供合理准确的结果,而不会过于耗时: 将分析每个表 10,000 行,并根据每列最频繁的 100 个值进行分类。

综合

综合抽样工作具有较大的样本大小,可提供更准确的结果: 分析每个表 100,000 行,并且分类会将每个列的所有值都考虑在内。 但是,此方法需要大量时间和资源。

定制

自行定义采样方法,样本大小和分类依据:

  • 在顺序和随机采样之间进行选择。 通过顺序采样,将按顺序选择数据集的前几行。 通过随机抽样,将随机选择要包含的行。 对于这两种方法,要选择的最大行数由定义的样本大小确定。

    随机采样仅可用于支持此类型采样的数据源中的数据资产。 更多信息,请参阅随机抽样概念

  • 定义样本的最大大小。 您可以设置固定行数或指定要分析的数据集中的行数百分比。 如果将样本大小定义为百分比值,那么可以选择设置样本可包含的最小和最大行数。 当您不知道要分析的数据集的大小时,可能要设置这些值。 为样本选择的行数或行数百分比只能近似指定的值。

  • 选择是要根据列中的所有值来分配数据类,还是根据列中的最频繁的值来分配数据类,在列中可以指定要考虑的值数。

基本、中等或全面采样都是顺序采样,从表的顶部开始。 要禁止采样,请使用配置了随机采样且样本大小为 100% 的定制采样。

调度选项

如果数据范围包括元数据导入资产,日程页面会提供有关各元数据导入任务的任何已配置日程的信息。 此信息可帮助您将扩充项调度与任何导入调度进行协调。

运行定义

定义何时运行元数据浓缩。 您可以选择无、一个或两个选项:

在创建作业后运行

保存新创建的元数据丰富时,选择此选项可运行元数据丰富。 否则,将保存元数据丰富资产,但不会启动任务运行。

按调度运行

选择此选项可按计划运行增益。 可以调度单次运行和重复运行。 定义计划的开始日期和时间。 如果调度单次运行,那么作业将在指定的日期和时间正好运行一次。

要计划重复运行,请选择 重复作业 和您希望浓缩作业运行的频率。 如果选择 "按分钟"、"按小时"或 "按天",则可以从计划表中排除一周中的某些天。 您还可以为作业计划设置结束日期和时间。 对于重复运行,作业会在根据 重复作业部分中的设置计算出的时间戳首次运行。

无论运行定义如何,您都可以随时手动触发元数据丰富作业的运行。

如果为项目配置了作业执行窗口,元数据丰富作业的运行就会被限制在配置的时间范围内。 任务运行将按要求启动,即在创建元数据浓缩资产后按需启动,或按定义的时间表启动,但如果启动日期和时间在执行窗口之外,则会立即暂停,并在下一个任务执行窗口打开时恢复。 长时间运行的元数据浓缩可能会多次暂停和恢复。

有关更多信息,请参阅管理强化作业的调度

了解更多信息

后续步骤

父主题: 管理元数据扩充

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more