用信息丰富数据资产,帮助用户更快地找到数据,决定数据是否适合手头的任务,是否可以信任数据,以及如何使用数据。 此类信息包括定义数据含义的术语、记录所有权或确定质量标准的规则,或者复审,等等。
数据管理者创建资产概要文件以了解数据的含义,并评估其质量。 此外,他们还通过分配术语并确定表之间的关系,将业务环境添加到数据中。 元数据扩充可自动执行此过程,从而提高数据管理者的生产力。
仅当其上下文,内容和质量可信时,数据才有用。 要保持这种方式,必须持续评估数据,并在需要时采取适当的补救措施。 数据专员可以配置重现作业,以持续跟踪对数据内容和结构的更改,然后仅分析已更改的数据。
通过元数据充实添加到资产的信息也有助于保护数据,因为它可用于数据保护策略,以屏蔽数据或限制访问。
- 必需的服务
IBM Knowledge Catalog
DataStage ,用于高级密钥或关系分析和高级概要分析- 数据格式
来自关系数据源和非关系数据源的表
从本地文件系统或从与数据源的基于文件的连接上载的文件,具有以下格式 :CSV , TSV , Avro , Parquet , Microsoft Excel (xls , xlsm 和 xlsx; 仅针对从本地文件系统上载的文件对工作簿中的第一个工作表进行概要分析。) 未对这些结构化数据文件进行概要分析:
- 已连接文件夹资产中的文件。 可从已连接文件夹资产访问的文件不会被视为资产,也不会进行概要分析。
- 归档文件中的文件,例如 .zip 文件。 该归档文件由数据资产引用,并且不会对压缩文件进行概要分析。
您可以从 用于组织和数据质量的受支持数据源中列出的数据源扩充数据资产。
- 数据大小
任何; 来自基于文件的连接的数据集的列不能超过 4,999 列
- 所需许可权
要创建,管理和运行元数据扩充项,您必须在项目中具有 管理员 或 编辑者 角色,并且必须至少具有对要在扩充项中使用的类别的查看访问权。 此外,您还必须有权访问与要充实的数据资产的数据源的连接。
如果这些连接中的任何一个被锁定,则会要求您输入个人凭据。 这是一个一次性步骤,可为您永久解锁连接。
作为元数据扩充的一部分运行的所有操作都需要凭证以进行安全授权。 通常,用户 API 密钥用于在不中断的情况下执行此类长时间运行的操作。 如果在创建元数据扩充项或尝试运行任何类型的扩充项时凭证不可用,那么系统会提示您创建 API 密钥。 然后,该 API 密钥将保存为您的任务凭证。 请参阅 管理用户 API 密钥。
您还可以使用 API 而不是用户界面来创建,编辑,运行或删除元数据扩充项。 这些 API 的链接在 了解更多信息 部分中列出。
元数据充实概述
充实数据资产包括以下过程:
确定要充实的数据资产。
在项目中,创建元数据扩充项资产以配置扩充项详细信息,例如扩充项的作用域和目标以及扩充项作业的调度。
运行充实作业。
对于扩充项中包含的每个数据资产,使用元数据扩充项资产中的结果:
- 识别异常和质量问题,并采取适当措施来补救任何问题。
- 复审生成的内容,例如显示名称或 AI 生成的描述。
- 检查术语分配,并根据术语建议进行评估和操作。
- 在列级别管理数据类分配。
- 管理分类。
- 确定并设置主键和关系。
- 检测重叠或冗余数据。
您还可以访问扩充项结果,并在每个资产的概要文件中使用这些结果。 请参阅资产概要文件。 资产的 数据质量 选项卡上提供了详细的质量信息。
重新评估相关资产。
按要求发布带有结果的数据资产。
您可以使用 API 而不是 UI 来执行大多数任务。 每个适用任务都列出了指向 IBM Knowledge Catalog API 的链接。
虽然可以将个别已连接资产添加到元数据扩充项,但元数据扩充项旨在用于批量处理通过元数据导入添加到项目中的数据资产。
为确保一致地使用扩充选项,您可以为项目中的所有元数据扩充资产配置 缺省设置 。 要打开设置页面,请转至 Manage > Metadata enrichment。 或者,您可以打开现有的元数据丰富资产,然后单击 默认设置。
在工作负载管理方面,运行元数据充实作业可限制在作业执行窗口内。 项目管理员可在管理 > 任务执行窗口中定义此类窗口。
了解更多信息
后续步骤
父主题: 数据整理