仅当数据的质量可信且持续评估时,数据才有用。 您可以在其 " 数据质量 " 页面上监视数据资产的数据质量。
当您在元数据扩充资产中单击数据质量分数时,将提供与 数据质量 选项卡上相同的信息。
要求和限制
您可以在以下情况下查看资产的数据质量信息。
所需的服务
数据质量需要 IBM Knowledge Catalog 服务。 但是,数据质量规则的数据质量输出仅在达拉斯和法兰克福区域可用。 请参阅Cloud Pak for Data as a Service。
必需的许可权
您的角色可确定如何与数据质量进行交互:
- 要查看 " 数据质量 " 页面,您可以在工作空间中具有任何合作者角色。
- 要更改评分的计算方式,您必须在项目中具有 管理员 或 编辑者 角色。
- 要创建新的数据质量检查,您必须具有项目中的 管理员 或 编辑者 角色以及 管理数据质量资产 许可权。
- 要从 Data quality 页面查看导致数据质量问题的数据(输出表),您必须拥有 Drill down to issue details 权限。 但是,任何可以访问连接的人都可以访问项目中为输出表创建的数据资产。 为限制对该数据资产的访问,应使用个人凭据设置与存储输出表的数据源的连接。
工作空间
您可以在以下工作空间中查看数据质量信息:
- 项目
- 目录
资产类型
这些类型的资产具有数据质量信息:
- 从连接到数据源的关系数据库或非关系数据库中的数据资产
- 来自分区数据集的数据资产,其中分区数据集由多个文件组成,并由从本地文件系统或从基于文件的数据源连接上载的单个文件夹表示
- 从本地文件系统上载的文件或从基于文件的连接到数据源的数据资产,格式如下:
- CSV
- XLS , XLSM 和 XLSX (仅工作簿中的第一个工作表。)
- TSV
- Avro
- OCR
- Parquet
- IBM Match 360 实体数据资产
概述
在 " 数据质量 " 页面上,您可以找到有关数据资产质量的信息:
- 资产的总体数据质量得分。 这是由其列提供的评分的加权平均值。 有关更多信息,请参阅 数据质量得分。
- 各个维度的分数。 对于每个维度,这是各个检查提供的相应维度得分的加权平均值。 作为元数据扩充的一部分运行的预定义数据质量检查已分配缺省维度。 请参阅 预定义的数据质量检查。 对于数据质量规则,可根据需要分配维度。 有关更多信息,请参阅 数据质量维度 和 数据质量评分。
- 趋势信息,显示维度的总体质量或质量得分在 30 天, 90 天或 180 天内的变化情况。 有关更多信息,请参阅 数据质量分析结果。
- 应用于资产的数据质量检查及其结果的列表。 有关更多信息,请参阅 数据质量分析结果。
- 各个列的数据质量信息。 有关更多信息,请参阅 数据质量分析结果。
项目中的 "数据质量" 页面
在对数据资产运行第一次数据质量检查之后,将通过下列其中一种方式来填充 " 数据质量 " 页面:
- 数据质量分析作为元数据扩充的一部分在资产上运行。
- 数据质量规则在资产上运行。
- 将添加已连接的 IBM Match 360 实体数据资产。
从目录导入资产时,仅会将概要文件信息复制到项目。 未复制数据质量信息。
将重新计算质量得分,并在以下情况下刷新此页面上的数据:
- 数据质量分析在元数据扩充的上下文中运行。
- 数据质量规则在资产上运行。
- 将删除添加到评分的数据质量规则。 将除去此数据质量规则返回的所有问题。
- 资产概要文件将在资产的 " 概要文件 " 页面上删除。 将除去预定义数据质量检查返回的所有问题。
每次更改检查或列的 添加到总体评分 设置时,还会更新总体评分和维度评分。 有关更多信息,请参阅 数据质量得分。
您可以立即查看上次更新质量得分的时间。
在 数据质量检查 部分中,您可以看到以下信息:
- 在资产上运行了哪些检查,按日期排序,最新的检查在顶部
- 每个检查绑定到哪个维度
- 检查是应用于整个资产还是应用于资产中的列
- 有关找到的问题数的信息
- 应用了哪种采样 (如果有)
- 检查生成的数据质量得分
- 在计算总体资产得分和维度得分时是否考虑检查的数据质量得分
- 上次运行检查的时间
您可以向下钻取到每个检查的结果,但 IBM Match 360 匹配除外。 作为项目管理员或编辑者,您可以更改每个检查是否有助于总体数据质量得分,并且可以创建新的数据质量检查。 有关更多信息,请参阅 数据质量分析结果。
您可以在 " 检查 " 视图与 " 列 " 视图之间进行切换。 列概述 部分显示了受任何数据质量检查约束的每个列的以下信息:
- 列名
- 适用于资产的任何维度的列质量得分
- 对列运行的检查数
- 在计算总体资产得分和维度得分时是否考虑列的数据质量得分
- 上次检查列的时间
然后,您可以向下钻取到每个列的数据质量详细信息。 作为项目管理员或编辑者,您还可以更改每个列的质量得分是否有助于总体数据质量得分。 有关更多信息,请参阅 数据质量分析结果。
目录中的 "数据质量" 页面
将具有数据质量信息的数据资产发布到目录时,最初会填充 " 数据质量 " 页面。 对于直接添加为已连接资产或从本地文件系统上载的任何资产,此页面为空。 要为此类资产生成数据质量信息,请将其添加到项目并对这些资产运行元数据增补或数据质量规则。 然后,将它们发布到目录。
每次从具有新数据质量信息的项目发布资产时,都会更新质量得分并刷新此页面上的数据。
您可以立即查看上次更新质量得分的时间。
数据质量检查 和 列概述 部分提供与项目中的 数据质量 选项卡相同的信息。 但是,您无法向下钻取到检查或列详细信息。
了解更多信息
父主题: 资产类型和属性