成功分析数据资产后,在数据资产级别和列级别都会显示结果。 分析结果包括有关数据资产内容和结构的信息,以及有关数据总体质量的度量。
数据质量分析结果在资产的 " 数据质量 " 页面上的项目或目录中提供。 您还可以通过单击资产或列的质量分数,从元数据扩充项中访问这些内容。
- 所需许可权
- 要查看分析结果,您必须是工作空间中的合作者。
要更改评分的计算方式,您必须在项目中具有 管理员 或 编辑者 角色。
要创建新的数据质量检查,您必须在项目和 管理数据质量资产 许可权中具有 管理员 或 编辑者 角色。
要从规则运行历史记录或 Data quality 页面查看导致数据质量问题的数据(输出表),您必须拥有 Drill down to issue details 权限。 但是,任何可以访问连接的人都可以访问项目中为输出表创建的数据资产。 为限制对该数据资产的访问,应使用个人凭据设置与存储输出表的数据源的连接。
数据质量信息在项目或目录中可用,如下所示:
在项目中,在以下列其中一种方式对数据资产运行第一次数据质量检查之后,或者在添加已连接的 IBM Match 360 实体数据资产时:
- 数据质量分析作为元数据扩充的一部分在资产上运行。
- 数据质量规则在资产上运行。
在目录中:
- 具有数据质量信息的数据资产将发布到目录。
将重新计算质量得分,并按如下所示刷新数据:
在项目中,每次对资产运行数据质量检查或更新 IBM Match 360 实体数据资产时:
- 数据质量分析在元数据扩充的上下文中运行。
- 在资产上运行数据质量规则。
- IBM Match 360 匹配算法已更改或已修复潜在的匹配问题。
在目录中:
- 从项目发布资产。
您可以立即查看上次更新质量得分的时间。
资产的数据质量信息
访问资产的数据质量信息时,您将看到资产上运行的总体数据质量得分和数据质量检查结果。 此外,您还可以访问资产列的分析结果。
如果数据质量 SLA 规则是作为元数据充实的一部分进行评估的,那么受数据质量 SLA 规则约束的资产也将获得有关 SLA 合规性的信息。
资产级别的总体评分
通过质量得分的图形表示法,您可以一目了然地查看资产的总体质量以及与应用于资产的维度相关的质量级别。 对于这些分数,趋势信息显示维度的总体质量或质量分数随时间变化的情况。 您可以选择是显示 30 天, 90 天还是 180 天的趋势。 如果之前没有任何检查添加到此维度,那么维度不会显示趋势信息。
总体资产评分是资产列提供的评分的加权平均值。 每个维得分是各个检查提供的相应维得分的加权平均值。
将针对这些更改重新计算总体评分和维评分以及趋势信息:
- 对资产运行数据质量检查。
- 更改了检查或列的 添加到总体分数 设置。
- 将删除应用于资产的数据质量规则。
- 资产概要文件将在资产的 " 概要文件 " 页面上删除。
- 在 IBM Match 360中更新资产。
有关更多信息,请参阅 数据质量得分。
遵守数据质量 SLA 规则
对于受一个或多个数据质量 SLA 规则约束的资产,会列出所应用的 SLA 规则及其结果以及最后一次评估的日期和时间。 对于违反的 SLA 规则,会显示违反的次数(根据规则条件,可以是表、列或两者),以及是否为该规则配置了操作。 如果数据质量补救工作流与违反的数据质量 SLA 规则相关联,则还可以查看已启动的任何补救任务的状态。
您可以深入查看每条数据质量 SLA 规则的结果。 要查看有关违规的详细信息,以及导致 SLA 规则质量标准维度得分的检查,请单击 SLA 规则的名称。 违规部分提供的信息包括:发现违规的元素、定义的质量标准、元素的实际质量得分以及以百分点(pp)为单位的偏差。 如果您有必要的权限,还可以查看规则详情或编辑 SLA 规则。
对于不受任何数据质量 SLA 规则约束的资产,本节为空。
目录中没有关于数据质量 SLA 规则或补救任务合规性的信息。
资产级别的数据质量检查结果
在这里,您可以查看对资产运行的检查以及结果。 列表按日期排序,最新的检查位于顶部。
- 名称和逻辑
数据质量规则的名称和包含规则逻辑的数据质量定义的名称,或者预定义数据质量检查的名称。
具有外部管理绑定或基于 SQL 的数据质量规则的数据质量规则,如果资产作为相关项添加到具有 Validates data quality of 关系的相应规则中,则有助于该资产的数据质量得分。 对于与此关系类型链接的所有资产和列,将报告相同的分数和问题。
预定义的数据质量检查在整个资产上运行。 但是,并非所有这些列都返回所有列的结果。 例如, 可疑值 检查标识数字列或具有数字数据的字符串列中的离群值,但不返回具有字符串值的字符串列的结果。 因此,针对各个列的预定义数据质量检查列表可能更短。
在项目中,您可以单击数据质量检查的名称以获取详细信息。 对于预定义的数据质量检查,请查看有关结果的信息: 具有问题的列以及这些列中标识为质量问题的值的数量和百分比。 如果为这些问题设置了输出表,那么具有相应许可权的用户可以查看数据导致质量问题的实际行。 对于数据质量规则,您可以查看常规规则配置并有权访问规则的输出表 (如果已配置)。 如果要更新规则配置并具有必需的许可权,可以通过单击 查看数据质量规则直接转至资产。
对于已连接的 IBM Match 360 实体数据资产,此处显示 潜在匹配 以进行匹配。 未提供此类型检查的进一步信息。
- Type
检查类型,可以是 数据质量规则, 匹配或 概要分析。 针对 IBM Match 360 结果显示 匹配 。 对于在元数据扩充上下文中运行的预定义数据质量检查,将显示 概要分析 。 请参阅 预定义的数据质量检查。
- Dimension
与此检查绑定的数据质量维度。 在概要分析期间运行的预定义数据质量检查或作为元数据扩充的一部分运行的预定义数据质量检查已分配缺省维度。 对于数据质量规则,可根据需要分配维度。
对于已连接的 IBM Match 360 实体数据资产,将显示维度 实体置信度 。
- 存在问题的数据的焦点和百分比
根据检查类型,焦点可以是一个或多个列或整个表。 对于预定义的数据质量检查,焦点始终是整个表。 有问题的数据百分比 显示有多少数据不符合检查中定义的质量标准。
- 已检查数据并发现问题
已检查的记录数和发现的质量问题数。 这些问题可以在同一记录中,也可以在不同记录中。
- 采样
上次运行检查时应用的采样类型。 对于数据质量规则,如果未配置采样,那么此列将显示短划线 (-)。 对于匹配,列始终显示短划线。 对于预定义的数据质量检查,该列始终具有值。
- 评分
检查针对资产返回的质量分数。
- 计入总分
此设置确定在计算总体分数时是否考虑此特定质量分数。 只能在项目中更改此设置。 您必须是项目管理员或编辑者才能执行此操作。 在目录中,此设置处于锁定状态。 请参阅 数据质量得分。
- 上次检查时间
上次运行检查的日期和时间。
您可以通过单击 列来切换到列概述。
在项目中,如果启用了 IBM Knowledge Catalog的数据质量组件,您还可以选择创建新的数据质量定义或数据质量规则。 您必须是项目管理员或编辑者,并且具有 管理数据质量资产 许可权。
列概述
查看各个列的数据质量信息:
- 列名称。
- 列的总体数据质量得分。
- 适用于资产的任何维度的列质量得分。 如果应用于该列的任何检查都未添加到维度,那么将显示短划线 (-)。
- 对列运行的检查数。
- 在计算总体资产得分和维度得分时是否考虑列的数据质量得分。 作为项目管理员或编辑者,您可以更改该设置。
- 上次检查列的时间。
然后,您可以向下钻取到每个列的数据质量详细信息。 请参阅 列的数据质量信息。
您可以通过单击 检查返回到数据质量检查列表。
列的数据质量信息
访问列的数据质量信息时,您会看到一个部分,其中显示总体数据质量得分,并且您有权访问对该列运行的数据质量检查的结果。 匹配不会添加到列级别数据。
除了质量信息外,您还可以查看将哪些数据类和业务术语分配给该列。
列级别的总体评分
通过质量评分的图形表示,您可以一览列的整体质量以及应用于列的维度的质量级别。 对于这些分数,趋势信息显示维度的总体质量或质量分数随时间变化的情况。 您可以选择是显示 30 天, 90 天还是 180 天的趋势。
列或维度的总体评分是应用于该列的数据质量检查所提供的评分的加权平均值。
在项目中,每次对资产运行影响列的数据质量检查时,都会重新计算总体评分和维评分以及趋势信息。 当您更改影响列的检查的 添加到总体评分 设置时,或者删除数据质量规则或资产概要文件时,也会重新计算评分。
在目录中,从项目发布资产时,将更新总体评分和维度评分以及趋势信息。
有关更多信息,请参阅 数据质量得分。
列级别的数据质量检查结果
在这里,您可以看到哪些检查应用于该列以及结果是什么。 列表按日期排序,最新的检查位于顶部。
- 名称和逻辑
数据质量规则的名称和包含规则逻辑的数据质量定义的名称,或者预定义数据质量检查的名称。
具有外部管理绑定的数据质量规则或基于 SQL 的数据质量规则会对某列的数据质量评分做出贡献,前提是该列以 Validates data quality of 关系作为关联项添加到相应的规则中。 对于与此关系类型链接的所有资产和列,将报告相同的分数和问题。
在项目中,可以单击数据质量规则的名称以查看常规规则配置以及规则的输出表 (如果已配置)。 如果要更新规则配置并具有必需的许可权,可以通过单击 查看数据质量规则直接转至资产。
- Type
检查类型,可以是 数据质量规则 或 概要分析。 对于在元数据扩充上下文中运行的预定义数据质量检查,将显示 概要分析 。 请参阅 预定义的数据质量检查。
- Dimension
与此检查绑定的数据质量维度。 在概要分析期间运行的预定义数据质量检查或作为元数据扩充的一部分运行的预定义数据质量检查已分配缺省维度。 对于数据质量规则,您可以根据需要分配维度。 如果未设置维度,那么该字段将显示 其他。 有关更多信息,请参阅 数据质量维度 和 数据质量评分。
- 有问题的数据所占的百分比
此值显示有多少数据不符合检查中定义的质量标准。
- 已检查数据并发现问题
已检查的记录数和发现的质量问题数。 这些问题可以在同一记录中,也可以在不同记录中。
- 采样
上次运行检查时应用的采样类型。 对于数据质量规则,如果未配置采样,那么此列将显示短划线 (-)。 对于预定义的数据质量检查,该列始终具有值。
- 评分
检查针对列返回的质量分数。
- 计入总分
此设置确定在计算总体分数时是否考虑此特定质量分数。 只能在项目中更改此设置。 您必须是项目管理员或编辑者才能执行此操作。 在目录中,此设置处于锁定状态。 请参阅 数据质量得分。
- 上次检查时间
上次运行检查的日期和时间。
用于数据质量的 IBM Knowledge Catalog API
您可以使用一组 REST API 来生成和检索数据质量信息。
- 数据质量资产 方法
数据质量资产是要接受数据质量检查的数据资产。 示例 API:获取数据质量资产 - 数据质量检查
数据质量检查可以是 (例如) 数据质量规则或在元数据扩充过程中运行的检查。 示例 API:获取数据质量检查 - 数据质量维度
产品随附了一组标准数据质量维度,但您可以创建定制维度。 示例 API:获取数据质量维度列表 - 数据质量问题
数据质量问题是数据资产的数据质量检查发现的问题。 示例 API:获取数据质量问题列表 - 数据质量评分
对于每个数据资产,将生成不同类型的质量评分,例如总体评分或维度评分。 示例 API:获取给定资产的数据质量得分列表
了解更多信息
父主题: 管理数据质量