度量,监视和维护数据质量,以确保数据满足特定用例的期望和标准。
质量良好的数据处于通常可定义为 适合使用, 无缺陷或 满足期望和需求的状态。 根据缺省质量维度 准确性, 完整性, 一致性, 及时性, 唯一性和 有效性以及任何定制质量维度来度量数据质量。
数据质量分析提供了以下问题的答案:
- 数据资产的整体质量有多好?
- 哪些数据资产质量更好?
- 数据资产的质量如何随时间变化?
要求和限制
对于数据质量管理,存在以下要求和限制。
所需的服务
数据质量管理需要以下服务:
- IBM Knowledge Catalog
- DataStage或DataStage as a Service Anywhere
使用DataStage,您可以在支持的区域运行数据质量规则。 借助DataStage as a Service Anywhere,您可以使用远程引擎在IBM Cloud之外运行数据质量规则。 有关设置远程引擎的详细信息,请参阅DataStage as a Service Anywhere文档。
数据质量工具
您可以使用以下工具:
数据格式
支持以下数据格式:
- 来自关系数据源和非关系数据源的表
- 表格:Avro、CSV、Parquet、ORC;对于从本地文件系统上传的数据资产,仅限 CSV
有关受支持的连接器的信息,请参阅 用于组织和数据质量的受支持数据源。
数据大小
可以对任何大小的数据执行数据质量管理任务。
必需的许可权
您的角色确定您可以执行哪些数据质量管理任务:
- 要查看数据质量定义和规则,您必须在项目中至少具有 查看者 角色。
- 要创建,编辑或删除数据质量定义和规则,您必须在项目中具有 管理员 或 编辑者 角色。 此外,您必须具有 管理数据质量资产 用户许可权。
- 要运行数据质量规则,您必须在项目和 执行数据质量规则 用户许可权中具有 管理员 或 编辑者 角色。
- 要从规则运行历史记录或 Data quality 页面查看导致数据质量问题的数据(输出表),您必须拥有 Drill down to issue details 用户权限。 但是,任何可以访问连接的人都可以访问项目中为输出表创建的数据资产。 为限制对该数据资产的访问,应使用个人凭据设置与存储输出表的数据源的连接。
- 要创建、编辑或删除数据质量 SLA 规则,您必须拥有这些用户权限 :
- 访问监管工件
- 管理数据质量 SLA 规则
工作空间
您可以在项目中执行数据质量管理任务。 目录中提供了只读数据质量信息。
数据质量分析和监视
使用数据质量分析和监视来根据特定条件评估数据。 随着时间的推移,重复使用这些评估标准,以查看正在验证的数据质量的重要更改。
设计数据质量检查后,您可以使用以下选项:
创建定义数据检查逻辑的数据质量定义,而不考虑数据源。 定义包含在创建可执行的数据质量规则时链接或 绑定 到实际数据 (例如,数据源,表和列或连接表) 的逻辑变量或引用。
在根据选择数据质量定义创建具有所需绑定的数据质量规则之后,可以执行该规则。 该规则生成相关统计信息,并可根据规则配置生成输出表。
创建基于 SQL 的数据质量规则。
数据质量规则的功能可以从简单的单列测试到对数据源内和数据源之间的多个列进行求值。
评估数据质量
要确定您的数据是否质量良好,请检查数据在多大程度上符合您的期望,并识别数据中的异常。 对数据进行质量评估也可以帮助您了解数据的结构和内容。
监测数据质量
为确保重要数据符合组织的质量预期,应实施数据质量 SLA 规则,以监控数据是否符合标准,并对检测到的数据质量问题进行补救。
了解更多信息
父主题: 准备数据