设计数据质量资产,用于分析和监视项目中的数据质量。
您可以在项目中拥有以下数据质量资产:
在开始创建数据质量定义和规则之前,请先考虑以下主题:
- 您要分析和监视哪些内容?
- 您需要评估哪些元素?
- 分析的目标是什么,比如检查完备性,有效性等?
- 所需许可权
- 要创建,编辑或删除数据质量资产,您必须具有项目中的 管理数据质量资产 用户许可权 和 管理员 或 编辑者 角色。
数据质量定义
数据质量定义表示数据质量规则的通用格式。 它通过使用未与任何实际数据绑定的逻辑变量来描述规则求值或条件。 因此,它可以在任意数量的 数据质量规则中使用。 如果更改数据质量定义,那么还会更改从该定义派生的所有规则的验证逻辑。
您可以在项目中创建和管理数据质量定义。 要使数据质量定义可供在其他项目中复用,您可以将其发布到目录。
数据质量定义的属性
除公共资产属性外,数据质量定义在项目中具有以下属性。 具有相应许可权的用户可以编辑所有属性。
有关公共属性的更多信息,请参阅 资产的公共属性。
属性 | 描述 |
---|---|
规则表达式 (Rule Expression) | 定义的规则逻辑。 对规则表达式的更改将影响从此数据质量定义派生的所有规则。 |
数据质量维度 | 可选。 规则逻辑的主数据质量度量。 所选维度可用作报告类别,用于过滤或可视化所选数据。 |
监管工件 | 可选。 用户分配给资产的业务术语和监管规则。 |
数据质量规则
数据质量规则将逻辑变量链接或 绑定 到实际数据以进行求值。 针对物理数据运行规则,以通过评估和验证特定条件来评估数据质量。 每个规则运行都提供有关为规则的输出表定义的潜在异常的统计信息和信息。
您可以在项目中创建,管理和运行数据质量规则。
您可以从一个或多个数据质量定义创建规则,也可以使用 SQL 语句创建数据质量规则。 根据数据质量定义构建的规则会捕获哪些列符合规则条件,哪些不符合规则条件。 基于 SQL 的规则更适合检查不合规的记录。
例如,您要验证税务标识。 因此,您的概念可能是 TaxID exists 和 验证 TaxID。
现在,您有以下选项:
根据数据质量定义创建规则。 对于任一概念,都可以使用逻辑变量
tax_id
的求值逻辑来创建数据质量定义。 第一个条件是税款标识 (或 TaxID) 必须存在,第二个条件是税款标识必须满足定义的格式。数据质量定义 TaxID 已存在:
tax_id exists
数据质量定义 验证 TaxID:tax_id matches_format 'AA99-A999-9999'
然后,选择下列其中一个选项:
- 对于包含要验证的税款标识的每个列,定义两个数据质量规则。 第一个规则将定义 TaxID 已存在 的逻辑变量
tax_id
绑定到列。 第二个规则将定义 验证 TaxID 的逻辑变量tax_id
绑定到该列。 - 对于包含要验证的税款标识的每个列,请定义一个数据质量规则,并在该规则中使用这两个数据质量定义。 将定义 TaxID 已存在 和 验证 TaxID 中的逻辑变量
tax_id
绑定到列。 - 定义一个数据质量规则,并在该规则中同时使用两个数据质量定义。 将定义 TaxID 已存在 和 验证 TaxID 中的逻辑变量
tax_id
绑定到类型为 列中的参数的参数集。 将包含要验证的税款标识的所有列添加到该参数集。
- 对于包含要验证的税款标识的每个列,定义两个数据质量规则。 第一个规则将定义 TaxID 已存在 的逻辑变量
创建基于 SQL 的规则:
select tax_id from taxschema.taxtable where tax_id is null or not regexp_like(tax_id, '^[a-zA-Z]{2}[0-9]{2}-[a-zA-Z][0-9]{3}-[0-9]{4}$')
数据质量规则的属性
除公共资产属性外,数据质量规则在项目中具有以下属性。 具有相应许可权的用户可以编辑所有属性。
有关公共属性的更多信息,请参阅 资产的公共属性。
属性 | 描述 | 规则类型 |
---|---|---|
绑定表达式 | 规则表达式的列表。 对于简单规则,您可以通过将鼠标悬停在绑定表达式中的标记上来查看有关绑定目标的信息。 | 具有外部绑定的简单规则 规则 |
SQL 连接 | 与将应用规则的数据源的连接。 | 基于 SQL 的规则 |
SQL 语句 | 构成规则的 SQL 查询。 | 基于 SQL 的规则 |
数据质量维度 | 可选。 数据质量规则所提供的主数据质量指标。 | 具有外部绑定的简单规则 规则 |
相关 DataStage 流 | 提供规则绑定的 DataStage 流。 | 具有外部绑定的规则 |
数据质量定义 | 提供规则表达式的数据质量定义。 | 具有外部绑定的简单规则 规则 |
监管工件 | 可选。 用户分配给资产的业务术语和监管规则。 | 简单规则 具有外部绑定的规则 基于 SQL 的规则 |
关系 | 关系显示在 相关对象 部分中。 可以在同一项目中的数据质量规则与资产或列之间,也可以在规则与工件之间。 将自动创建以下关系: 对于所有规则类型,在第一次运行规则 对于具有外部管理的绑定的规则,将 由 与关联的 DataStage 流实现。 由 与关联 DataStage 子流的关系实现 对于简单规则, 验证 与每个绑定列的数据质量关系以及与包含该列的资产的数据质量关系。 对于具有外部管理的绑定的简单规则,每个引用的数据质量定义的 实现 关系 根据需要添加相关对象。 " 数据质量 " 页面显示此处列出的每个相关资产或列的汇总信息,其中包含 验证 关系的数据质量。 |
简单规则 具有外部绑定的规则 基于 SQL 的规则 |
已选择的输出 | 可选。 如果已配置,那么为规则输出表的列。 | 简单规则 具有外部绑定的规则 基于 SQL 的规则 |
了解更多信息
父主题: 管理数据质量