0 / 0
Go back to the English version of the documentation
数据质量分数
Last updated: 2024年12月13日
数据质量分数

将显示整个数据资产以及所分析的数据资产包含的所有列的数据质量得分。 根据在整个资产及其列上运行的数据质量检查结果计算数据质量得分。

以下类型的数据质量检查提供数据质量得分:

  • 预定义的数据质量检查

    当您在元数据扩充过程中运行质量分析时,将运行这些检查。 每个检查都在整个资产上运行,但可能不会返回其所有列的结果,具体取决于检查类型。

    每个预定义的数据质量检查都与一个数据质量维度相关联。

  • 数据质量规则 (管理数据质量规则)

    数据质量规则验证数据源中的特定条件。 它们可以手动运行,也可以按调度自动运行。

    数据质量规则可以向多个维度添加内容,具体取决于规则的配置。 如果没有为规则设置维度,那么会将其结果捕获为维度评分

  • IBM Match 360 匹配

对于每项检查,您可以确定其结果是否有助于总体数据质量得分。 请参阅 数据质量分析结果

您还可以使用 IBM Knowledge Catalog API 检索单个资产的数据质量分数。

如何计算数据质量得分

列得分 计算为列的可用维得分的加权平均值,这表示至少对其运行了一次数据质量检查并返回了结果的所有维的得分。

维度得分( 实体置信度 维度除外) 是通过将数据质量检查为此维度查找的所有问题的概率数相乘来计算的,其中问题的概率数为 (1-frequency)。 例如,假定列具有针对同一维度报告的 2 个不同的质量问题。 发出 1 的频率为 10% ,发出 2 的频率为 20%。 因此,该列中的值 具有问题 1 的概率为 90%。 对于问题 2 ,为 80%。 所以,该列在该维度中确实存在任何质量问题的概率为 72% ,计算方法如下:

(1.0 - 0.1) × (1.0 - 0.2) = 0.9 × 0.8 = 0.72

对于 实体置信度 维度,维度分数表示特定实体类型的实体中没有具有潜在匹配问题的记录作为成员的百分比。

资产评分 (总体评分或维评分) 按其列的相应评分的加权平均值计算。

在项目中,您可以通过更改 将内容添加到总体评分 设置来更改计算评分时所考虑的内容。 缺省情况下,此设置处于开启状态。 您可以排除整个列的结果以及列级别或资产级别的某些检查的结果。

在项目中,将在以下情况下重新计算质量得分:

  • 数据质量分析在元数据扩充的上下文中运行。
  • 现有或新的数据质量规则将在资产上运行。
  • 将删除添加到评分的数据质量规则。
  • 对总体分数的贡献 设置已更改。
  • 将更新 IBM Match 360 实体数据资产。

在目录中,再次发布资产时,质量得分会更改。

评分计算示例

假定数据资产具有列标识, NAME , EMAIL , PHONE 和 SALARY。 所有列和所有类型的问题都会影响总体评分 (缺省设置)。

最初,由于未在资产上运行数据质量检查,因此没有可用的数据质量评分。 要生成数据质量信息:

  1. IBM Match 360 分析在数据资产上运行,并识别以下问题:

    • 数据资产的 10% 匹配实体。 对于数据质量维度 实体置信度,将考虑此信息。

      计算资产级别的以下分数:

      • 维评分
        实体置信度: (1- 0.1) = 90%

      • 总分: 90%

  2. 在元数据扩充过程中运行数据质量分析。 质量分析可识别以下问题:

    • 缺失值,对于数据质量维度 完整性考虑这些值:
      • 列 NAME 中值的 3%
      • 列 EMAIL 中值的 5%
      • 列 PHONE 中值的 3%
    • 针对数据质量维度 有效性考虑的数据类违例:
      • 列 EMAIL 中值的 10%
      • 列 PHONE 中值的 6%
    • 对于数据质量维度 一致性考虑的离群值或可疑值:
      • 列 NAME 中值的 4%
      • 列 SALARY 中值的 1%

    这些结果将生成各个列的以下评分:

    • 列 ID
      • 维评分
        实体置信度: 90% (未更改)
        完整性: 100% ( 意外缺失值 检查未发现任何问题。)
        有效性: 100% (没有预定义的 有效性 检查发现任何问题。)
        一致性: 100% (预定义的 一致性 检查发现任何问题。)
      • 总体列得分: (90% + 100% + 100% + 100%) /4 = 97.5%
    • 列名
      • 维评分
        实体置信度: 90% (未更改)
        完整性: 100%-3% = 97%
        有效性: 100%
        一致性: 100%-4% = 96%
      • 总体列得分: (90% + 97% + 100% + 96%) /4 = 95.75%
    • 列 EMAIL
      • 维评分
        实体置信度: 90% (未更改)
        完整性: 100%-5 %= 95%
        有效性: 100%-10% = 90%
        一致性: 100%
      • 总体列得分: (90% + 95% + 90% + 100%) /4 = 93.75%
    • 列 PHONE
      • 维评分
        实体置信度: 90% (未更改)
        完整性: 100%-3% = 97%
        有效性: 100%-6% = 94%
        一致性: 100%
      • 总体列得分: (90% + 97% + 94% + 100%) /4 = 95.25%
    • 列 SALARY
      • 维评分
        实体置信度: 90% (未更改)
        完整性: 100%
        有效性: 100%
        一致性: 100%-1% = 99%
      • 总体列得分: (90% + 100% + 100% + 99%) /4 = 97.25%

    根据这些分数,将计算资产级别的分数:

    • 维度评分
      实体置信度: (90% + 90% + 90% + 90% + 90%) /5 = 90%
      完整性: (100% + 97% + 95% + 97% + 100%) /5 = 97.8%
      有效性: (100% + 100% + 90% + 94% + 100%) /5 = 96.8%
      一致性: (100% + 96% + 100% + 100% + 99%) /5 = 99%

    • 总体评分: (97.5% + 95.75% + 93.75% + 95.25% + 97.25%) /5 = 95.9%

  3. 运行数据质量规则 Name_Complete ,应用于列 NAME 以验证其是否包含名字和姓氏。 该规则与数据质量维度 完整性绑定。 该规则在列 NAME 中报告 1% 违例。

    NAME 列的得分变化如下。 其他列的得分保持不变。

    • 维评分
      实体置信度: 90% (未更改)
      完整性: (1-0.03) × (1-0.01) = 0.9603 = 96.03%
      有效性: 100% (未更改)
      一致性: 96% (未更改)
    • 总体得分: (90% + 96.03% + 100% + 96%) /4 = 95.5%

    这些更改还会更改资产评分。

    • 维评分
      实体置信度: 90% (未更改)
      完整性: (100% + 96% + 95% + 97% + 100%) /5 = 97.6%
      有效性: 96.8% (未更改)
      一致性: 99% (未更改)
    • 总体得分: (97.5% + 95.5% + 93.75% + 95.25% + 97.25%) /5 = 95.85%
  4. 运行额外的数据质量规则 Phone_Valid ,应用于列 PHONE 以验证电话号码是否具有对应于地址的国家或地区代码和前缀。 该规则与数据质量维度 有效性绑定。 该规则在列 PHONE 中报告 2% 违例。

    PHONE 列的得分变化如下。 其他列的得分保持不变。

    • 维评分
      实体置信度: 90% (未更改)
      完整性: 97% (未更改)
      有效性: (1.0-0.06) × (1.0-0.02) = 0.9212 = 92.12%
      一致性: 100%
    • 总体得分: (90% + 97% + 92.12% + 100%) /4 = 94.78%

    这些更改还会导致资产评分发生更改。

    • 维评分
      实体置信度: 90% (未更改)
      完整性: 97.6% (未更改)
      有效性: (100% + 100% + 90% + 92.12% + 100%) /5 = 96.42%
      一致性: 99% (未更改)
    • 总体得分: = (97.5% + 95.5% + 93.75% + 94.78% + 97.25%) /5 = 95.76%
  5. 设置要忽略的维度 一致性 的所有检查以进行评分计算。 不再显示维度 一致性 的维度分数。 所有其他维度评分保持不变。 将重新计算总体列和资产评分。

    • Column scores
      xx Column ID: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 100%)/(1 + 1 + 1 + 0) = 96.67%
      Column NAME: (1 × 90% + 1 × 96.03% + 1 × 100% + 0 × 96%)/(1 + 1 + 1 + 0) = 95.34%
      Column EMAIL: (1 × 90% + 1 × 95% + 1 × 90% + 0 × 100%)/(1 + 1 + 1 + 0) = 91.67%
      Column PHONE: (1 × 90% + 1 × 97% + 1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 0) = 94.78%
      Column SALARY: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 99%)/(1 + 1 + 1 + 0) = 96.67%

    • 总体资产分数: (96.67 + 95.34% + 91.67% + 93.04% + 96.67)/5 = 94.68%

  6. 从分数计算中排除列 SALARY 的结果。 列得分不变。 将按如下所示重新计算资产的总体评分和维度评分:

    • Dimension scores
      实体置信度: (1 × 90% + 1 × 90% + 1 × 90% + 1 × 90% + 0 × 90%)/(1 + 1+ 1 + 1 + 0) = 90%
      完整性: (1 × 100% + 1 × 96.03% + 1 × 95% + 1 × 97% + 0 × 100%)/(1 + 1+ 1 + 1 + 0) = 97%
      有效性: (1 × 100% + 1 × 100% +1 × 90% +1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 1 + 0) = 95.53%
      一致性: not shown
    • 总体资产得分 = (100% + 98.02% + 92.5% + 92.74% + 0%)/(1 + 1 + 1 + 1 + 0) = 95.82%

了解更多信息

父主题: 数据质量分析结果

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more