0 / 0
Go back to the English version of the documentation
预定义的数据质量检查
Last updated: 2024年9月10日
预定义的数据质量检查

在元数据扩充过程中运行基本数据质量分析时,将自动运行预定义的数据质量检查。 这些数据质量检查可识别数据资产和列级别上的数据的基本质量问题。

以下数据质量检查会生成个人质量得分,并对数据资产或列的总体质量得分作出贡献:

此外,每个数据质量检查都与一个数据质量维度相关联。 请参阅 数据质量维度 (Data Quality dimensions)

这些检查结果显示为数据资产或列的数据质量信息的一部分。 请参阅 数据质量分析结果。 但是,并非每个检查都应用于数据资产中的所有列。 运行哪些检查取决于列的数据类型及其包含的数据。

预定义的检查将验证列中的各个值 (基于值的 检查) 或概要分析期间找到的列元数据 (基于元数据的 检查)。

数据类违例

数据类是为特定列检测的数据类型。 数据类的示例可能包括邮政编码、国家或地区或者信用卡号。 此检查对列中与该列的检测数据类不匹配的值进行计数。 系统会识别违反类的每个值。 质量得分基于从 100% 中减去所识别的值的百分比所得结果。

例如,某列分配有数据类“credit card number”。 该数据类的期望值是 16 个字符的数字字符串。 如果该列包含值“MA”,那么会将该值标识为数据类违例。 如果该列具有 100 个值, 40 个值与该类不匹配,那么该列的质量得分为 60% ,因为 40% 的值违反了该列的数据类。

检查类型: 基于值的检查

维: 有效性

数据类型违例

数据类型定义特定列中的数据的有效格式。 数据类型的示例可能包括文本、数字或日期。 此指标对某列中与该列的已检测或已分配数据类型不匹配的值进行计数。 系统会识别在长度、精度或小数位方面与推断数据类型不匹配或者违反指定数据类型的每个值。 质量得分基于从 100% 中减去所识别的值的百分比所得结果。

例如,某列指定数据类型为 DECIMAL (4,2)。 该数据类型将此列的格式定义为总长度为 4 位数的数字值,其中小数点后有 2 位数。 如果该列包含具有过多数字的数字值,那么会将该值标识为数据类型的违例。 如果该列具有 100 个值, 40 个值与类型不匹配,那么对于此检查,该列的质量得分为 60% ,因为 40% 的值违反了该列的数据类型。

检查类型: 基于值的检查

维: 有效性

格式违例

目前,尚未在元数据丰富化中进行评估。 因此,始终显示 100% 的数据质量得分。

检查类型: 基于值的检查

维: 有效性

大写不一致

该检查将检查一列中数值的大写是否一致。 在数据类型为 "字符串" 的列中,值可以具有任何大小写,标题大小写,句子大小写,也可以是大写或小写。 如果检查发现大部分(超过 95%)数值都有特定的大写字母,那么其余数值就会被标记为质量问题。

例如,一列有 100 个值。 在这些数值中,90 个为小写,10 个为大写。 因此,此检查会将列的质量得分设置为 90% ,因为 10% 的值与大多数值的情况不同。

处理大小写不一致违例:您可以调查已识别的一列或多列来获取更多信息并确定最佳响应。 例如,在某些情况下,可能需要创建注释以建议对列进行标准化处理。

检查类型: 基于值的检查

维: 一致性

缺失值的表示不一致

数据资产包含缺失值的不同表示非常常见。 数据资产中的一列可能包含多个 NULL 值,其他若干列显示 NA,还有一些列中的字段则为空白。 所有这些值都可能表明缺少信息,但是它们以不同方式进行解释,并且可能导致分析不准确。 通过识别具有 null 值和空值的列,将会检测到缺失值的表示不一致的情况。 同时包含 null 值和空值的列表明没有标准化方法来表示缺失值。 通常当列包含 null 值时,任何空值也应表示为 null。

列中与以上条件匹配的每个值均会被识别。 质量得分基于从 100% 中减去所识别的值的百分比所得结果。

处理缺失值的表示违例:您可以调查已识别的一列或多列来获取更多信息并确定最佳响应。 例如,在某些情况下,可能需要创建注释以建议对列进行标准化处理。

检查类型: 基于值的检查

维: 一致性

可疑值

此检查将查找似乎与列中大多数其他值不匹配的可疑值,因为它们的特征不同。 它标识数字列或具有数字数据的字符串列中的离群值。 将忽略具有字符串值的字符串列的结果。 质量得分基于从 100% 中减去所识别的值的百分比所得结果。

例如,如果某列包含 100 个值,其中 98 个值是长度在 5 到 9 个字符之间的数字字符串,但剩余两个值是长度在 30 到 45 个字符之间的文本字符串,那么会将这两个值标识为可疑,因为它们与其他值的特征不匹配。 对于此单独检查,该列的质量得分为 98% ,因为 2% 的值可疑。

处理可疑值违例:您可以调查已识别的一列或多列来获取更多信息并确定最佳响应。 例如,在某些情况下,可能需要创建注释以建议对列进行标准化处理。

检查类型: 基于值的检查

维: 一致性

意外的重复值

此检查标识列中大多数值唯一的重复值。 所有非唯一值都标记为质量问题。 在元数据扩充设置中设置唯一性阈值。 缺省设置为 95%。 请参阅 唯一性阈值 (唯一性 threshold)

质量得分基于从 100% 中减去所识别的值的百分比所得结果。 例如,一组患者数据包含具有社会保险号码的列。 该列中的大多数值只出现一次,因为每个病人只与一个 SSN 关联。 系统会识别此列中的每个重复值。 如果该列具有 100 个值,那么 3 个值是重复值,那么对于此检查,该列的质量得分为 97% ,因为 3% 的值是重复值。

检查类型: 基于元数据的检查

维: 唯一性

意外缺失值

此检查在列中查找意外的缺失值。 如果列接近没有 null 值或空值,那么具有缺失值的行将被视为不完整。 空阈值确定何时允许缺失值以及何时认为缺失值是意外的。 此阈值在元数据扩充设置中设置。 缺省设置为 5% ,这意味着列中 5% 或更少行中的缺失值被视为意外的缺失值。 请参阅 Nullability (Nullability)

质量得分基于该列中完成的值的百分比。 例如,使用缺省设置时,如果列具有 100 个值并且缺少 4 个值,那么此检查的质量得分为 96%。 如果 9 值缺失,那么质量得分为 100% ,因为缺失值的数量超过了设置的阈值,并且未将缺失值视为意外值。

检查类型: 基于值的检查

维: 完整性

超出范围的值

目前,尚未在元数据丰富化中进行评估。 因此,始终显示 100% 的数据质量得分。

检查类型: 基于值的检查

维: 有效性

了解更多信息

父主题: 管理数据质量

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more