0 / 0
Volver a la versión inglesa de la documentación
Comprobaciones de calidad de datos predefinidas
Última actualización: 10 sept 2024
Comprobaciones de calidad de datos predefinidas

Las comprobaciones de calidad de datos predefinidas se ejecutan automáticamente cuando se ejecuta el análisis de calidad de datos básicos como parte del enriquecimiento de metadatos. Estas comprobaciones de calidad de datos identifican problemas de calidad básicos con los datos, tanto en el activo de datos como en el nivel de columna.

Las siguientes comprobaciones de calidad de datos generan puntuaciones de calidad individuales y contribuyen a la puntuación de calidad global de un activo de datos o una columna:

Además, cada comprobación de calidad de datos está asociada con una dimensión de calidad de datos. Véase dimensiones de calidad de datos.

Los resultados de estas comprobaciones se muestran como parte de la información de calidad de datos para un activo de datos o una columna. Consulte Resultados de análisis de calidad de datos. Sin embargo, no todas las comprobaciones se aplican a todas las columnas de un activo de datos. Las comprobaciones que se ejecutan dependen del tipo de datos de la columna y de los datos que contiene.

Las comprobaciones predefinidas validan valores individuales (comprobacionesbasadas en valores ) dentro de una columna o los metadatos de columna que se han encontrado durante el perfilado (comprobacionesbasadas en metadatos ).

Violaciones de clase de datos

Una clase de datos es el tipo de datos que se detecta para una columna determinada. Los ejemplos de clases de datos pueden incluir, código postal, país o número de tarjeta de crédito. Esta comprobación cuenta el número de valores de una columna que no coinciden con la clase de datos detectada de dicha columna. Se identifica cada valor que viola la clase. La puntuación de calidad está basada en el porcentaje de valores identificados restado de un porcentaje de 100.

Por ejemplo, una columna tiene asigna una clase de datos de 'número de tarjeta de crédito'. El valor esperado para la clase de datos es una serie numérica de 16 caracteres. Si dicha columna contiene un valor numérico de 'MA', dicho valor se identifica como una violación de la clase de datos. Si esa columna tiene 100 valores, 40 valores no coinciden con la clase, la columna tiene una puntuación de calidad del 60% para esta comprobación porque el 40% de los valores infringen la clase de datos de la columna.

Tipo de comprobación: comprobación basada en valores

Dimensión: Validez

Violaciones de tipo de datos

Un tipo de datos define el formato válido para los datos de una columna concreta. Los ejemplos de tipos de datos pueden incluir, texto, numérico o fecha. Esta métrica hace un recuento del número de valores de una columna que no coinciden con el tipo de datos detectado o asignado de una columna. Se identifica cada valor que no coincida con el tipo de datos inferido en longitud, precisión o escala, o que incumple el tipo de datos especificado. La puntuación de calidad está basada en el porcentaje de valores identificados restado de un porcentaje de 100.

Por ejemplo, una columna tiene especificado un tipo DECIMAL (4,2). Este tipo de datos define el formato de la columna como un valor numérico con una longitud total de 4 dígitos, 2 de los cuales siguen al punto decimal. Si esa columna contiene un valor numérico con demasiados dígitos, ese valor se identifica como una violación del tipo de datos. Si esa columna tiene 100 valores, 40 valores no coinciden con el tipo, la columna tiene una puntuación de calidad del 60% para esta comprobación porque el 40% de los valores infringen el tipo de datos de la columna.

Tipo de comprobación: comprobación basada en valores

Dimensión: Validez

Violaciones de formato

Actualmente, no se evalúa en el enriquecimiento de metadatos. Por lo tanto, siempre se muestra una puntuación de calidad de datos del 100%.

Tipo de comprobación: comprobación basada en valores

Dimensión: Validez

Mayúsculas y minúsculas incoherentes

Esta comprobación examina si las mayúsculas de los valores de una columna son coherentes. En las columnas de tipo de datos String, los valores pueden tener cualquier caso, mayúsculas y minúsculas, o pueden estar en mayúsculas o minúsculas. Si la comprobación detecta que la mayoría (más del 95%) de los valores tienen mayúsculas específicas, el resto de los valores se marcan como problemas de calidad.

Por ejemplo, una columna tiene 100 valores. De estos valores, 90 son minúsculas y 10 mayúsculas. Por lo tanto, la comprobación establece la puntuación de calidad de la columna en el 90% porque el 10% de los valores están en un caso distinto al de la mayoría.

Resolver la violación de mayúsculas y minúsculas incoherentes: Puede investigar la columna o columnas identificadas para obtener más información y determinar cuál es la mejor respuesta. Por ejemplo, en algunos casos, puede ser necesario crear una nota para sugerir la estandarización de una columna.

Tipo de comprobación: comprobación basada en valores

Dimensión: Coherencia

Representación no coherente de valores que faltan

Es común que los activos de datos contengan representaciones variantes de datos ausentes. Una columna de un activo de datos puede contener varios valores de NULL, otros que dicen NA y otros en los que el campo está en blanco. Todos estos valores pueden sugerir que falta información, pero se interpretan de forma diferente y pueden generar un análisis impreciso. La representación incoherente de valores ausentes se detecta identificando columnas que incluyen tanto valores nulos como valores vacíos. Una columna que contiene tanto valores nulos como valores vacíos sugiere que no hay un método estandarizado para representar los valores ausentes. A menudo, cuando una columna contiene valores nulos, cualquier valor vacío también se debe representar como un valor nulo.

Se identifica cada valor que coincide con este criterio en una columna. La puntuación de calidad está basada en el porcentaje de valores identificados restado de un porcentaje de 100.

Abordar la representación de las violaciones de los valores que faltan: puede investigar la columna o columnas identificadas para obtener más información y determinar la mejor respuesta. Por ejemplo, en algunos casos, puede ser necesario crear una nota para sugerir la estandarización de una columna.

Tipo de comprobación: comprobación basada en valores

Dimensión: Coherencia

Valores sospechosos

Esta comprobación busca valores sospechosos que no parecen coincidir con la mayoría de los otros valores de la columna porque sus características son diferentes. Identifica valores atípicos en columnas numéricas o columnas de serie con datos numéricos. Los resultados de las columnas de serie con valores de serie se ignoran. La puntuación de calidad está basada en el porcentaje de valores identificados restado de un porcentaje de 100.

Por ejemplo, si una columna contiene 100 valores y 98 de ellos son cadenas numéricas de entre 5 y 9 caracteres, pero dos son cadenas de texto de entre 30 y 45 caracteres, esos dos valores se identifican como sospechosos porque no coinciden con las características de los otros valores. Para esta comprobación individual, la columna tiene una puntuación de calidad del 98% porque el 2% de los valores son sospechosos.

Abordar las violaciones de valores sospechosos: puede investigar la columna o columnas identificadas para obtener más información y determinar la mejor respuesta. Por ejemplo, en algunos casos, puede ser necesario crear una nota para sugerir la estandarización de una columna.

Tipo de comprobación: comprobación basada en valores

Dimensión: Coherencia

Valores duplicados inesperados

Esta comprobación identifica los valores duplicados en las columnas en las que la mayoría de los valores son exclusivos. Todos los valores no exclusivos se marcan como problemas de calidad. El umbral de exclusividad se establece en los valores de enriquecimiento de metadatos. El valor predeterminado es 95%. Consulte Umbral de exclusividad.

La puntuación de calidad está basada en el porcentaje de valores identificados restado de un porcentaje de 100. Por ejemplo, un conjunto de datos de pacientes contiene una columna con números de seguridad social. La mayoría de los valores de la columna sólo aparecen una vez porque cada paciente sólo está asociado a un SSN. Se identifica cada valor duplicado de esta columna. Si la columna tiene 100 valores, 3 valores son duplicados, la columna tiene una puntuación de calidad del 97% para esta comprobación porque el 3% de los valores son duplicados.

Tipo de comprobación: comprobación basada en metadatos

Dimensión: Exclusividad

Valores perdidos inesperados

Esta comprobación busca valores perdidos inesperados en las columnas. Si una columna está cerca de no tener valores nulos o vacíos, las filas con valores perdidos se consideran incompletas. El umbral nulo determina cuándo se permiten los valores perdidos y cuándo se consideran inesperados los valores perdidos. Este umbral se establece en los valores de enriquecimiento de metadatos. El valor predeterminado es 5%, lo que significa que los valores perdidos en 5% o menos de las filas de una columna se consideran valores perdidos inesperados. Consulte Nullability.

La puntuación de calidad se basa en el porcentaje de valores de esa columna que se han completado. Por ejemplo, con el valor predeterminado, si una columna tiene 100 valores y faltan 4 valores, la puntuación de calidad para esta comprobación es del 96%. Si faltan 9 valores, la puntuación de calidad es del 100% porque el número de valores perdidos está por encima del umbral establecido y los valores perdidos no se consideran inesperados.

Tipo de comprobación: comprobación basada en valores

Dimensión: Completitud

Valores fuera de rango

Actualmente, no se evalúa en el enriquecimiento de metadatos. Por lo tanto, siempre se muestra una puntuación de calidad de datos del 100%.

Tipo de comprobación: comprobación basada en valores

Dimensión: Validez

Más información

Tema padre: Gestión de calidad de datos

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información