Cuando se analiza correctamente un activo de datos, los resultados se muestran en el nivel del activo de datos y en el nivel de columna. Los resultados del análisis incluyen información sobre el contenido y la estructura del activo de datos y métricas sobre la calidad global de los datos.
Los resultados del análisis de calidad de datos están disponibles en la página Calidad de datos del activo en un proyecto o un catálogo. También puede acceder a ellos desde dentro de un enriquecimiento de metadatos pulsando la puntuación de calidad de un activo o una columna.
- Permisos necesarios
- Para ver los resultados del análisis, debe ser un colaborador en el espacio de trabajo.
Para cambiar la forma en que se calculan las puntuaciones, debe tener el rol Admin o Editor en el proyecto.
Para crear nuevas comprobaciones de calidad de datos, debe tener el rol Admin o Editor en el proyecto y el permiso Gestionar activos de calidad de datos .
Para ver los datos que causaron problemas de calidad de datos (la tabla de salida) desde el historial de ejecución de reglas o la página Calidad de datos, debe tener el permiso Desglosar para ver los detalles del problema. Sin embargo, el activo de datos en el proyecto que se crea para la tabla de salida es accesible por cualquiera que pueda acceder a la conexión. Para limitar el acceso a este activo de datos, la conexión a la fuente de datos donde se almacena la tabla de salida debe configurarse con credenciales personales.
La información de calidad de datos pasa a estar disponible en un proyecto o un catálogo como se indica a continuación:
En un proyecto, después de ejecutar la primera comprobación de calidad de datos en el activo de datos de una de estas maneras o cuando se añade un activo de datos de entidad IBM Match 360 conectado:
- El análisis de calidad de datos se ejecuta en el activo como parte del enriquecimiento de metadatos.
- Una regla de calidad de datos se ejecuta en el activo.
En un catálogo:
- Un activo de datos con información de calidad de datos se publica en el catálogo.
Las puntuaciones de calidad se vuelven a calcular y los datos se renuevan como se indica a continuación:
En un proyecto, cada vez que se ejecuta una comprobación de calidad de datos en el activo o cuando se actualiza un activo de datos de entidad IBM Match 360 :
- Un análisis de calidad de datos se ejecuta en el contexto del enriquecimiento de metadatos.
- Una regla de calidad de datos se ejecuta en el activo.
- El algoritmo de coincidencia IBM Match 360 se ha modificado o se han solucionado posibles problemas de coincidencia.
En un catálogo:
- Un activo se publica desde un proyecto.
Puede ver inmediatamente cuándo se actualizaron por última vez las puntuaciones de calidad.
Información de calidad de datos para un activo
Cuando accede a la información de calidad de datos de un activo, ve las puntuaciones de calidad de datos generales y los resultados de las comprobaciones de calidad de datos que se han ejecutado en el activo. Además, tiene acceso a los resultados del análisis para las columnas de activos.
Si las reglas de SLA de calidad de datos se evalúan como parte del enriquecimiento de metadatos, los activos sujetos a una regla de SLA de calidad de datos también tendrán información sobre el cumplimiento de SLA.
Puntuaciones generales a nivel de activo
Una representación gráfica de las puntuaciones de calidad le proporciona una vista rápida de la calidad global del activo y del nivel de calidad con respecto a las dimensiones que se aplican al activo. Para estas puntuaciones, la información de tendencia muestra cómo ha cambiado la calidad global o la puntuación de calidad de una dimensión a lo largo del tiempo. Puede seleccionar si la tendencia se muestra durante un periodo de 30, 90 o 180 días. Una dimensión no muestra información de tendencias si antes no se ha aportado ninguna comprobación a esta dimensión.
La puntuación de activo global es la media ponderada de las puntuaciones proporcionadas por las columnas de activo. Cada puntuación de dimensión es la media ponderada de las puntuaciones de dimensión correspondientes proporcionadas por las comprobaciones individuales.
Las puntuaciones global y de dimensión y la información de tendencia se vuelven a calcular para estos cambios:
- Se ejecuta una comprobación de calidad de datos en el activo.
- El valor Contribuye a la puntuación global para una comprobación o se cambia una columna.
- Se suprime una regla de calidad de datos que se ha aplicado al activo.
- El perfil de activo se suprime en la página Perfil del activo.
- El activo se actualiza en IBM Match 360.
Para obtener más información, consulte Puntuaciones de calidad de datos.
Cumplimiento de las normas SLA de calidad de datos
Para un activo sujeto a una o más reglas de SLA de calidad de datos, se enumeran las reglas de SLA aplicadas con sus resultados y la fecha y hora de la última evaluación. Para una regla SLA violada, se muestra el número de violaciones, que pueden ser en tablas, columnas o ambas dependiendo de las condiciones de la regla, y si se configuró una acción para la regla. Si un flujo de trabajo de corrección de calidad de datos está vinculado a la regla de SLA de calidad de datos infringida, también puede ver el estado de cualquier tarea de corrección que se haya iniciado.
Puede desglosar los resultados de cada regla SLA de calidad de datos. Para ver detalles sobre las infracciones y las comprobaciones que contribuyeron a una puntuación de dimensión en los criterios de calidad de la regla SLA, haga clic en el nombre de la regla SLA. La sección Infracciones proporciona información sobre el elemento para el que se ha encontrado la infracción, los criterios de calidad que se han definido, la puntuación de calidad real del elemento y la desviación en puntos porcentuales (pp). También puede ver los detalles de la regla o editarla si dispone de los permisos necesarios.
Para los activos que no están sujetos a ninguna norma de SLA de calidad de datos, esta sección está vacía.
La información sobre el cumplimiento de las normas SLA de calidad de datos o las tareas de corrección no está disponible en los catálogos.
Resultados de comprobación de calidad de datos a nivel de activo
Aquí, puede ver qué comprobaciones se han ejecutado en el activo y cuáles han sido los resultados. La lista se ordena por fecha con las comprobaciones más recientes en la parte superior.
- Nombre y lógica
El nombre de una regla de calidad de datos y el nombre de la definición de calidad de datos que contiene la lógica de reglas, o el nombre de una comprobación de calidad de datos predefinida.
Las reglas de calidad de datos con enlaces administrados externamente o reglas de calidad de datos basadas en SQL contribuyen a las puntuaciones de calidad de datos de un activo si ese activo se agrega como un elemento relacionado a la regla correspondiente con la Valida la calidad de los datos de relación. Se informa de la misma puntuación y problemas para todos los activos y columnas que están enlazados con este tipo de relación.
Las comprobaciones de calidad de datos predefinidas se ejecutan en todo el activo. Sin embargo, no todos ellos devuelven resultados para todas las columnas. Por ejemplo, la comprobación Valores sospechosos identifica valores atípicos en columnas numéricas o columnas de serie con datos numéricos, pero no devuelve resultados para columnas de serie con valores de serie. Por lo tanto, la lista de comprobaciones de calidad de datos predefinidas puede ser más corta para columnas individuales.
En un proyecto, puede pulsar el nombre de una comprobación de calidad de datos para obtener detalles. Para comprobaciones de calidad de datos predefinidas, vea información sobre los resultados: las columnas que tienen problemas y el número y porcentaje de valores en las columnas que se han identificado como problemas de calidad. Si se configura una tabla de salida para estos problemas, un usuario con los permisos adecuados puede ver las filas reales donde los datos causan problemas de calidad. Para las reglas de calidad de datos, puede ver la configuración de regla general y tener acceso a la tabla de salida de la regla si hay una configurada. Si desea actualizar la configuración de regla y tiene los permisos necesarios, puede ir directamente al activo pulsando Ver regla de calidad de datos.
Para los activos de datos de entidad IBM Match 360 conectados, se muestra Coincidencias potenciales para la coincidencia. No se proporciona más información para este tipo de comprobación.
- Type
El tipo de comprobación, que puede ser Regla de calidad de datos, Coincidenciao Perfilado. Se muestra Coincidencia para los resultados de IBM Match 360 . Perfilado se muestra para las comprobaciones de calidad de datos predefinidas que se han ejecutado en el contexto del enriquecimiento de metadatos. Consulte Comprobaciones de calidad de datos predefinidas.
- Dimensión
La dimensión de calidad de datos a la que está vinculada esta comprobación. Las comprobaciones de calidad de datos predefinidas que se ejecutan durante el perfilado o como parte del enriquecimiento de metadatos tienen dimensiones predeterminadas asignadas. Para las reglas de calidad de datos, asigne dimensiones según sea necesario.
Para activos de datos de entidad IBM Match 360 conectados, se muestra la dimensión Confianza de entidad .
Si no se establece ninguna dimensión, el campo muestra Ninguno. Para obtener más información, consulte Dimensiones de calidad de datos y Puntuaciones de calidad de datos.
- Foco y porcentaje de datos con problemas
En función del tipo de comprobación, el foco puede ser una o más columnas o una tabla entera. Para las comprobaciones de calidad de datos predefinidas, el foco siempre es toda la tabla. Porcentaje de datos con problemas muestra la cantidad de datos que no cumplen los criterios de calidad definidos en la comprobación.
- Datos comprobados y problemas encontrados
El número de registros que se han comprobado y el número de problemas de calidad que se han encontrado. Estos problemas pueden estar en los mismos registros o en registros diferentes.
- Muestreo
El tipo de muestreo que se ha aplicado en la última ejecución de la comprobación. Para las reglas de calidad de datos, esta columna muestra un guión (-) si no se ha configurado ningún muestreo. Para la coincidencia, la columna siempre muestra un guión. Para las comprobaciones de calidad de datos predefinidas, la columna siempre tiene un valor.
- Puntuación
La puntuación de calidad que ha devuelto la comprobación para el activo.
- Contribuye a la puntuación global
Este valor determina si esta puntuación de calidad específica se tiene en cuenta en el cálculo de las puntuaciones globales. Sólo puede cambiar este valor en un proyecto. Debe ser un administrador de proyectos o un editor para hacerlo. En un catálogo, el valor está bloqueado. Consulte Puntuaciones de calidad de datos.
- Última comprobación
Fecha y hora de la última ejecución de la comprobación.
Puede conmutar a la visión general de columna pulsando Columnas.
En un proyecto, también tiene la opción de crear nuevas definiciones de calidad de datos o reglas de calidad de datos si el componente de calidad de datos deIBM Knowledge Catalog está habilitado. Debe ser administrador o editor de proyectos y tener el permiso Gestionar activos de calidad de datos .
Visión general de columnas
Ver información de calidad de datos para las columnas individuales:
- Nombre de columna.
- Puntuación de calidad de datos global de la columna.
- Puntuación de calidad de la columna para cualquiera de las dimensiones que son aplicables al activo. Se muestra un guión (-) si ninguna de las comprobaciones que se han aplicado a esa columna ha contribuido a la dimensión.
- Número de comprobaciones que se han ejecutado en una columna.
- Indica si la puntuación de calidad de datos de la columna se tiene en cuenta en el cálculo de la puntuación de activo global y las puntuaciones de dimensión. Como administrador de proyectos o editor, puede cambiar ese valor.
- Cuándo se comprobó por última vez la columna.
A continuación, puede detallar más en los detalles de calidad de datos para cada columna. Consulte Información de calidad de datos para una columna.
Puede volver a la lista de comprobaciones de calidad de datos pulsando Comprobaciones.
Información de calidad de datos para una columna
Cuando accede a la información de calidad de datos para una columna, ve una sección que muestra las puntuaciones de calidad de datos generales y tiene acceso a los resultados de las comprobaciones de calidad de datos que se han ejecutado en la columna. La coincidencia no contribuye a los datos de nivel de columna.
Además de la información de calidad, puede ver qué clase de datos y términos empresariales se asignan a la columna.
Puntuaciones globales a nivel de columna
Una representación gráfica de las puntuaciones de calidad le proporciona una vista rápida de la calidad global de una columna y del nivel de calidad con respecto a las dimensiones que se aplican a la columna. Para estas puntuaciones, la información de tendencia muestra cómo ha cambiado la calidad global o la puntuación de calidad de una dimensión a lo largo del tiempo. Puede seleccionar si la tendencia se muestra durante un periodo de 30, 90 o 180 días.
La puntuación global para la columna o una dimensión es el promedio ponderado de las puntuaciones proporcionadas por las comprobaciones de calidad de datos que se han aplicado a la columna.
En un proyecto, las puntuaciones globales y de dimensión y la información de tendencia se vuelven a calcular cada vez que se ejecuta en el activo una comprobación de calidad de datos que afecta a la columna. La puntuación también se vuelve a calcular cuando se cambia el valor Contribuye a la puntuación global para una comprobación que afecta a la columna, o cuando se suprimen las reglas de calidad de datos o el perfil de activo.
En un catálogo, las puntuaciones globales y de dimensión y la información de tendencia se actualizan cuando se publica un activo desde un proyecto.
Para obtener más información, consulte Puntuaciones de calidad de datos.
Resultados de comprobación de calidad de datos a nivel de columna
Aquí, puede ver qué comprobaciones se han aplicado a la columna y cuáles han sido los resultados. La lista se ordena por fecha con las comprobaciones más recientes en la parte superior.
- Nombre y lógica
El nombre de una regla de calidad de datos y el nombre de la definición de calidad de datos que contiene la lógica de reglas, o el nombre de una comprobación de calidad de datos predefinida.
Las reglas de calidad de datos con enlaces administrados externamente o reglas de calidad de datos basadas en SQL contribuyen a las puntuaciones de calidad de datos de una columna si esa columna se agrega como un elemento relacionado a la regla correspondiente con la Valida la calidad de los datos de relación. Se informa de la misma puntuación y problemas para todos los activos y columnas que están enlazados con este tipo de relación.
En un proyecto, puede pulsar el nombre de una regla de calidad de datos para ver la configuración de regla general y la tabla de salida de la regla si hay una configurada. Si desea actualizar la configuración de regla y tiene los permisos necesarios, puede ir directamente al activo pulsando Ver regla de calidad de datos.
- Type
El tipo de comprobación, que puede ser Regla de calidad de datos o Perfilado. Perfilado se muestra para las comprobaciones de calidad de datos predefinidas que se han ejecutado en el contexto del enriquecimiento de metadatos. Consulte Comprobaciones de calidad de datos predefinidas.
- Dimensión
La dimensión de calidad de datos a la que está vinculada esta comprobación. Las comprobaciones de calidad de datos predefinidas que se ejecutan durante el perfilado o como parte del enriquecimiento de metadatos tienen dimensiones predeterminadas asignadas. Para las reglas de calidad de datos, puede asignar dimensiones según sea necesario. Si no se establece ninguna dimensión, el campo muestra Otros. Para obtener más información, consulte Dimensiones de calidad de datos y Puntuaciones de calidad de datos.
- Porcentaje de datos con problemas
Este valor muestra la cantidad de datos que no cumplen los criterios de calidad definidos en la comprobación.
- Datos comprobados y problemas encontrados
El número de registros que se han comprobado y el número de problemas de calidad que se han encontrado. Estos problemas pueden estar en los mismos registros o en registros diferentes.
- Muestreo
El tipo de muestreo que se ha aplicado en la última ejecución de la comprobación. Para las reglas de calidad de datos, esta columna muestra un guión (-) si no se ha configurado ningún muestreo. Para las comprobaciones de calidad de datos predefinidas, la columna siempre tiene un valor.
- Puntuación
La puntuación de calidad que la comprobación ha devuelto para la columna.
- Contribuye a la puntuación global
Este valor determina si esta puntuación de calidad específica se tiene en cuenta en el cálculo de las puntuaciones globales. Sólo puede cambiar este valor en un proyecto. Debe ser un administrador de proyectos o un editor para hacerlo. En un catálogo, el valor está bloqueado. Consulte Puntuaciones de calidad de datos.
- Última comprobación
Fecha y hora de la última ejecución de la comprobación.
API de IBM Knowledge Catalog para la calidad de los datos
Puede utilizar una colección de API REST para generar y recuperar información de calidad de datos.
- Métodos de Activos de calidad de datos
Los activos de calidad de datos son activos de datos que están sujetos a comprobaciones de calidad de datos. Ejemplo de API: Obtener activos de calidad de datos - Comprobaciones de calidad de datos
Las comprobaciones de calidad de datos pueden ser, por ejemplo, reglas de calidad de datos o comprobaciones que se ejecutan como parte del enriquecimiento de metadatos. Ejemplo de API: Obtener comprobaciones de la calidad de los datos - Dimensiones de calidad de datos
Se proporciona un conjunto de dimensiones de calidad de datos estándar con el producto, pero puede crear dimensiones personalizadas. Ejemplo de API: Obtener una lista de dimensiones de calidad de datos - Problemas de calidad de datos
Los problemas de calidad de datos son los problemas que encuentran las comprobaciones de calidad de datos para un activo de datos. Ejemplo de API: Obtener una lista de problemas de calidad de datos - Puntuaciones de calidad de datos
Para cada activo de datos, se generan distintos tipos de puntuaciones de calidad, como la puntuación global o las puntuaciones de dimensión. Ejemplo de API: Obtener una lista de puntuaciones de calidad de datos para un activo determinado
Más información
Tema padre: Gestión de calidad de datos