0 / 0
Volver a la versión inglesa de la documentación
Puntuaciones de calidad de datos
Última actualización: 13 dic 2024
Puntuaciones de calidad de datos

Se muestra una puntuación de calidad de datos para todo el activo de datos y para todas las columnas que contiene el activo de datos analizado. Las puntuaciones de calidad de datos se calculan basándose en los resultados de las comprobaciones de calidad de datos que se ejecutan en todo el activo y sus columnas.

Los siguientes tipos de comprobaciones de calidad de datos proporcionan puntuaciones de calidad de datos:

  • Comprobaciones de calidad de datos predefinidas

    Estas comprobaciones se ejecutan cuando se ejecuta el análisis de calidad como parte del enriquecimiento de metadatos. Cada comprobación se ejecuta en todo el activo, pero es posible que no devuelva resultados para todas sus columnas, en función del tipo de comprobación.

    Cada comprobación de calidad de datos predefinida está asociada con una dimensión de calidad de datos.

  • Reglas de calidad de datos (Gestión de reglas de calidad de datos)

    Las reglas de calidad de datos validan condiciones específicas en el origen de datos. Se pueden ejecutar manual o automáticamente en una planificación.

    Una regla de calidad de datos puede contribuir a más de una dimensión en función de la configuración de la regla. Si no se establece ninguna dimensión para una regla, sus resultados se capturan como puntuación de dimensión Ninguna.

  • IBM Match 360

Para cada comprobación, puede determinar si sus resultados contribuyen a la puntuación de calidad de datos global. Consulte Resultados de análisis de calidad de datos.

También puede recuperar las puntuaciones de calidad de datos para activos individuales utilizando la API de IBM Knowledge Catalog.

Cómo se calculan las puntuaciones de calidad de datos

La puntuación de columna se calcula como un promedio ponderado de las puntuaciones de dimensión disponibles para la columna, lo que significa que las puntuaciones de todas las dimensiones para las que se ha ejecutado al menos una comprobación de calidad de datos han devuelto un resultado.

Una puntuación de dimensión, excepto para la dimensión Confianza de entidad , se calcula multiplicando los números de probabilidad de todos los problemas para los que la calidad de datos busca esta dimensión, donde el número de probabilidad de un problema es (1-frecuencia). Por ejemplo, supongamos que una columna tiene 2 problemas de calidad diferentes de los que se informa para la misma dimensión. El problema 1 ocurre con una frecuencia del 10% y el problema 2 con una frecuencia del 20%. Por lo tanto, la probabilidad de que un valor de esa columna no tenga el problema 1 es del 90%. Para la emisión 2, es del 80%. Por lo tanto, la probabilidad de que la columna tenga algún problema de calidad en esa dimensión es del 72%, que se calcula de la siguiente manera:

(1.0 - 0.1) × (1.0 - 0.2) = 0.9 × 0.8 = 0.72

Para la dimensión Confianza de entidad , la puntuación de dimensión representa el porcentaje de entidades del tipo de entidad en particular que no tienen registros con posibles problemas de coincidencia como miembro.

Las puntuaciones de activo (la puntuación global o las puntuaciones de dimensión) se calculan como promedio ponderado de las puntuaciones correspondientes de sus columnas.

En los proyectos, puede cambiar lo que se tiene en cuenta para calcular las puntuaciones cambiando el valor Contribuye a la puntuación global . Este valor está activado de forma predeterminada. Puede excluir los resultados de columnas enteras y los resultados de determinadas comprobaciones a nivel de columna o a nivel de activo.

En los proyectos, las puntuaciones de calidad se vuelven a calcular en estos casos:

  • El análisis de calidad de datos se ejecuta en el contexto del enriquecimiento de metadatos.
  • Las reglas de calidad de datos existentes o nuevas se ejecutan en el activo.
  • Se suprime una regla de calidad de datos que ha contribuido a las puntuaciones.
  • Se cambia el valor Contribuye a la puntuación global .
  • Se actualiza un activo de datos de entidad IBM Match 360 .

En los catálogos, las puntuaciones de calidad cambian cuando se vuelve a publicar el activo.

Ejemplo de cálculo de puntuación

Supongamos que un activo de datos tiene las columnas ID, NAME, EMAIL, PHONE y SALARY. Todas las columnas y todos los tipos de problemas contribuyen a las puntuaciones generales (el valor predeterminado).

Inicialmente, no hay puntuaciones de calidad de datos disponibles porque no se ha ejecutado ninguna comprobación de calidad de datos en el activo. Para generar información de calidad de datos:

  1. El análisis de IBM Match 360 se ejecuta en el activo de datos e identifica estos problemas:

    • 10% de entidades coincidentes para el activo de datos. Esta información se tiene en cuenta para la dimensión de calidad de datos Confianza de entidad.

      Se calculan las puntuaciones siguientes a nivel de activo:

      • Puntuación de dimensión
        Confianza de entidad: (1- 0.1) = 90%

      • Puntuación global: 90%

  2. Ejecute el análisis de calidad de datos como parte del enriquecimiento de metadatos. El análisis de calidad identifica estos problemas:

    • Valores perdidos, que se tienen en cuenta para la dimensión de calidad de datos Completeness:
      • 3% de los valores de la columna NAME
      • 5% de los valores de la columna EMAIL
      • 3% de los valores de la columna PHONE
    • Infracciones de clase de datos, que se tienen en cuenta para la dimensión de calidad de datos Validez:
      • 10% de los valores de la columna EMAIL
      • 6% de los valores de la columna PHONE
    • Valores atípicos o sospechosos, que se tienen en cuenta para la dimensión de calidad de datos Coherencia:
      • 4% de los valores de la columna NAME
      • 1% de los valores de la columna SALARY

    Estos resultados dan como resultado las puntuaciones siguientes para las columnas individuales:

    • ID de columna
      • Puntuaciones de dimensión
        Confianza de entidad: 90% (sin cambios)
        Completeness: 100% (La comprobación de valores perdidos inesperados no ha encontrado ningún problema.)
        Validez: 100% (ninguna de las comprobaciones de Validez predefinidas ha encontrado ningún problema.)
        Coherencia: 100% (las comprobaciones de Coherencia predefinidas han encontrado problemas.)
      • Puntuación global de columna: (90% + 100% + 100% + 100%) /4 = 97.5%
    • Nombre de columna
      • Puntuaciones de dimensión
        Confianza de entidad: 90% (sin cambios)
        Completitud: 100%-3% = 97%
        Validez: 100%
        Consistencia: 100%-4% = 96%
      • Puntuación global de columna: (90% + 97% + 100% + 96%) /4 = 95.75%
    • Columna EMAIL
      • Puntuaciones de dimensión
        Confianza de entidad: 90% (sin cambios)
        Finalidad: 100%-5 %= 95%
        Validez: 100%-10% = 90%
        Consistencia: 100%
      • Puntuación global de columna: (90% + 95% + 90% + 100%) /4 = 93.75%
    • Columna PHONE
      • Puntuaciones de dimensión
        Confianza de entidad: 90% (sin cambios)
        Integridad: 100%-3% = 97%
        Validez: 100%-6% = 94%
        Consistencia: 100%
      • Puntuación global de columna: (90% + 97% + 94% + 100%) /4 = 95.25%
    • Columna SALARY
      • Puntuaciones de dimensión
        Confianza de entidad: 90% (sin cambios)
        Completitud: 100%
        Validez: 100%
        Coherencia: 100%-1% = 99%
      • Puntuación global de columna: (90% + 100% + 100% + 99%) /4 = 97.25%

    A partir de estas puntuaciones, se calculan las puntuaciones a nivel de activo:

    • Puntuaciones de dimensión
      Confianza de entidad: (90% + 90% + 90% + 90% + 90% + 90%) /5 = 90%
      Completitud: (100% + 97% + 95% + 97% + 100%) /5 = 97.8%
      Validez: (100% + 100% + 90% + 94% + 100%) /5 = 96.8%
      Consistencia: (100% + 96% + 100% + 100% + 99%) /5 = 99%

    • Puntuación global: (97.5% + 95.75% + 93.75% + 95.25% + 97.25%) /5 = 95.9%

  3. Ejecute la regla de calidad de datos Name_Complete, que se aplica a la columna NAME para verificar que contiene un nombre y un apellido determinados. La regla está vinculada a la dimensión de calidad de datos Completeness. Esta regla notifica 1% de infracciones en la columna NAME.

    Las puntuaciones de la columna NAME cambian como se indica a continuación. Las puntuaciones de las otras columnas permanecen sin cambios.

    • Puntuaciones de dimensión
      Confianza de entidad: 90% (sin cambios)
      Integridad: (1-0.03) × (1-0.01) = 0.9603 = 96.03%
      Validez: 100% (sin cambios)
      Coherencia: 96% (sin cambios)
    • Puntuación global: (90% + 96.03% + 100% + 96%) /4 = 95.5%

    Estos cambios también cambian las puntuaciones de activo.

    • Puntuaciones de dimensión
      Confianza de entidad: 90% (sin cambios)
      Integridad: (100% + 96% + 95% + 97% + 100%) /5 = 97.6%
      Validez: 96.8% (sin cambios)
      Consistencia: 99% (sin cambios)
    • Puntuación global: (97.5% + 95.5% + 93.75% + 95.25% + 97.25%) /5 = 95.85%
  4. Ejecute una regla de calidad de datos adicional Phone_Valid, que se aplica a la columna PHONE para verificar que el número de teléfono tiene el código de país y el prefijo que corresponden a la dirección. La regla está vinculada a la dimensión de calidad de datos Validez. Esa regla informa de un 2% de infracciones en la columna PHONE.

    Las puntuaciones de la columna PHONE cambian como se indica a continuación. Las puntuaciones de las otras columnas permanecen sin cambios.

    • Puntuaciones de dimensión
      Confianza de entidad: 90% (sin cambios)
      Integridad: 97% (sin cambios)
      Validez: (1.0-0.06) × (1.0-0.02) = 0.9212 = 92.12%
      Consistencia: 100%
    • Puntuación global: (90% + 97% + 92.12% + 100%) /4 = 94.78%

    Estos cambios también dan como resultado cambios en las puntuaciones de activo.

    • Puntuaciones de dimensión
      Confianza de entidad: 90% (sin cambios)
      Integridad: 97.6% (sin cambios)
      Validez: (100% + 100% + 90% + 92.12% + 100%) /5 = 96.42%
      Consistencia: 99% (sin cambios)
    • Puntuación global: = (97.5% + 95.5% + 93.75% + 94.78% + 97.25%) /5 = 95.76%
  5. Establezca todas las comprobaciones para la dimensión Coherencia que se deben ignorar para el cálculo de puntuación. La puntuación de dimensión para la dimensión Coherencia ya no se muestra. Todas las demás puntuaciones de dimensión permanecen sin cambios. La columna global y las puntuaciones de activo se vuelven a calcular.

    • Column scores
      xx Column ID: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 100%)/(1 + 1 + 1 + 0) = 96.67%
      Column NAME: (1 × 90% + 1 × 96.03% + 1 × 100% + 0 × 96%)/(1 + 1 + 1 + 0) = 95.34%
      Column EMAIL: (1 × 90% + 1 × 95% + 1 × 90% + 0 × 100%)/(1 + 1 + 1 + 0) = 91.67%
      Column PHONE: (1 × 90% + 1 × 97% + 1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 0) = 94.78%
      Column SALARY: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 99%)/(1 + 1 + 1 + 0) = 96.67%

    • Puntuación de activo global: (96.67 + 95.34% + 91.67% + 93.04% + 96.67)/5 = 94.68%

  6. Excluir los resultados de la columna SALARY del cálculo de puntuación. Las puntuaciones de columna no cambian. Las puntuaciones global y de dimensión para el activo se vuelven a calcular de la forma siguiente:

    • Dimension scores
      Confianza de entidad: (1 × 90% + 1 × 90% + 1 × 90% + 1 × 90% + 0 × 90%)/(1 + 1+ 1 + 1 + 0) = 90%
      Completitud: (1 × 100% + 1 × 96.03% + 1 × 95% + 1 × 97% + 0 × 100%)/(1 + 1+ 1 + 1 + 0) = 97%
      Validez: (1 × 100% + 1 × 100% +1 × 90% +1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 1 + 0) = 95.53%
      Coherencia: not shown
    • Puntuación de activo global = (100% + 98.02% + 92.5% + 92.74% + 0%)/(1 + 1 + 1 + 1 + 0) = 95.82%

Más información

Tema principal: Resultados del análisis de calidad de datos

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información