Volver a la versión inglesa de la documentación

Métricas de evaluación de desviación de características

Última actualización: 28 feb 2025
Métricas de evaluación de desviación de características

La métrica de evaluación de la desviación de características mide el cambio en la distribución de valores para características importantes.

Detalles de métrica

La desviación de características es una métrica de evaluación de la desviación de la distribución de datos ( v2 ) que evalúa los cambios en la distribución de datos para los modelos de aprendizaje automático.

Ámbito

La métrica de desviación de características evalúa únicamente los modelos de aprendizaje automático.

Tipos de activos de IA : modelos de aprendizaje automático

Puntuaciones y valores

La puntuación de la métrica de desviación de características indica el cambio en la distribución de valores para características importantes.

  • Mejor puntuación posible : 0.0
  • Ratios :
    • A las 0: Sin cambios en la distribución del valor
    • Más de 0: Cambio creciente en la distribución del valor

Proceso de evaluación

La desviación se calcula para características categóricas y numéricas midiendo la distribución de probabilidad de valores continuos y discretos. Para identificar valores discretos para características numéricas, se utiliza un logaritmo binario para comparar el número de valores distintos de cada característica con el número total de valores de cada característica.

Cómo se calcula

La siguiente fórmula de logaritmo binario se utiliza para identificar características numéricas discretas:

Se muestra la fórmula del logaritmo binario

Si el logaritmo neperiano ( distinct_values_count ) es menor que el logaritmo binario del logaritmo neperiano ( total_count), la característica se identifica como discreta.

La distancia de Jensen-Shannon es la forma normalizada de la divergencia de Kullback-Leibler (KL) que mide cuánto difiere una distribución de probabilidad de la segunda distribución de probabilidad. La distancia de Jensen-Shannon es una puntuación simétrica y siempre tiene un valor finito.

La siguiente fórmula se utiliza para calcular la distancia de Jensen-Shannon para dos distribuciones de probabilidad, la línea de base (B) y la producción (P):

Se muestra la fórmula de distancia de Jensen Shannon

El coeficiente de superposición se calcula midiendo el área total de la intersección entre dos distribuciones de probabilidad. Para medir la diferencia entre distribuciones, se resta la intersección o el área de superposición de 1 para calcular la cantidad de desviación.

La siguiente fórmula se utiliza para calcular el coeficiente de solapamiento:

Se muestra la fórmula del coeficiente de superposición

  • 𝑥 es una serie de muestras equidistantes que abarcan el dominio de se muestra circunflejo f que van desde el mínimo combinado de los datos de referencia y de producción hasta el máximo combinado de los datos de referencia y de producción.

  • se muestra el símbolo d(x) es la diferencia entre dos muestras 𝑥 consecutivas.

  • explicación de la fórmula es el valor de la función de densidad para los datos de producción en una muestra 𝑥.

  • explicación de la fórmula es el valor de la función de densidad para los datos de referencia para una muestra 𝑥.

La distancia de variación total mide la diferencia máxima entre las probabilidades que dos distribuciones de probabilidad, la línea de base (B) y la producción (P), asignan a la misma transacción, como se muestra en la siguiente fórmula:

Se muestra la fórmula de distribución de probabilidad

Si las dos distribuciones son iguales, la distancia de variación total entre ellas se convierte en 0.

La siguiente fórmula se utiliza para calcular la distancia de variación total:

Se muestra la fórmula de la distancia de variación total

  • 𝑥 es una serie de muestras equidistantes que abarcan el dominio de se muestra circunflejo f que van desde el mínimo combinado de los datos de referencia y de producción hasta el máximo combinado de los datos de referencia y de producción.

  • se muestra el símbolo d(x) es la diferencia entre dos muestras 𝑥 consecutivas.

  • explicación de la fórmula es el valor de la función de densidad para los datos de producción en una muestra 𝑥.

  • explicación de la fórmula es el valor de la función de densidad para los datos de referencia para una muestra 𝑥.

El denominador e explicación de la fórmula e representa el área total bajo los gráficos de la función de densidad para los datos de producción y de referencia. Estas sumas son una aproximación de las integraciones sobre el espacio de dominio y ambos términos deben ser 1 y el total debe ser

Tema principal: Métricas de evaluación