Métricas de evaluación de desviación de características
La métrica de evaluación de la desviación de características mide el cambio en la distribución de valores para características importantes.
Detalles de métrica
La desviación de características es una métrica de evaluación de la desviación de la distribución de datos ( v2 ) que evalúa los cambios en la distribución de datos para los modelos de aprendizaje automático.
Ámbito
La métrica de desviación de características evalúa únicamente los modelos de aprendizaje automático.
Tipos de activos de IA : modelos de aprendizaje automático
Puntuaciones y valores
La puntuación de la métrica de desviación de características indica el cambio en la distribución de valores para características importantes.
- Mejor puntuación posible : 0.0
- Ratios :
- A las 0: Sin cambios en la distribución del valor
- Más de 0: Cambio creciente en la distribución del valor
Proceso de evaluación
La desviación se calcula para características categóricas y numéricas midiendo la distribución de probabilidad de valores continuos y discretos. Para identificar valores discretos para características numéricas, se utiliza un logaritmo binario para comparar el número de valores distintos de cada característica con el número total de valores de cada característica.
Cómo se calcula
La siguiente fórmula de logaritmo binario se utiliza para identificar características numéricas discretas:
Si el logaritmo neperiano (
) es menor que el logaritmo binario del logaritmo neperiano ( distinct_values_count
), la característica se identifica como discreta.total_count
La distancia de Jensen-Shannon es la forma normalizada de la divergencia de Kullback-Leibler (KL) que mide cuánto difiere una distribución de probabilidad de la segunda distribución de probabilidad. La distancia de Jensen-Shannon es una puntuación simétrica y siempre tiene un valor finito.
La siguiente fórmula se utiliza para calcular la distancia de Jensen-Shannon para dos distribuciones de probabilidad, la línea de base (B) y la producción (P):
El coeficiente de superposición se calcula midiendo el área total de la intersección entre dos distribuciones de probabilidad. Para medir la diferencia entre distribuciones, se resta la intersección o el área de superposición de 1 para calcular la cantidad de desviación.
La siguiente fórmula se utiliza para calcular el coeficiente de solapamiento:
𝑥 es una serie de muestras equidistantes que abarcan el dominio de
que van desde el mínimo combinado de los datos de referencia y de producción hasta el máximo combinado de los datos de referencia y de producción.
es la diferencia entre dos muestras 𝑥 consecutivas.
es el valor de la función de densidad para los datos de producción en una muestra 𝑥.
es el valor de la función de densidad para los datos de referencia para una muestra 𝑥.
La distancia de variación total mide la diferencia máxima entre las probabilidades que dos distribuciones de probabilidad, la línea de base (B) y la producción (P), asignan a la misma transacción, como se muestra en la siguiente fórmula:
Si las dos distribuciones son iguales, la distancia de variación total entre ellas se convierte en 0.
La siguiente fórmula se utiliza para calcular la distancia de variación total:
𝑥 es una serie de muestras equidistantes que abarcan el dominio de
que van desde el mínimo combinado de los datos de referencia y de producción hasta el máximo combinado de los datos de referencia y de producción.
es la diferencia entre dos muestras 𝑥 consecutivas.
es el valor de la función de densidad para los datos de producción en una muestra 𝑥.
es el valor de la función de densidad para los datos de referencia para una muestra 𝑥.
El denominador e e representa el área total bajo los gráficos de la función de densidad para los datos de producción y de referencia. Estas sumas son una aproximación de las integraciones sobre el espacio de dominio y ambos términos deben ser 1 y el total debe ser
Tema principal: Métricas de evaluación