Volver a la versión inglesa de la documentación

Métricas de evaluación

Última actualización: 14 mar 2025
Métricas de evaluación

Las métricas de evaluación pueden ayudarle a supervisar continuamente el rendimiento de sus modelos de IA para proporcionar información a lo largo del ciclo de vida de la IA. Con watsonx.governance, puede utilizar estas métricas para ayudar a garantizar el cumplimiento de los requisitos normativos e identificar cómo realizar mejoras para mitigar los riesgos.

Puede ejecutar evaluaciones en Watsonx.governance para generar métricas con supervisión automatizada que pueden proporcionar información procesable para ayudarle a alcanzar sus objetivos de gobernanza de IA. Puede utilizar estas métricas para alcanzar los siguientes objetivos:

  • Garantice el cumplimiento : Realice un seguimiento automático del cumplimiento de las normativas y políticas organizativas en evolución con alertas que se activan cuando se superan los umbrales.
  • Fomentar la transparencia : Genere documentación detallada para ofrecer una visión clara del comportamiento del modelo, su rendimiento y la explicabilidad de los resultados.
  • Mitigar los riesgos : Detecte y aborde problemas como el sesgo o la desviación de la precisión mediante evaluaciones continuas y valoraciones proactivas de los riesgos.
  • Proteja la privacidad y la seguridad : Supervise las vulnerabilidades de seguridad, como la exposición de información personal identificable (PII), y aplique barandillas para evitar el uso indebido de datos confidenciales.

Las métricas que puede utilizar para obtener información sobre el rendimiento de su modelo vienen determinadas por el tipo de evaluaciones que active. Cada tipo de evaluación genera métricas diferentes que puede analizar para obtener información.

También puedes utilizar el ibm-watsonx-gov SDK Python para calcular métricas en un entorno de ejecución de notebook o descargadas como trabajos de Spark en IBM Analytics Engine para evaluaciones. El SDK de Inteligencia Artificial ( Python, IA) es una biblioteca de aprendizaje automático ( Python ) que puede utilizar para supervisar, gestionar y gobernar mediante programación modelos de aprendizaje automático. Algunas métricas podrían estar disponibles solo con el SDK de Python. Para obtener más información, consulte Cálculo de métricas con el SDK de Python.

Métricas de evaluación de la deriva

Las métricas de evaluación de la desviación pueden ayudarle a detectar caídas en la precisión y la coherencia de los datos en sus modelos para determinar lo bien que su modelo predice los resultados a lo largo del tiempo. Watsonx.governance admite las siguientes métricas de evaluación de la deriva para el aprendizaje automático models.:

Tabla 1. Descripciones de las métricas de evaluación de la deriva
Métrica Descripción
Disminución de la exactitud Estima la disminución de la precisión del modelo en tiempo de ejecución en comparación con los datos de entrenamiento
Disminución de la coherencia de datos Compara las transacciones en tiempo de ejecución con los patrones de transacciones de los datos de entrenamiento para identificar incoherencias

Deriva v2 métricas de evaluación

Drift v2 Las métricas de evaluación pueden ayudarle a medir los cambios en sus datos a lo largo del tiempo para garantizar la coherencia de los resultados de su modelo. Puede utilizar estas métricas para identificar cambios en los resultados de su modelo, la precisión de sus predicciones y la distribución de sus datos de entrada. Watsonx.governance admite las siguientes métricas de deriva v2 :

Tabla 2. Deriva v2 descripciones de las métricas de evaluación
Métrica Descripción
Desviación de características Mide el cambio en la distribución de valores de las características importantes
Desviación en la calidad del modelo Compara la precisión estimada en tiempo de ejecución con la precisión de entrenamiento para medir la caída en la precisión.
Desviación de salida Mide el cambio en la distribución de confianza del modelo

Métricas de evaluación de la equidad

Las métricas de evaluación de la imparcialidad pueden ayudarle a determinar si su modelo produce resultados sesgados. Puede utilizar estas métricas para identificar cuándo su modelo muestra una tendencia a proporcionar resultados favorables más a menudo para un grupo que para otro. Watsonx.governance admite las siguientes métricas de evaluación de la equidad:

Tabla 3. Descripciones de las métricas de evaluación de la equidad
Métrica Descripción
Diferencia de probabilidad media absoluta Compara la media de la diferencia absoluta de las tasas de falsos positivos y de verdaderos positivos entre los grupos controlados y los grupos de referencia
Diferencia de probabilidad media Mide la diferencia en las tasas de falsos positivos y falsos negativos entre los grupos monitorizados y de referencia
Impacto dispar Compara el porcentaje de resultados favorables de un grupo supervisado con el porcentaje de resultados favorables de un grupo de referencia
Diferencia de tasa de error Porcentaje de transacciones puntuadas incorrectamente por su modelo
Diferencia de tasa de falsos descubrimientos La cantidad de transacciones con falsos positivos como porcentaje de todas las transacciones con un resultado positivo
Diferencia de tasa de falsos negativos El porcentaje de transacciones positivas que su modelo calificó incorrectamente como negativas
Diferencia de tasa de falsas omisiones El número de transacciones negativas falsas como porcentaje de todas las transacciones con un resultado negativo
Diferencia de tasa de falsos positivos El porcentaje de transacciones negativas que su modelo calificó incorrectamente como positivas.
Puntuación de impacto Compara el porcentaje de grupos supervisados seleccionados para obtener resultados favorables con el porcentaje de grupos de referencia seleccionados para obtener resultados favorables.
Diferencia estadística de paridad Compara el porcentaje de resultados favorables de los grupos supervisados con los grupos de referencia.

Métricas de evaluación de la vigilancia de la salud del modelo

Las métricas de evaluación del monitor de estado del modelo pueden ayudarle a comprender el comportamiento y el rendimiento de su modelo determinando la eficacia con la que el despliegue de su modelo procesa sus transacciones. Las métricas de evaluación de salud del modelo están habilitadas de forma predeterminada para las evaluaciones de modelos de aprendizaje automático en producción. Watsonx.governance admite las siguientes métricas de evaluación del monitor de salud del modelo:

Tabla 12. Descripciones de las métricas de evaluación de la vigilancia de la salud del modelo
Métrica Descripción
Tamaño de la carga útil El tamaño total, medio, mínimo, máximo y medio de la carga útil de los registros de transacciones que procesa la implantación de su modelo a través de las solicitudes de puntuación en kilobytes (KB)
Registros El número total, medio, mínimo, máximo y medio de registros de transacciones que se procesan a través de las solicitudes de calificación
Solicitudes de puntuación El número de solicitudes de puntuación que recibe su despliegue de modelos
Usuarios El número de usuarios que envían solicitudes de puntuación a sus implantaciones de modelos

Rendimiento y latencia

Las evaluaciones de los monitores de salud de los modelos calculan la latencia mediante el seguimiento del tiempo que se tarda en procesar las solicitudes de puntuación y los registros de transacciones por milisegundo (ms). El rendimiento se calcula mediante el seguimiento del número de solicitudes de puntuación y registros de transacciones que se procesan por segundo.

Las siguientes métricas se calculan para medir el rendimiento y la latencia durante las evaluaciones:

Tabla 12. Descripciones de las métricas de rendimiento y latencia del monitor de salud del modelo
Métrica Descripción
Latencia de la API Tiempo (en ms) que tarda en procesar una solicitud de puntuación su implementación de modelo.
Rendimiento de la API Número de solicitudes de puntuación procesadas por su implementación de modelo por segundo
Latencia de grabación Tiempo empleado (en ms) para procesar un registro por su implementación de modelo
Registro de rendimiento Número de registros procesados por segundo por su implementación de modelo

Métricas de evaluación de calidad

Las evaluaciones de calidad pueden ayudarle a medir la capacidad de su modelo para proporcionar resultados correctos en función de su rendimiento. Watsonx.governance apoya los siguientes parámetros de evaluación de calidad:

Tabla 13. Descripciones de las métricas de evaluación de calidad
Métrica Descripción
Precisión Mide la precisión de las predicciones de su modelo calculando la proporción de resultados correctos entre el número total de resultados.
Área bajo PR Mide lo bien que su modelo equilibra la identificación correcta de clases positivas con la búsqueda de todas las clases positivas
Área bajo ROC Mide lo bien que su modelo identifica las diferencias entre clases.
Puntuación Brier Mide la diferencia cuadrática media entre la probabilidad prevista y el valor objetivo.
F1-Measure Medidas: media armónica de precisión y recuerdo
Coeficiente de Gini Mide la capacidad de los modelos para distinguir entre dos clases
Inclinación de la etiqueta Mide la asimetría de las distribuciones de etiquetas
Pérdida logarítmica Media de los logaritmos de las probabilidades de la clase objetivo (confianza)
Coeficiente de correlación de Matthews La calidad de las clasificaciones binarias y multiclase teniendo en cuenta los positivos y negativos verdaderos y falsos
Error absoluto medio Promedio de la diferencia absoluta entre la predicción del modelo y el valor de destino
Media del error porcentual absoluto Mide la diferencia de error porcentual medio entre los valores previstos y reales
Error cuadrático medio Media de la diferencia al cuadrado entre la predicción del modelo y el valor objetivo
Coeficiente de correlación de Pearson Mide la relación lineal entre la predicción del modelo y los valores objetivo.
Precisión Proporción de predicciones correctas en predicciones de clase positiva
Proporción de varianza explicada La relación entre la varianza explicada y la varianza objetivo. La varianza explicada es la diferencia entre la varianza de destino y la varianza de error de predicción.
Exhaustividad Proporción de predicciones correctas en la clase positiva
Raíz del error cuadrático promedio Raíz cuadrada de media de cuadrado de la diferencia entre la predicción del modelo y el valor de destino
R cuadrado Relación de la diferencia entre la varianza objetivo y la varianza del error de predicción con respecto a la varianza objetivo
coeficiente de correlación de Spearman Mide la monotonía de la relación entre las predicciones del modelo y los valores objetivo.
Porcentaje de error absoluto de media simétrica Mide la media simétrica del porcentaje de error de diferencia entre los valores previstos y reales
Tasa de positivos verdaderos Proporción de predicciones correctas en predicciones de clase positiva
Índice de falsos positivos ponderados Proporción de predicciones incorrectas en la clase positiva
Medida F1 ponderada Media ponderada de la probabilidad de que se produzca un evento ( F1-measure ) con ponderaciones iguales a la probabilidad de clase
Precisión ponderada Media ponderada de precisión con ponderaciones iguales a la probabilidad de clase
Exhaustividad ponderada Media ponderada de recuerdo con pesos iguales a la probabilidad de clase

Tema principal: Evaluación de modelos de IA