Métricas de evaluación

Última actualización: 25 mar 2025
Métricas de evaluación

Las métricas de evaluación pueden ayudarle a supervisar continuamente el rendimiento de sus modelos de IA para proporcionar información a lo largo del ciclo de vida de la IA. Con watsonx.governance, puede utilizar estas métricas para ayudar a garantizar el cumplimiento de los requisitos normativos e identificar cómo realizar mejoras para mitigar los riesgos.

Puede ejecutar evaluaciones en Watsonx.governance para generar métricas con supervisión automatizada que pueden proporcionar información procesable para ayudarle a alcanzar sus objetivos de gobernanza de IA. Puede utilizar estas métricas para alcanzar los siguientes objetivos:

  • Garantice el cumplimiento : Realice un seguimiento automático del cumplimiento de las normativas y políticas organizativas en evolución con alertas que se activan cuando se superan los umbrales.
  • Fomentar la transparencia : Genere documentación detallada para ofrecer una visión clara del comportamiento del modelo, su rendimiento y la explicabilidad de los resultados.
  • Mitigar los riesgos : Detecte y aborde problemas como el sesgo o la desviación de la precisión mediante evaluaciones continuas y valoraciones proactivas de los riesgos.
  • Proteja la privacidad y la seguridad : Supervise las vulnerabilidades de seguridad, como la exposición de información personal identificable (PII), y aplique barandillas para evitar el uso indebido de datos confidenciales.

Las métricas que puede utilizar para obtener información sobre el rendimiento de su modelo vienen determinadas por el tipo de evaluaciones que active. Cada tipo de evaluación genera métricas diferentes que puede analizar para obtener información.

También puedes utilizar el ibm-watsonx-gov SDK Python para calcular métricas en un entorno de ejecución de notebook o descargadas como trabajos de Spark en IBM Analytics Engine para evaluaciones. El SDK de Inteligencia Artificial ( Python, IA) es una biblioteca de aprendizaje automático ( Python ) que puede utilizar para supervisar, gestionar y gobernar mediante programación modelos de aprendizaje automático. Algunas métricas podrían estar disponibles solo con el SDK de Python. Para obtener más información, consulte Cálculo de métricas con el SDK de Python.

Métricas de evaluación de la deriva

Las métricas de evaluación de la desviación pueden ayudarle a detectar caídas en la precisión y la coherencia de los datos en sus modelos para determinar lo bien que su modelo predice los resultados a lo largo del tiempo. Watsonx.governance admite las siguientes métricas de evaluación de la deriva para el aprendizaje automático models.:

Tabla 1. Descripciones de las métricas de evaluación de la deriva
Métrica Descripción
Disminución de la exactitud Estima la disminución de la precisión del modelo en tiempo de ejecución en comparación con los datos de entrenamiento
Disminución de la coherencia de datos Compara las transacciones en tiempo de ejecución con los patrones de transacciones de los datos de entrenamiento para identificar incoherencias

Deriva v2 métricas de evaluación

Drift v2 Las métricas de evaluación pueden ayudarle a medir los cambios en sus datos a lo largo del tiempo para garantizar la coherencia de los resultados de su modelo. Puede utilizar estas métricas para identificar cambios en los resultados de su modelo, la precisión de sus predicciones y la distribución de sus datos de entrada. Watsonx.governance admite las siguientes métricas de deriva v2 :

Tabla 2. Deriva v2 descripciones de las métricas de evaluación
Métrica Descripción
Desviación de inclusiones Detecta el porcentaje de registros que son valores atípicos en comparación con los datos de referencia
Desviación de características Mide el cambio en la distribución de valores de las características importantes
Desviación de los metadatos de entrada Mide el cambio en la distribución de los metadatos de texto de entrada del LLM
Desviación en la calidad del modelo Compara la precisión estimada en tiempo de ejecución con la precisión de entrenamiento para medir la caída en la precisión.
Desviación de salida Mide el cambio en la distribución de confianza del modelo
Desviación de los metadatos de salida Mide el cambio en la distribución de los metadatos de texto de salida del LLM.
Desviación de la predicción Mide el cambio en la distribución de las clases pronosticadas LLM.

Métricas de evaluación de la equidad

Las métricas de evaluación de la imparcialidad pueden ayudarle a determinar si su modelo produce resultados sesgados. Puede utilizar estas métricas para identificar cuándo su modelo muestra una tendencia a proporcionar resultados favorables más a menudo para un grupo que para otro. Watsonx.governance admite las siguientes métricas de evaluación de la equidad:

Tabla 3. Descripciones de las métricas de evaluación de la equidad
Métrica Descripción
Diferencia de probabilidad media absoluta Compara la media de la diferencia absoluta de las tasas de falsos positivos y de verdaderos positivos entre los grupos controlados y los grupos de referencia
Diferencia de probabilidad media Mide la diferencia en las tasas de falsos positivos y falsos negativos entre los grupos monitorizados y de referencia
Impacto dispar Compara el porcentaje de resultados favorables de un grupo supervisado con el porcentaje de resultados favorables de un grupo de referencia
Diferencia de tasa de error Porcentaje de transacciones puntuadas incorrectamente por su modelo
Diferencia de tasa de falsos descubrimientos La cantidad de transacciones con falsos positivos como porcentaje de todas las transacciones con un resultado positivo
Diferencia de tasa de falsos negativos El porcentaje de transacciones positivas que su modelo calificó incorrectamente como negativas
Diferencia de tasa de falsas omisiones El número de transacciones negativas falsas como porcentaje de todas las transacciones con un resultado negativo
Diferencia de tasa de falsos positivos El porcentaje de transacciones negativas que su modelo calificó incorrectamente como positivas.
Puntuación de impacto Compara el porcentaje de grupos supervisados seleccionados para obtener resultados favorables con el porcentaje de grupos de referencia seleccionados para obtener resultados favorables.
Diferencia de paridad estadística Compara el porcentaje de resultados favorables de los grupos supervisados con los grupos de referencia.

Métricas de evaluación de la calidad de la IA generativa

Las métricas de evaluación de calidad de la IA generativa pueden ayudarte a medir el rendimiento de tu modelo de base en las tareas. Watsonx.governance admite las siguientes métricas de evaluación de calidad de IA generativa:

Tabla 4. Descripciones de métricas de evaluación de la calidad de la IA generativa
Métrica Descripción
BLEU (Bilingual Evaluation Understudy) Compara frases traducidas de traducciones automáticas con frases de traducciones de referencia para medir la similitud entre los textos de referencia y las predicciones
Coincidencia exacta Compara las cadenas de predicción del modelo con las cadenas de referencia para medir la frecuencia con la que coinciden las cadenas.
METEOR (métrico para la evaluación de la traducción con ordenación explícita) Mide hasta qué punto el texto generado con las traducciones automáticas coincide con la estructura del texto de las traducciones de referencia
Legibilidad Determina la dificultad de lectura de los resultados del modelo midiendo características como la longitud de las frases y la complejidad de las palabras
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) Mida la calidad de los resúmenes o traducciones generados en comparación con los resultados de referencia.
SARI (salida del sistema contra referencias y contra la sentencia de entrada) Compara el resultado de la frase predicha con el resultado de la frase de referencia para medir la calidad de las palabras que el modelo utiliza para generar frases
Similaridad de las frases Captura la información semántica de las frases para medir la similitud entre los textos
Calidad del texto Evalúa el resultado de un modelo en relación con los conjuntos de datos de SuperGLUE midiendo la puntuación, la precisión y la recuperación de F1 en relación con las predicciones del modelo y los datos reales

Watsonx.governance también admite las siguientes categorías diferentes de métricas de calidad de IA generativa:

Responder a las métricas de calidad

Puede utilizar las métricas de calidad de las respuestas para evaluar la calidad de las respuestas modelo. Las métricas de calidad de respuesta se calculan con modelos de LLM como juez. Para calcular las métricas con modelos LLM como juez, puede crear una función de puntuación que llame a los modelos. Para obtener más información, consulte las métricas de calidad de respuesta informática y calidad de recuperación utilizando IBM watsonx.governance para el cuaderno de tareas RAG.

Puede calcular las siguientes métricas de calidad de respuesta:

Tabla 5. Descripciones de las métricas de evaluación de la calidad de las respuestas
Métrica Descripción
Relevancia de la respuesta Mide la pertinencia de la respuesta de la salida del modelo con respecto a la pregunta de la entrada del modelo
Responder similitud Mide la similitud entre la respuesta o el texto generado y la respuesta real o de referencia para determinar la calidad del rendimiento del modelo
Fidelidad Mide hasta qué punto el resultado del modelo está fundamentado en el contexto del modelo y proporciona atribuciones del contexto para mostrar las frases más importantes que contribuyen al resultado del modelo.
Solicitudes incorrectas Mide la proporción de preguntas que se responden sin éxito sobre el número total de preguntas

Métricas de análisis de contenido

Puede utilizar las siguientes métricas de análisis de contenido para evaluar el resultado de su modelo en comparación con la entrada o el contexto de su modelo:

Tabla 6. Descripciones de las métricas de evaluación del análisis de contenido
Métrica Descripción
Abstracción Mide la proporción de n-gramas en el texto generado que no aparecen en el contenido original del modelo de base
Compresión Mide cuánto más corto es el resumen en comparación con el texto de entrada calculando la proporción entre el número de palabras del texto original y el número de palabras del resultado del modelo base
Cobertura Mide el grado en que el resultado del modelo de base se genera a partir de la entrada del modelo calculando el porcentaje de texto de salida que también está en la entrada
Densidad Mide el grado de extracción del resumen en la salida del modelo de base a partir de la entrada del modelo calculando el promedio de fragmentos de extracción que se asemejan mucho a las extracciones literales del texto original
Repetitividad Mide el porcentaje de n-gramas que se repiten en el resultado del modelo de base calculando el número de n-gramas repetidos y el número total de n-gramas en el resultado del modelo

Métricas de seguridad de datos

Puede utilizar las siguientes métricas de seguridad de datos para identificar si la entrada o salida de su modelo contiene información perjudicial o sensible:

Tabla 7. Descripciones de las métricas de evaluación de la seguridad de los datos
Métrica Descripción
HAP Mide si hay algún contenido tóxico que contenga odio, abuso o blasfemia en los datos de entrada o salida del modelo.
PII Mide si los datos de entrada o salida de su modelo contienen información personal identificable mediante el modelo de extracción de entidades de Procesamiento del Lenguaje Natural Watson

Métricas de varias etiquetas/clases

Puede utilizar las siguientes métricas de etiquetas/clases múltiples para medir el rendimiento del modelo para predicciones de etiquetas/clases múltiples:

Tabla 8. Descripciones de las métricas de evaluación de múltiples etiquetas/clases
Métrica Descripción
Macropuntuación F1 La media de las puntuaciones de la prueba de evaluación de conocimientos ( F1 ) calculada por separado para cada clase
Macroprecisión La media de las puntuaciones de precisión calculadas por separado para cada clase
Macroexhaustividad La media de las puntuaciones de recuerdo calculadas por separado para cada clase
Micropuntuación F1 Calcula la media armónica de precisión y recuperación
Microprecisión La proporción del número de predicciones correctas sobre todas las clases con respecto al número total de predicciones.
Microexhaustividad La proporción del número de predicciones correctas sobre todas las clases con respecto al número de muestras verdaderas.

Métricas de calidad de recuperación

Puede utilizar las métricas de calidad de recuperación para medir la calidad de la forma en que el sistema de recuperación clasifica los contextos relevantes. Las métricas de calidad de recuperación se calculan con modelos de LLM como juez. Para calcular las métricas con modelos LLM como juez, puede crear una función de puntuación que llame a los modelos. Para obtener más información, consulte las métricas de calidad de respuesta informática y calidad de recuperación utilizando IBM watsonx.governance para el cuaderno de tareas RAG.

Puede calcular las siguientes métricas de calidad de recuperación:

Tabla 9. Descripciones de las métricas de evaluación de la calidad de la recuperación
Métrica Descripción
Precisión promedio Evalúa si todos los contextos relevantes están mejor clasificados o no calculando la media de las puntuaciones de precisión de los contextos relevantes
Relevancia del contexto Mide la pertinencia del contexto que su modelo recupera con respecto a la pregunta especificada en la solicitud
Tasa de aciertos Mide si hay al menos un contexto relevante entre los contextos recuperados.
Ganancia acumulada descontada normalizada Mide la calidad de la clasificación de los contextos recuperados
Rango recíproco El rango recíproco del primer contexto pertinente
Precisión de recuperación Mide la cantidad de contextos relevantes del total de contextos recuperados

Métricas de evaluación de la vigilancia de la salud del modelo

Las métricas de evaluación del monitor de estado del modelo pueden ayudarle a comprender el comportamiento y el rendimiento de su modelo determinando la eficacia con la que el despliegue de su modelo procesa sus transacciones. Las métricas de evaluación del estado del modelo están activadas por defecto para las evaluaciones de modelos de aprendizaje automático en despliegues de activos de producción y de IA generativa. Watsonx.governance admite las siguientes métricas de evaluación del monitor de salud del modelo:

Tabla 10. Descripciones de las métricas de evaluación de la vigilancia de la salud del modelo
Métrica Descripción
Tamaño de la carga útil El tamaño total, medio, mínimo, máximo y medio de la carga útil de los registros de transacciones que procesa la implantación de su modelo a través de las solicitudes de puntuación en kilobytes (KB)
Registros El número total, medio, mínimo, máximo y medio de registros de transacciones que se procesan a través de las solicitudes de calificación
Solicitudes de puntuación El número de solicitudes de puntuación que recibe su despliegue de modelos
Usuarios El número de usuarios que envían solicitudes de puntuación a sus implantaciones de modelos

Watsonx.governance también admite las siguientes categorías diferentes de métricas de evaluación de monitores de salud modelo:

Recuento de fichas

Las siguientes métricas de recuento de tokens calculan el número de tokens que se procesan en las solicitudes de puntuación para la implementación de su modelo:

Tabla 11. Descripciones de las métricas de evaluación del recuento de fichas del monitor de salud del modelo
Métrica Descripción
Recuento de tokens de entrada Calcula el recuento total, medio, mínimo, máximo y medio de tokens de entrada en varias solicitudes de puntuación durante las evaluaciones
Recuento de señales de salida Calcula el recuento total, medio, mínimo, máximo y medio de tokens de salida entre las solicitudes de puntuación durante las evaluaciones

Rendimiento y latencia

Las evaluaciones de los monitores de salud de los modelos calculan la latencia mediante el seguimiento del tiempo que se tarda en procesar las solicitudes de puntuación y los registros de transacciones por milisegundo (ms). El rendimiento se calcula mediante el seguimiento del número de solicitudes de puntuación y registros de transacciones que se procesan por segundo.

Las siguientes métricas se calculan para medir el rendimiento y la latencia durante las evaluaciones:

Tabla 12. Descripciones de las métricas de rendimiento y latencia del monitor de salud del modelo
Métrica Descripción
Latencia de la API Tiempo (en ms) que tarda en procesar una solicitud de puntuación su implementación de modelo.
Rendimiento de la API Número de solicitudes de puntuación procesadas por su implementación de modelo por segundo

Métricas de evaluación de calidad

Las evaluaciones de calidad pueden ayudarle a medir la capacidad de su modelo para proporcionar resultados correctos en función de su rendimiento. Watsonx.governance apoya los siguientes parámetros de evaluación de calidad:

Tabla 13. Descripciones de las métricas de evaluación de calidad
Métrica Descripción
Precisión Mide la precisión de las predicciones de su modelo calculando la proporción de resultados correctos entre el número total de resultados.
Área bajo PR Mide lo bien que su modelo equilibra la identificación correcta de clases positivas con la búsqueda de todas las clases positivas
Área bajo ROC Mide lo bien que su modelo identifica las diferencias entre clases.
Puntuación Brier Mide la diferencia cuadrática media entre la probabilidad prevista y el valor objetivo.
F1-Measure Medidas: media armónica de precisión y recuerdo
Coeficiente de Gini Mide la capacidad de los modelos para distinguir entre dos clases
Inclinación de la etiqueta Mide la asimetría de las distribuciones de etiquetas
Pérdida logarítmica Media de los logaritmos de las probabilidades de la clase objetivo (confianza)
Coeficiente de correlación de Matthews La calidad de las clasificaciones binarias y multiclase teniendo en cuenta los positivos y negativos verdaderos y falsos
Error absoluto medio Promedio de la diferencia absoluta entre la predicción del modelo y el valor de destino
Media del error porcentual absoluto Mide la diferencia de error porcentual medio entre los valores previstos y reales
Error cuadrático medio Media de la diferencia al cuadrado entre la predicción del modelo y el valor objetivo
Coeficiente de correlación de Pearson Mide la relación lineal entre la predicción del modelo y los valores objetivo.
Precisión Proporción de predicciones correctas en predicciones de clase positiva
Proporción de varianza explicada La relación entre la varianza explicada y la varianza objetivo. La varianza explicada es la diferencia entre la varianza de destino y la varianza de error de predicción.
Exhaustividad Proporción de predicciones correctas en la clase positiva
Raíz del error cuadrático promedio Raíz cuadrada de media de cuadrado de la diferencia entre la predicción del modelo y el valor de destino
R cuadrado Relación de la diferencia entre la varianza objetivo y la varianza del error de predicción con respecto a la varianza objetivo
coeficiente de correlación de Spearman Mide la monotonía de la relación entre las predicciones del modelo y los valores objetivo.
Porcentaje de error absoluto de media simétrica Mide la media simétrica del porcentaje de error de diferencia entre los valores previstos y reales
Tasa de positivos verdaderos Proporción de predicciones correctas en predicciones de clase positiva
Índice de falsos positivos ponderados Proporción de predicciones incorrectas en la clase positiva
Medida F1 ponderada Media ponderada de la probabilidad de que se produzca un evento ( F1-measure ) con ponderaciones iguales a la probabilidad de clase
Precisión ponderada Media ponderada de precisión con ponderaciones iguales a la probabilidad de clase
Exhaustividad ponderada Media ponderada de recuerdo con pesos iguales a la probabilidad de clase

Tema principal: Evaluación de modelos de IA