Las métricas de evaluación pueden ayudarle a supervisar continuamente el rendimiento de sus modelos de IA para proporcionar información a lo largo del ciclo de vida de la IA. Con watsonx.governance, puede utilizar estas métricas para ayudar a garantizar el cumplimiento de los requisitos normativos e identificar cómo realizar mejoras para mitigar los riesgos.
Puede ejecutar evaluaciones en Watsonx.governance para generar métricas con supervisión automatizada que pueden proporcionar información procesable para ayudarle a alcanzar sus objetivos de gobernanza de IA. Puede utilizar estas métricas para alcanzar los siguientes objetivos:
Garantice el cumplimiento : Realice un seguimiento automático del cumplimiento de las normativas y políticas organizativas en evolución con alertas que se activan cuando se superan los umbrales.
Fomentar la transparencia : Genere documentación detallada para ofrecer una visión clara del comportamiento del modelo, su rendimiento y la explicabilidad de los resultados.
Mitigar los riesgos : Detecte y aborde problemas como el sesgo o la desviación de la precisión mediante evaluaciones continuas y valoraciones proactivas de los riesgos.
Proteja la privacidad y la seguridad : Supervise las vulnerabilidades de seguridad, como la exposición de información personal identificable (PII), y aplique barandillas para evitar el uso indebido de datos confidenciales.
Las métricas que puede utilizar para obtener información sobre el rendimiento de su modelo vienen determinadas por el tipo de evaluaciones que active. Cada tipo de evaluación genera métricas diferentes que puede analizar para obtener información.
También puedes utilizar el ibm-watsonx-govSDK Python para calcular métricas en un entorno de ejecución de notebook o descargadas como trabajos de Spark en IBM Analytics Engine para evaluaciones. El SDK de Inteligencia Artificial ( Python, IA) es una biblioteca de aprendizaje automático ( Python ) que puede utilizar para supervisar, gestionar y gobernar mediante programación modelos de aprendizaje automático. Algunas métricas podrían estar disponibles solo con el SDK de Python. Para obtener más información, consulte Cálculo de métricas con el SDK de Python.
Métricas de evaluación de la deriva
Copy link to section
Las métricas de evaluación de la desviación pueden ayudarle a detectar caídas en la precisión y la coherencia de los datos en sus modelos para determinar lo bien que su modelo predice los resultados a lo largo del tiempo. Watsonx.governance admite las siguientes métricas de evaluación de la deriva para el aprendizaje automático models.:
Tabla 1. Descripciones de las métricas de evaluación de la deriva
Compara las transacciones en tiempo de ejecución con los patrones de transacciones de los datos de entrenamiento para identificar incoherencias
Deriva v2 métricas de evaluación
Copy link to section
Drift v2 Las métricas de evaluación pueden ayudarle a medir los cambios en sus datos a lo largo del tiempo para garantizar la coherencia de los resultados de su modelo. Puede utilizar estas métricas para identificar cambios en los resultados de su modelo, la precisión de sus predicciones y la distribución de sus datos de entrada. Watsonx.governance admite las siguientes métricas de deriva v2 :
Tabla 2. Deriva v2 descripciones de las métricas de evaluación
Mide el cambio en la distribución de las clases pronosticadas LLM.
Métricas de evaluación de la equidad
Copy link to section
Las métricas de evaluación de la imparcialidad pueden ayudarle a determinar si su modelo produce resultados sesgados. Puede utilizar estas métricas para identificar cuándo su modelo muestra una tendencia a proporcionar resultados favorables más a menudo para un grupo que para otro. Watsonx.governance admite las siguientes métricas de evaluación de la equidad:
Tabla 3. Descripciones de las métricas de evaluación de la equidad
Compara la media de la diferencia absoluta de las tasas de falsos positivos y de verdaderos positivos entre los grupos controlados y los grupos de referencia
Compara el porcentaje de grupos supervisados seleccionados para obtener resultados favorables con el porcentaje de grupos de referencia seleccionados para obtener resultados favorables.
Compara el porcentaje de resultados favorables de los grupos supervisados con los grupos de referencia.
Métricas de evaluación de la calidad de la IA generativa
Copy link to section
Las métricas de evaluación de calidad de la IA generativa pueden ayudarte a medir el rendimiento de tu modelo de base en las tareas. Watsonx.governance admite las siguientes métricas de evaluación de calidad de IA generativa:
Tabla 4. Descripciones de métricas de evaluación de la calidad de la IA generativa
Compara frases traducidas de traducciones automáticas con frases de traducciones de referencia para medir la similitud entre los textos de referencia y las predicciones
Determina la dificultad de lectura de los resultados del modelo midiendo características como la longitud de las frases y la complejidad de las palabras
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
Mida la calidad de los resúmenes o traducciones generados en comparación con los resultados de referencia.
SARI (salida del sistema contra referencias y contra la sentencia de entrada)
Compara el resultado de la frase predicha con el resultado de la frase de referencia para medir la calidad de las palabras que el modelo utiliza para generar frases
Evalúa el resultado de un modelo en relación con los conjuntos de datos de SuperGLUE midiendo la puntuación, la precisión y la recuperación de F1 en relación con las predicciones del modelo y los datos reales
Watsonx.governance también admite las siguientes categorías diferentes de métricas de calidad de IA generativa:
Mide hasta qué punto el resultado del modelo está fundamentado en el contexto del modelo y proporciona atribuciones del contexto para mostrar las frases más importantes que contribuyen al resultado del modelo.
Mide la proporción de preguntas que se responden sin éxito sobre el número total de preguntas
Métricas de análisis de contenido
Copy link to section
Puede utilizar las siguientes métricas de análisis de contenido para evaluar el resultado de su modelo en comparación con la entrada o el contexto de su modelo:
Tabla 6. Descripciones de las métricas de evaluación del análisis de contenido
Mide cuánto más corto es el resumen en comparación con el texto de entrada calculando la proporción entre el número de palabras del texto original y el número de palabras del resultado del modelo base
Mide el grado en que el resultado del modelo de base se genera a partir de la entrada del modelo calculando el porcentaje de texto de salida que también está en la entrada
Mide el grado de extracción del resumen en la salida del modelo de base a partir de la entrada del modelo calculando el promedio de fragmentos de extracción que se asemejan mucho a las extracciones literales del texto original
Mide el porcentaje de n-gramas que se repiten en el resultado del modelo de base calculando el número de n-gramas repetidos y el número total de n-gramas en el resultado del modelo
Métricas de seguridad de datos
Copy link to section
Puede utilizar las siguientes métricas de seguridad de datos para identificar si la entrada o salida de su modelo contiene información perjudicial o sensible:
Tabla 7. Descripciones de las métricas de evaluación de la seguridad de los datos
Mide si los datos de entrada o salida de su modelo contienen información personal identificable mediante el modelo de extracción de entidades de Procesamiento del Lenguaje Natural Watson
Métricas de varias etiquetas/clases
Copy link to section
Puede utilizar las siguientes métricas de etiquetas/clases múltiples para medir el rendimiento del modelo para predicciones de etiquetas/clases múltiples:
Tabla 8. Descripciones de las métricas de evaluación de múltiples etiquetas/clases
Evalúa si todos los contextos relevantes están mejor clasificados o no calculando la media de las puntuaciones de precisión de los contextos relevantes
Mide la cantidad de contextos relevantes del total de contextos recuperados
Métricas de evaluación de la vigilancia de la salud del modelo
Copy link to section
Las métricas de evaluación del monitor de estado del modelo pueden ayudarle a comprender el comportamiento y el rendimiento de su modelo determinando la eficacia con la que el despliegue de su modelo procesa sus transacciones. Las métricas de evaluación del estado del modelo están activadas por defecto para las evaluaciones de modelos de aprendizaje automático en despliegues de activos de producción y de IA generativa. Watsonx.governance admite las siguientes métricas de evaluación del monitor de salud del modelo:
Tabla 10. Descripciones de las métricas de evaluación de la vigilancia de la salud del modelo
El tamaño total, medio, mínimo, máximo y medio de la carga útil de los registros de transacciones que procesa la implantación de su modelo a través de las solicitudes de puntuación en kilobytes (KB)
El número de usuarios que envían solicitudes de puntuación a sus implantaciones de modelos
Watsonx.governance también admite las siguientes categorías diferentes de métricas de evaluación de monitores de salud modelo:
Recuento de fichas
Copy link to section
Las siguientes métricas de recuento de tokens calculan el número de tokens que se procesan en las solicitudes de puntuación para la implementación de su modelo:
Tabla 11. Descripciones de las métricas de evaluación del recuento de fichas del monitor de salud del modelo
Calcula el recuento total, medio, mínimo, máximo y medio de tokens de salida entre las solicitudes de puntuación durante las evaluaciones
Rendimiento y latencia
Copy link to section
Las evaluaciones de los monitores de salud de los modelos calculan la latencia mediante el seguimiento del tiempo que se tarda en procesar las solicitudes de puntuación y los registros de transacciones por milisegundo (ms). El rendimiento se calcula mediante el seguimiento del número de solicitudes de puntuación y registros de transacciones que se procesan por segundo.
Las siguientes métricas se calculan para medir el rendimiento y la latencia durante las evaluaciones:
Tabla 12. Descripciones de las métricas de rendimiento y latencia del monitor de salud del modelo
Número de solicitudes de puntuación procesadas por su implementación de modelo por segundo
Métricas de evaluación de calidad
Copy link to section
Las evaluaciones de calidad pueden ayudarle a medir la capacidad de su modelo para proporcionar resultados correctos en función de su rendimiento. Watsonx.governance apoya los siguientes parámetros de evaluación de calidad:
Tabla 13. Descripciones de las métricas de evaluación de calidad
Mide lo bien que su modelo identifica las diferencias entre clases.
Puntuación Brier
Mide la diferencia cuadrática media entre la probabilidad prevista y el valor objetivo.
F1-Measure
Medidas: media armónica de precisión y recuerdo
Coeficiente de Gini
Mide la capacidad de los modelos para distinguir entre dos clases
Inclinación de la etiqueta
Mide la asimetría de las distribuciones de etiquetas
Pérdida logarítmica
Media de los logaritmos de las probabilidades de la clase objetivo (confianza)
Coeficiente de correlación de Matthews
La calidad de las clasificaciones binarias y multiclase teniendo en cuenta los positivos y negativos verdaderos y falsos
Error absoluto medio
Promedio de la diferencia absoluta entre la predicción del modelo y el valor de destino
Media del error porcentual absoluto
Mide la diferencia de error porcentual medio entre los valores previstos y reales
Error cuadrático medio
Media de la diferencia al cuadrado entre la predicción del modelo y el valor objetivo
Coeficiente de correlación de Pearson
Mide la relación lineal entre la predicción del modelo y los valores objetivo.
Precisión
Proporción de predicciones correctas en predicciones de clase positiva
Proporción de varianza explicada
La relación entre la varianza explicada y la varianza objetivo. La varianza explicada es la diferencia entre la varianza de destino y la varianza de error de predicción.
Exhaustividad
Proporción de predicciones correctas en la clase positiva
Raíz del error cuadrático promedio
Raíz cuadrada de media de cuadrado de la diferencia entre la predicción del modelo y el valor de destino
R cuadrado
Relación de la diferencia entre la varianza objetivo y la varianza del error de predicción con respecto a la varianza objetivo
coeficiente de correlación de Spearman
Mide la monotonía de la relación entre las predicciones del modelo y los valores objetivo.
Porcentaje de error absoluto de media simétrica
Mide la media simétrica del porcentaje de error de diferencia entre los valores previstos y reales
Tasa de positivos verdaderos
Proporción de predicciones correctas en predicciones de clase positiva
Índice de falsos positivos ponderados
Proporción de predicciones incorrectas en la clase positiva
Medida F1 ponderada
Media ponderada de la probabilidad de que se produzca un evento ( F1-measure ) con ponderaciones iguales a la probabilidad de clase
Precisión ponderada
Media ponderada de precisión con ponderaciones iguales a la probabilidad de clase
Exhaustividad ponderada
Media ponderada de recuerdo con pesos iguales a la probabilidad de clase
Acerca de las cookies de este sitioNuestros sitios web necesitan algunas cookies para funcionar correctamente (necesarias). Además, se pueden utilizar otras cookies con su consentimiento para analizar el uso del sitio, para mejorar la experiencia del usuario y para publicidad.Para obtener más información, consulte sus opciones de preferencias de cookies. Al visitar nuestro sitio web, acepta que procesemos la información tal y como se describe en ladeclaración de privacidad de IBM.Para facilitar la navegación, sus preferencias de cookies se compartirán entre los dominios web de IBM que se muestran aquí.