0 / 0

Configuración de las evaluaciones de calidad

Última actualización: 12 jun 2025
Configuración de las evaluaciones de calidad

Puede configurar evaluaciones de calidad para medir la capacidad de su modelo para proporcionar resultados correctos en función de su rendimiento.

Las evaluaciones de calidad miden hasta qué punto su modelo predice resultados precisos identificando cuándo disminuye la calidad del modelo, para que pueda volver a entrenarlo adecuadamente. Para evaluar el modelo, proporcione datos de comentarios, que son datos etiquetados donde se conoce el resultado. Las evaluaciones de calidad utilizan métricas para evaluar cómo el modelo predice los resultados que coinciden con los resultados reales en el conjunto de datos etiquetado.

Las secciones siguientes describen cómo configurar evaluaciones de calidad:

Configuración de evaluaciones de calidad para modelos de aprendizaje automático

Antes de empezar: Proporcionar los datos de comentarios

Los datos de comentarios son como proporcionar una hoja de respuestas con resultados observados reales. El supervisor puede ejecutar el modelo como si no se conocieran las respuestas y, a continuación, comparar los resultados previstos con los resultados reales y proporcionar puntuaciones de precisión basadas en métricas de calidad.

Para proporcionar los datos de comentarios que utilizará para evaluar el modelo, pulse la página Puntos finales y realice una de las acciones siguientes:

  • Pulse Cargar datos de comentarios y cargue un archivo con datos etiquetados.
  • Pulse la pestaña Puntos finales y especifique un punto final que se conecte al origen de datos de comentarios.

Para obtener detalles, consulte Gestión de datos de comentarios.

Establecimiento de umbrales de calidad

Una vez que los datos de comentarios estén disponibles para la evaluación, configure los valores del supervisor. Establezca umbrales para un rendimiento aceptable para el modelo en comparación con los resultados conocidos.

Para establecer los valores del umbral, en la pestaña Calidad, haga clic en el icono Editar Icono de editar para introducir los valores del cuadro Umbral de calidad y, a continuación, edite los valores del tamaño de la muestra.

Umbral de alerta de calidad

Seleccione un valor que represente un nivel de exactitud aceptable. Por ejemplo, en el modelo de riesgo crediticio alemán de ejemplo que se proporciona con la configuración automática, la alerta para el área bajo la métrica ROC se establece en 95%. Si la calidad medida para el modelo está por debajo de ese valor, se desencadena una alerta. Un valor típico para Área bajo ROC es 80%.

Tamaños de muestra mínimos y máximos

Al establecer un tamaño de muestra mínimo, impide medir la calidad hasta que haya un número de registros mínimo disponibles en el conjunto de datos de evaluación. Esto garantiza que el tamaño de la muestra no es demasiado pequeño y pueda causar desviaciones en los resultados. Cada vez que se ejecuta la comprobación de sesgo, se utiliza el tamaño mínimo de muestra para decidir el número de registros sobre el que se calculan las medidas de calidad.

El tamaño máximo de la muestra ayuda a gestionar mejor el tiempo y los recursos necesarios para evaluar el conjunto de datos. Si se sobrepasa este tamaño, sólo se evaluarán los registros más recientes. Por ejemplo, en la muestra Modelo de riesgo crediticio alemán , el tamaño mínimo de la muestra se establece en 50 y no hay ningún tamaño máximo especificado ya que es una muestra pequeña.

Configuración de evaluaciones de calidad para modelos generativos de IA

Cuando evalúa plantillas de solicitud, puede revisar un resumen de los resultados de evaluación de calidad para el tipo de tarea de clasificación de texto.

El resumen muestra puntuaciones e infracciones para las métricas que se calculan con los valores predeterminados.

Para configurar evaluaciones de calidad con sus propios valores, puede establecer un tamaño mínimo de muestra y establecer valores de umbral para cada métrica. El tamaño mínimo de la muestra indica el número mínimo de registros de transacción de modelo que desea evaluar y los valores de umbral crean alertas cuando las puntuaciones de métrica violan los umbrales. Las puntuaciones de métrica deben ser superiores a los valores de umbral para evitar infracciones. Los valores de métrica más altos indican mejores puntuaciones.

Métricas de calidad soportadas

Cuando activa las evaluaciones de calidad, puede generar métricas que le ayuden a determinar lo bien que su modelo predice los resultados. Los valores que se establecen como umbrales de métrica determinan cómo puede interpretar las puntuaciones de métrica. Para las métricas configuradas con umbrales más bajos, las puntuaciones más altas indican mejores resultados. Para las métricas configuradas con umbrales superiores, las puntuaciones inferiores indican mejores resultados.

Las evaluaciones de calidad generan las métricas siguientes:

Área bajo ROC

  • Modelos compatibles: Aprendizaje automático
  • Descripción: Área bajo recuperación y curva de tasa de falsos positivos para calcular la sensibilidad frente a la tasa de caídas
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación binaria
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión

Área bajo PR

  • Modelos compatibles: Aprendizaje automático
  • Descripción: Área bajo precisión y curva de exhaustividad
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación binaria
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

El área bajo exhaustividad de precisión proporciona el total para ambos Precision + Recall.

       n
AveP = ∑ P(k)∆r(k)
      k=1

La precisión (P) se define como el número de verdaderos positivos (Tp) sobre el número de verdaderos positivos más el número de falsos positivos (Fp).

               number of true positives
Precision =   ______________________________________________________

              (number of true positives + number of false positives)

La exhaustividad (R) se define como el número de verdaderos positivos (Tp) sobre el número de verdaderos positivos más el número de falsos negativos (Fn).

            number of true positives
Recall =   ______________________________________________________

           (number of true positives + number of false negatives)

Precisión

  • Modelos compatibles: Aprendizaje automático e IA generativa
  • Descripción: La proporción de predicciones correctas
  • Umbrales predeterminados: límite inferior = 80%
  • Tipos de problema: Clasificación binaria y clasificación multiclase
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Descripción de la precisión:
    La precisión puede significar cosas diferentes en función del tipo de algoritmo;
    • Clasificación multiclase: La precisión mide el número de veces que se ha previsto correctamente cualquier clase, normalizada por el número de puntos de datos. Para obtener más detalles, consulte Multi-class classification en la documentación de Apache Spark.

    • Clasificación binaria: Para un algoritmo de clasificación binaria, la precisión se mide como el área bajo una curva ROC. Consulte Binary classification en la documentación de Apache Spark para obtener más detalles.

    • Regresión: Los algoritmos de regresión se miden utilizando el coeficiente de determinación o R2. Para obtener más detalles, consulte la Evaluación del modelo de regresión en la documentación de Apache Spark.

Tasa de positivos verdaderos

  • Modelos compatibles: Aprendizaje automático
  • Descripción: Proporción de predicciones correctas en predicciones de clase positiva
  • Umbrales predeterminados: Límite inferior = 80 %
  • Tipo de problema: Clasificación binaria
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

El índice de verdaderos positivos se calcula mediante la fórmula siguiente:

                  number of true positives
TPR =  _________________________________________________________

        (number of true positives + number of false negatives)

Tasa de falsos positivos

  • Modelos compatibles: Aprendizaje automático
  • Descripción: Proporción de predicciones incorrectas en clase positiva
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación binaria
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

La tasa de falsos positivos es el cociente del número total de falsos positivos que se divide por la suma de falsos positivos y verdaderos negativos.

                        number of false positives
False positive rate =  ______________________________________________________

                       (number of false positives + number of true negatives)

Puntuación de Brier

  • Modelos compatibles: Aprendizaje automático
  • Descripción: Mide la diferencia cuadrática media entre la probabilidad pronosticada y el valor objetivo. Las puntuaciones más altas indican que las probabilidades pronosticadas del modelo no coinciden con el valor objetivo.
  • Umbrales predeterminados:
    • Límite superior = 80%
  • Tipo de problema: Clasificación binaria
  • Realizar las matemáticas:

La métrica de puntuación más alta se calcula con la fórmula siguiente:

BrierScore = 1/N * sum( (p - y)^2 )
Where  y = actual outcome, and p = predicted probability

Coeficiente de Gini

  • Modelos compatibles: Aprendizaje automático
  • Descripción: El coeficiente de Gini mide la forma en que los modelos distinguen entre dos clases. Se calcula como el doble del área entre la curva ROC y la línea diagonal del gráfico. Si el valor del coeficiente gini es 0, el modelo no muestra ninguna capacidad de discriminación y un valor de 1 indica una discriminación perfecta.
  • Umbrales predeterminados:
    • Límite inferior = 80%
  • Tipo de problema: Clasificación binaria
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

La métrica del coeficiente de gini se calcula con la fórmula siguiente:


Gini = 2 * Area under ROC - 1

Desvío de etiqueta

  • Modelos compatibles: IA generativa y aprendizaje automático
  • Descripción: Mide la asimetría de las distribuciones de etiqueta. Si la asimetría es 0, el conjunto de datos está perfectamente equilibrado, si es menor que -1 o mayor que 1, la distribución es muy asimétrica, cualquier valor intermedio es moderadamente asimétrico.
  • Umbrales predeterminados:
    • Límite inferior = -0.5
    • Límite superior = 0.5
  • Tipo de problema: Clasificación binaria y clasificación multiclase
  • Valores de gráfico: Último valor en el margen de tiempo

Coeficiente de correlación de Matthews

  • Modelos compatibles: IA generativa y aprendizaje automático
  • Descripción: Mide la calidad de las clasificaciones binarias y multiclase teniendo en cuenta los positivos y negativos verdaderos y falsos. Medida equilibrada que se puede utilizar incluso si las clases son de tamaños diferentes. Un valor del coeficiente de correlación entre -1 y +1. Un coeficiente de +1 representa una predicción perfecta, 0 una predicción aleatoria media y -1 una predicción inversa.
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación binaria y clasificación multiclase
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métrica disponibles: Matriz de confusión

Media del error porcentual absoluto

  • Modelos admitidos: aprendizaje automático
  • Límites por defecto: Límite superior = 0.2
  • Tipo de problema: Regresión
  • Descripción: Mide la diferencia porcentual media de error entre los valores predichos y los reales
  • Realizar las matemáticas:

El error medio porcentual absoluto se calcula con la siguiente fórmula:

Se muestra la fórmula del error porcentual medio absoluto

A es el valor real y P es el valor previsto.

Porcentaje de error absoluto de media simétrica

  • Modelos compatibles: Aprendizaje automático
  • Límites por defecto: Límite superior = 0.2
  • Tipo de problema: Regresión
  • Descripción: Mide la media simétrica del error porcentual de diferencia entre los valores predichos y los reales
  • Realizar las matemáticas:

El error porcentual absoluto medio simétrico se calcula con la siguiente fórmula:

Aparece la fórmula del error porcentual absoluto medio simétrico

A es el valor real y P es el valor previsto.

Coeficiente de correlación de Pearson

  • Modelos compatibles: Aprendizaje automático
  • Límite por defecto: Límite inferior = 80%
  • Tipo de problema: Regresión
  • Descripción: La métrica del coeficiente de correlación de Pearson (pearson) mide la relación lineal entre la predicción del modelo y los valores objetivo. La métrica pearson calcula un valor de coeficiente de correlación entre -1 y +1. Un valor de correlación de -1 o +1 indica que existe una relación lineal exacta y un valor de 0 indica que no existe correlación. Las correlaciones positivas indican que las variables aumentan simultáneamente y las correlaciones negativas indican que a medida que una variable aumenta, otra disminuye. Los valores positivos altos indican que el modelo predice valores similares a los valores objetivo.

coeficiente de correlación de Spearman

  • Modelos compatibles: Aprendizaje automático
  • Límite por defecto: Límite inferior = 80%
  • Tipo de problema: Regresión
  • Valores de gráfico: Último valor en el margen de tiempo
  • Descripción: La métrica del coeficiente de correlación de rangos de Spearman (spearman) mide la monotonicidad de la relación entre las predicciones del modelo y los valores objetivo. La métrica de spearman calcula un valor de coeficiente de correlación entre -1 y +1. Un valor de correlación de -1 o +1 indica que existe una relación monótona exacta y un valor de 0 indica que no existe correlación. Las correlaciones positivas indican que las variables aumentan simultáneamente y las correlaciones negativas indican que a medida que una variable aumenta, otra disminuye.

Exhaustividad

  • Modelos compatibles: Aprendizaje automático
  • Descripción: Proporción de predicciones correctas en clase positiva
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación binaria
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

La exhaustividad (R) se define como el número de verdaderos positivos (Tp) sobre el número de verdaderos positivos más el número de falsos negativos (Fn).

                       number of true positives
Recall =   ______________________________________________________

           (number of true positives + number of false negatives)

Precisión

  • Modelos compatibles: Aprendizaje automático
  • Descripción: Proporción de predicciones correctas en predicciones de clase positiva
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación binaria
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

La precisión (P) se define como el número de verdaderos positivos (Tp) sobre el número de verdaderos positivos más el número de falsos positivos (Fp).

                           number of true positives
Precision =  __________________________________________________________

             (number of true positives + the number of false positives)

F1-Measure

  • Modelos compatibles: Aprendizaje automático
  • Descripción: Media armónica de precisión y exhaustividad
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación binaria
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

La F1-measure es el promedio armónico ponderado o la media de precisión y exhaustividad.

          (precision * recall)
F1 = 2 *  ____________________

          (precision + recall)

Pérdida logarítmica

  • Modelos compatibles: Aprendizaje automático
  • Descripción: Media de probabilidades de clase de destino de logaritmos (confianza). También se conoce como logaritmo de verosimilitud previsto.
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación binaria y clasificación multiclase
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Ninguno
  • Realizar las matemáticas:

Para un modelo binario, la pérdida logarítmica se calcula mediante la fórmula siguiente:

-(y log(p) + (1-y)log(1-p))

donde p = etiqueta verdadera e y = probabilidad prevista

Para un modelo multiclase, la pérdida logarítmica se calcula mediante la fórmula siguiente:

  M
-SUM Yo,c log(Po,c)
 c=1 

donde M > 2, p = etiqueta verdadera e y = probabilidad prevista

Proporción de varianza explicada

  • Modelos compatibles: Aprendizaje automático
  • Descripción: La proporción de varianza explicada es la proporción de varianza explicada y la varianza de destino. La varianza explicada es la diferencia entre la varianza de destino y la varianza de error de predicción.
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Regresión
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Ninguno
  • Realizar las matemáticas:

La varianza de proporción explicada se calcula promediando los números y, a continuación, para cada número, resta la media y cuadra los resultados. Luego, trabajar las plazas.

                                  sum of squares between groups 
Proportion explained variance =  ________________________________

                                      sum of squares total

Media-error absoluto

  • Modelos compatibles: Aprendizaje automático
  • Descripción: Promedio de la diferencia absoluta entre la predicción del modelo y el valor de destino
  • Umbrales predeterminados: Límite superior = 80 %
  • Tipo de problema: Regresión
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Ninguno
  • Realizar las matemáticas:

El error absoluto promedio se calcula sumando todos los errores absolutos y dividiéndolos por el número de errores.

                         SUM  | Yi - Xi | 
Mean absolute errors =  ____________________

                          number of errors

Error cuadrático medio

  • Modelos compatibles: Aprendizaje automático
  • Descripción: Promedio de la diferencia cuadrática entre la predicción del modelo y el valor de destino
  • Umbrales predeterminados: Límite superior = 80 %
  • Tipo de problema: Regresión
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Ninguno
  • Realizar las matemáticas:

El error de la media cuadrática en su forma más simple se representa mediante la fórmula siguiente.

                         SUM  (Yi - ^Yi) * (Yi - ^Yi)
Mean squared errors  =  ____________________________

                             number of errors

R cuadrado

  • Modelos compatibles: Aprendizaje automático
  • Descripción: Proporción de diferencia entre la varianza de destino y la varianza para error de predicción con la varianza de destino
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Regresión
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Ninguno
  • Realizar las matemáticas:

La métrica R cuadrado se define en la fórmula siguiente.

                  explained variation
R-squared =       _____________________

                    total variation

Raíz del error cuadrático promedio

  • Modelos compatibles: Aprendizaje automático
  • Descripción: Raíz cuadrada de media de cuadrado de la diferencia entre la predicción del modelo y el valor de destino
  • Umbrales predeterminados: Límite superior = 80 %
  • Tipo de problema: Regresión
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Ninguno
  • Realizar las matemáticas:

La raíz del error cuadrático medio es igual a la raíz cuadrada de la media del cuadrado (previsiones menos valores observados).

          ___________________________________________________________
RMSE  =  √(forecasts - observed values)*(forecasts - observed values)

Tasa de faltos positivos ponderados

  • Modelos compatibles: Aprendizaje automático e IA generativa
  • Descripción: Media ponderada de clase TPR con ponderaciones iguales a la probabilidad de clase
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación multiclase
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

El índice de verdaderos positivos se calcula mediante la fórmula siguiente:

                  number of true positives
TPR =  _________________________________________________________

        number of true positives + number of false negatives

Tasa de faltos positivos ponderados

  • Modelos compatibles: Aprendizaje automático e IA generativa
  • Descripción: Proporción de predicciones incorrectas en clase positiva
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación multiclase
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

El índice de falsos positivos ponderados es la aplicación del FPR con datos ponderados.

                   number of false positives
FPR =  ______________________________________________________

       (number of false positives + number of true negatives)

Exhaustividad ponderada

  • Modelos compatibles: Aprendizaje automático e IA generativa
  • Descripción: Media ponderada de exhaustividad con ponderaciones iguales a la probabilidad de clase
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación multiclase
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

La exhaustividad ponderada (wR) se define como el número de verdaderos positivos (Tp) sobre el número de verdaderos positivos más el número de falsos negativos (Fn) utilizados con los datos ponderados.

                          number of true positives
Recall =   ______________________________________________________

           number of true positives + number of false negatives

Precisión ponderada

  • Modelos compatibles: Aprendizaje automático e IA generativa
  • Descripción: Media ponderada de precisión con ponderaciones iguales a la probabilidad de clase
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación multiclase
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

La precisión (P) se define como el número de verdaderos positivos (Tp) sobre el número de verdaderos positivos más el número de falsos positivos (Fp).

                            number of true positives
Precision =  ________________________________________________________

             number of true positives + the number of false positives

Medida F1 ponderada

  • Modelos compatibles: Aprendizaje automático e IA generativa
  • Descripción: Medida ponderada de la medida F1 con ponderaciones iguales a la probabilidad de clase
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación multiclase
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

La medida F1 ponderada es el resultado de utilizar los datos ponderados.

           precision * recall
F1 = 2 *  ____________________

           precision + recall

Configuración de evaluaciones de calidad con datos históricos

También puede configurar las evaluaciones de calidad para que generen métricas con datos históricos de comentarios puntuados de ventanas temporales anteriores. Para configurar evaluaciones con datos históricos de retroalimentación puntuada, puede utilizar el SDK dePython para especificar parámetros para calcular métricas en una única ventana de tiempo con fechas de inicio y fin:

parameters = {
    "start_date": "2024-08-05T11:00:18.0000Z",
    "end_date": "2024-08-05T14:00:18.0000Z"
}
run_details = wos_client.monitor_instances.run(monitor_instance_id=quality_monitor_instance_id, parameters = run_parameters, background_mode=False).result

Más información

Revisión de los resultados de calidad de los modelos de aprendizaje automático

Tema padre: Configuración de evaluaciones de modelo