0 / 0
Volver a la versión inglesa de la documentación
Evaluaciones de calidad
Última actualización: 26 nov 2024
Evaluaciones de calidad

Las evaluaciones de calidad miden la capacidad del modelo para proporcionar resultados correctos en función de su rendimiento utilizando datos de prueba etiquetados denominados datos de retroalimentación.

Medición de la precisión del modelo con evaluaciones de calidad

Las evaluaciones de calidad supervisan lo bien que su modelo predice resultados precisos. Identifica cuándo disminuye la calidad del modelo, para que pueda volver a entrenar el modelo de la forma adecuada. Para evaluar el modelo, proporcione datos de comentarios, que son datos etiquetados donde se conoce el resultado. Las evaluaciones de calidad utilizan un conjunto de métricas de ciencia de datos estándar para evaluar cómo el modelo predice los resultados que coinciden con los resultados reales en el conjunto de datos etiquetado.

Puede establecer los umbrales de calidad aceptables para las métricas utilizadas para evaluar el modelo. También puede establecer el tamaño de la muestra, que es el número de filas de datos de comentarios, a tener en cuenta para la evaluación.

Antes de empezar: Proporcionar los datos de comentarios

Los datos de comentarios son como proporcionar una hoja de respuestas con resultados observados reales. El supervisor puede ejecutar el modelo como si no se conocieran las respuestas y, a continuación, comparar los resultados previstos con los resultados reales y proporcionar puntuaciones de precisión basadas en métricas de calidad.

Para proporcionar los datos de retroalimentación para los modelos de aprendizaje automático, debe abrir la página Endpoints y realizar una de las siguientes acciones:

  • Pulse Cargar datos de comentarios y cargue un archivo con datos etiquetados.
  • Pulse la pestaña Puntos finales y especifique un punto final que se conecte al origen de datos de comentarios.

Para obtener detalles, consulte Gestión de datos de comentarios.

Establecimiento de umbrales de calidad

Una vez que los datos de comentarios estén disponibles para la evaluación, configure los valores del supervisor. Establezca umbrales para un rendimiento aceptable para el modelo en comparación con los resultados conocidos.

Para establecer los valores de umbral, en la pestaña Calidad , pulse el icono Editar Icono de editar para especificar valores para el recuadro Umbral de calidad y, a continuación, edite los valores para el tamaño de la muestra.

Umbral de alerta de calidad

Seleccione un valor que represente un nivel de exactitud aceptable. Por ejemplo, en el modelo de riesgo crediticio alemán de ejemplo que se proporciona con la configuración automática, la alerta para el área bajo la métrica ROC se establece en 95%. Si la calidad medida para el modelo está por debajo de ese valor, se desencadena una alerta. Un valor típico para Área bajo ROC es 80%.

Para obtener detalles sobre las métricas estándar para el supervisor de calidad, consulte Visión general de las métricas de calidad.

Tamaños de muestra mínimos y máximos

Al establecer un tamaño de muestra mínimo, impide medir la calidad hasta que haya un número de registros mínimo disponibles en el conjunto de datos de evaluación. Esto garantiza que el tamaño de la muestra no es demasiado pequeño y pueda causar desviaciones en los resultados. Cada vez que se ejecuta la comprobación de sesgo, se utiliza el tamaño mínimo de muestra para decidir el número de registros sobre el que se calculan las medidas de calidad.

El tamaño máximo de la muestra ayuda a gestionar mejor el tiempo y los recursos necesarios para evaluar el conjunto de datos. Si se sobrepasa este tamaño, sólo se evaluarán los registros más recientes. Por ejemplo, en la muestra Modelo de riesgo crediticio alemán , el tamaño mínimo de la muestra se establece en 50 y no hay ningún tamaño máximo especificado ya que es una muestra pequeña.

Métricas de calidad soportadas

Cuando activa las evaluaciones de calidad, puede generar métricas que le ayuden a determinar lo bien que su modelo predice los resultados.

Puede consultar los resultados de sus evaluaciones de calidad en la página de resumen de la evaluación. Para ver los resultados, puede seleccionar un mosaico de despliegue de modelo y pulsar la flecha flecha de navegación en la sección de evaluación Calidad para visualizar un resumen de las métricas de calidad de la última evaluación. Para obtener más información, consulte Revisión de resultados de calidad.

Área bajo ROC

  • Descripción: Área bajo recuperación y curva de tasa de falsos positivos para calcular la sensibilidad frente a la tasa de caídas
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación binaria
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión

Área bajo PR

  • Descripción: Área bajo precisión y curva de exhaustividad
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación binaria
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

El área bajo exhaustividad de precisión proporciona el total para ambos Precision + Recall.

       n
AveP = ∑ P(k)∆r(k)
      k=1

La precisión (P) se define como el número de verdaderos positivos (Tp) sobre el número de verdaderos positivos más el número de falsos positivos (Fp).

               number of true positives
Precision =   ______________________________________________________

              (number of true positives + number of false positives)

La exhaustividad (R) se define como el número de verdaderos positivos (Tp) sobre el número de verdaderos positivos más el número de falsos negativos (Fn).

            number of true positives
Recall =   ______________________________________________________

           (number of true positives + number of false negatives)

Precisión

  • Descripción: La proporción de predicciones correctas
  • Umbrales predeterminados: límite inferior = 80%
  • Tipos de problema: Clasificación binaria y clasificación multiclase
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Descripción de la precisión:
    La precisión puede significar cosas diferentes en función del tipo de algoritmo;
    • Clasificación multiclase: La precisión mide el número de veces que se ha previsto correctamente cualquier clase, normalizada por el número de puntos de datos. Para obtener más detalles, consulte Multi-class classification en la documentación de Apache Spark.

    • Clasificación binaria: Para un algoritmo de clasificación binaria, la precisión se mide como el área bajo una curva ROC. Consulte Binary classification en la documentación de Apache Spark para obtener más detalles.

    • Regresión: Los algoritmos de regresión se miden utilizando el coeficiente de determinación o R2. Para obtener más detalles, consulte la Evaluación del modelo de regresión en la documentación de Apache Spark.

Tasa de positivos verdaderos

  • Descripción: Proporción de predicciones correctas en predicciones de clase positiva
  • Umbrales predeterminados: Límite inferior = 80 %
  • Tipo de problema: Clasificación binaria
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

El índice de verdaderos positivos se calcula mediante la fórmula siguiente:

                  number of true positives
TPR =  _________________________________________________________

        (number of true positives + number of false negatives)

Rasa de falsos positivos

  • Descripción: Proporción de predicciones incorrectas en clase positiva
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación binaria
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

La tasa de falsos positivos es el cociente del número total de falsos positivos que se divide por la suma de falsos positivos y verdaderos negativos.

                        number of false positives
False positive rate =  ______________________________________________________

                       (number of false positives + number of true negatives)

Exhaustividad

  • Descripción: Proporción de predicciones correctas en clase positiva
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación binaria
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Matemáticas:

La exhaustividad (R) se define como el número de verdaderos positivos (Tp) sobre el número de verdaderos positivos más el número de falsos negativos (Fn).

                       number of true positives
Recall =   ______________________________________________________

           (number of true positives + number of false negatives)

Precisión

  • Descripción: Proporción de predicciones correctas en predicciones de clase positiva
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación binaria
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

La precisión (P) se define como el número de verdaderos positivos (Tp) sobre el número de verdaderos positivos más el número de falsos positivos (Fp).

                           number of true positives
Precision =  __________________________________________________________

             (number of true positives + the number of false positives)

F1-Measure

  • Descripción: Media armónica de precisión y exhaustividad
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación binaria
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

La F1-measure es el promedio armónico ponderado o la media de precisión y exhaustividad.

          (precision * recall)
F1 = 2 *  ____________________

          (precision + recall)

Coeficiente Gini

  • Descripción: El coeficiente de Gini mide la forma en que los modelos distinguen entre dos clases. Se calcula como el doble del área entre la curva ROC y la línea diagonal del gráfico. Si el valor del coeficiente gini es 0, el modelo no muestra ninguna capacidad de discriminación y un valor de 1 indica una discriminación perfecta.
  • Umbrales predeterminados:
    • Límite inferior = 80%
  • Tipo de problema: Clasificación binaria
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

La métrica del coeficiente de gini se calcula con la fórmula siguiente:


Gini = 2 * Area under ROC - 1

Pérdida logarítmica

  • Descripción: Media de probabilidades de clase de destino de logaritmos (confianza). También se conoce como logaritmo de verosimilitud previsto.
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación binaria y clasificación multiclase
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Ninguno
  • Realizar las matemáticas:

Para un modelo binario, la pérdida logarítmica se calcula mediante la fórmula siguiente:

-(y log(p) + (1-y)log(1-p))

donde p = etiqueta verdadera e y = probabilidad prevista

Para un modelo multiclase, la pérdida logarítmica se calcula mediante la fórmula siguiente:

  M
-SUM Yo,c log(Po,c)
 c=1 

donde M > 2, p = etiqueta verdadera e y = probabilidad prevista

Proporción de varianza explicada

  • Descripción: La proporción de varianza explicada es la proporción de varianza explicada y la varianza de destino. La varianza explicada es la diferencia entre la varianza de destino y la varianza de error de predicción.
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Regresión
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Ninguno
  • Realizar las matemáticas:

La varianza de proporción explicada se calcula promediando los números y, a continuación, para cada número, resta la media y cuadra los resultados. Luego, trabajar las plazas.

                                  sum of squares between groups 
Proportion explained variance =  ________________________________

                                      sum of squares total

Media-error absoluto

  • Descripción: Promedio de la diferencia absoluta entre la predicción del modelo y el valor de destino
  • Umbrales predeterminados: Límite superior = 80 %
  • Tipo de problema: Regresión
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Ninguno
  • Realizar las matemáticas:

El error absoluto promedio se calcula sumando todos los errores absolutos y dividiéndolos por el número de errores.

                         SUM  | Yi - Xi | 
Mean absolute errors =  ____________________

                          number of errors

Error cuadrático medio

  • Descripción: Promedio de la diferencia cuadrática entre la predicción del modelo y el valor de destino
  • Umbrales predeterminados: Límite superior = 80 %
  • Tipo de problema: Regresión
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Ninguno
  • Realizar las matemáticas:

El error de la media cuadrática en su forma más simple se representa mediante la fórmula siguiente.

                         SUM  (Yi - ^Yi) * (Yi - ^Yi)
Mean squared errors  =  ____________________________

                             number of errors

R cuadrado

  • Descripción: Proporción de diferencia entre la varianza de destino y la varianza para error de predicción con la varianza de destino
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Regresión
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Ninguno
  • Realizar las matemáticas:

La métrica R cuadrado se define en la fórmula siguiente.

                  explained variation
R-squared =       _____________________

                    total variation

Raíz del error cuadrático promedio

  • Descripción: Raíz cuadrada de media de cuadrado de la diferencia entre la predicción del modelo y el valor de destino
  • Umbrales predeterminados: Límite superior = 80 %
  • Tipo de problema: Regresión
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Ninguno
  • Realizar las matemáticas:

La raíz del error cuadrático medio es igual a la raíz cuadrada de la media del cuadrado (previsiones menos valores observados).

          ___________________________________________________________
RMSE  =  √(forecasts - observed values)*(forecasts - observed values)

Tasa de faltos positivos ponderados

  • Descripción: Media ponderada de clase TPR con ponderaciones iguales a la probabilidad de clase
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación multiclase
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

El índice de verdaderos positivos se calcula mediante la fórmula siguiente:

                  number of true positives
TPR =  _________________________________________________________

        number of true positives + number of false negatives

Tasa de faltos positivos ponderados

  • Descripción: Proporción de predicciones incorrectas en clase positiva
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación multiclase
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

El índice de falsos positivos ponderados es la aplicación del FPR con datos ponderados.

                   number of false positives
FPR =  ______________________________________________________

       (number of false positives + number of true negatives)

Exhaustividad ponderada

  • Descripción: Media ponderada de exhaustividad con ponderaciones iguales a la probabilidad de clase
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación multiclase
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

La exhaustividad ponderada (wR) se define como el número de verdaderos positivos (Tp) sobre el número de verdaderos positivos más el número de falsos negativos (Fn) utilizados con los datos ponderados.

                          number of true positives
Recall =   ______________________________________________________

           number of true positives + number of false negatives

Precisión ponderada

  • Descripción: Media ponderada de precisión con ponderaciones iguales a la probabilidad de clase
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación multiclase
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

La precisión (P) se define como el número de verdaderos positivos (Tp) sobre el número de verdaderos positivos más el número de falsos positivos (Fp).

                            number of true positives
Precision =  ________________________________________________________

             number of true positives + the number of false positives

Medida F1 ponderada

  • Descripción: Medida ponderada de la medida F1 con ponderaciones iguales a la probabilidad de clase
  • Umbrales predeterminados: límite inferior = 80%
  • Tipo de problema: Clasificación multiclase
  • Valores de gráfico: Último valor en el margen de tiempo
  • Detalles de métricas disponibles: Matriz de confusión
  • Realizar las matemáticas:

La medida F1 ponderada es el resultado de utilizar los datos ponderados.

           precision * recall
F1 = 2 *  ____________________

           precision + recall

Configuración de evaluaciones de calidad con datos históricos

También puede configurar las evaluaciones de calidad para que generen métricas con datos históricos de comentarios puntuados de ventanas temporales anteriores. Para configurar evaluaciones con datos históricos de retroalimentación puntuada, puede utilizar el SDK dePython para especificar parámetros para calcular métricas en una única ventana de tiempo con fechas de inicio y fin:

parameters = {
    "start_date": "2024-08-05T11:00:18.0000Z",
    "end_date": "2024-08-05T14:00:18.0000Z"
}
run_details = wos_client.monitor_instances.run(monitor_instance_id=quality_monitor_instance_id, parameters = run_parameters, background_mode=False).result

Más información

Revisión de los resultados de calidad de los modelos de aprendizaje automático

Tema padre: Configuración de evaluaciones de modelo

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información