Las evaluaciones de calidad miden la capacidad del modelo para proporcionar resultados correctos en función de su rendimiento utilizando datos de prueba etiquetados denominados datos de retroalimentación.
Medición de la precisión del modelo con evaluaciones de calidad
Las evaluaciones de calidad supervisan lo bien que su modelo predice resultados precisos. Identifica cuándo disminuye la calidad del modelo, para que pueda volver a entrenar el modelo de la forma adecuada. Para evaluar el modelo, proporcione datos de comentarios, que son datos etiquetados donde se conoce el resultado. Las evaluaciones de calidad utilizan un conjunto de métricas de ciencia de datos estándar para evaluar cómo el modelo predice los resultados que coinciden con los resultados reales en el conjunto de datos etiquetado.
Puede establecer los umbrales de calidad aceptables para las métricas utilizadas para evaluar el modelo. También puede establecer el tamaño de la muestra, que es el número de filas de datos de comentarios, a tener en cuenta para la evaluación.
Antes de empezar: Proporcionar los datos de comentarios
Los datos de comentarios son como proporcionar una hoja de respuestas con resultados observados reales. El supervisor puede ejecutar el modelo como si no se conocieran las respuestas y, a continuación, comparar los resultados previstos con los resultados reales y proporcionar puntuaciones de precisión basadas en métricas de calidad.
Para proporcionar los datos de retroalimentación para los modelos de aprendizaje automático, debe abrir la página Endpoints y realizar una de las siguientes acciones:
- Pulse Cargar datos de comentarios y cargue un archivo con datos etiquetados.
- Pulse la pestaña Puntos finales y especifique un punto final que se conecte al origen de datos de comentarios.
Para obtener detalles, consulte Gestión de datos de comentarios.
Establecimiento de umbrales de calidad
Una vez que los datos de comentarios estén disponibles para la evaluación, configure los valores del supervisor. Establezca umbrales para un rendimiento aceptable para el modelo en comparación con los resultados conocidos.
Para establecer los valores de umbral, en la pestaña Calidad , pulse el icono Editar para especificar valores para el recuadro Umbral de calidad y, a continuación, edite los valores para el tamaño de la muestra.
Umbral de alerta de calidad
Seleccione un valor que represente un nivel de exactitud aceptable. Por ejemplo, en el modelo de riesgo crediticio alemán de ejemplo que se proporciona con la configuración automática, la alerta para el área bajo la métrica ROC se establece en 95%. Si la calidad medida para el modelo está por debajo de ese valor, se desencadena una alerta. Un valor típico para Área bajo ROC es 80%.
Para obtener detalles sobre las métricas estándar para el supervisor de calidad, consulte Visión general de las métricas de calidad.
Tamaños de muestra mínimos y máximos
Al establecer un tamaño de muestra mínimo, impide medir la calidad hasta que haya un número de registros mínimo disponibles en el conjunto de datos de evaluación. Esto garantiza que el tamaño de la muestra no es demasiado pequeño y pueda causar desviaciones en los resultados. Cada vez que se ejecuta la comprobación de sesgo, se utiliza el tamaño mínimo de muestra para decidir el número de registros sobre el que se calculan las medidas de calidad.
El tamaño máximo de la muestra ayuda a gestionar mejor el tiempo y los recursos necesarios para evaluar el conjunto de datos. Si se sobrepasa este tamaño, sólo se evaluarán los registros más recientes. Por ejemplo, en la muestra Modelo de riesgo crediticio alemán , el tamaño mínimo de la muestra se establece en 50 y no hay ningún tamaño máximo especificado ya que es una muestra pequeña.
Métricas de calidad soportadas
Cuando activa las evaluaciones de calidad, puede generar métricas que le ayuden a determinar lo bien que su modelo predice los resultados.
Puede consultar los resultados de sus evaluaciones de calidad en la página de resumen de la evaluación. Para ver los resultados, puede seleccionar un mosaico de despliegue de modelo y pulsar la flecha en la sección de evaluación Calidad para visualizar un resumen de las métricas de calidad de la última evaluación. Para obtener más información, consulte Revisión de resultados de calidad.
Área bajo ROC
- Descripción: Área bajo recuperación y curva de tasa de falsos positivos para calcular la sensibilidad frente a la tasa de caídas
- Umbrales predeterminados: límite inferior = 80%
- Tipo de problema: Clasificación binaria
- Valores de gráfico: Último valor en el margen de tiempo
- Detalles de métricas disponibles: Matriz de confusión
Área bajo PR
- Descripción: Área bajo precisión y curva de exhaustividad
- Umbrales predeterminados: límite inferior = 80%
- Tipo de problema: Clasificación binaria
- Valores de gráfico: Último valor en el margen de tiempo
- Detalles de métricas disponibles: Matriz de confusión
- Realizar las matemáticas:
El área bajo exhaustividad de precisión proporciona el total para ambos Precision + Recall
.
n
AveP = ∑ P(k)∆r(k)
k=1
La precisión (P) se define como el número de verdaderos positivos (Tp) sobre el número de verdaderos positivos más el número de falsos positivos (Fp).
number of true positives
Precision = ______________________________________________________
(number of true positives + number of false positives)
La exhaustividad (R) se define como el número de verdaderos positivos (Tp) sobre el número de verdaderos positivos más el número de falsos negativos (Fn).
number of true positives
Recall = ______________________________________________________
(number of true positives + number of false negatives)
Precisión
- Descripción: La proporción de predicciones correctas
- Umbrales predeterminados: límite inferior = 80%
- Tipos de problema: Clasificación binaria y clasificación multiclase
- Valores de gráfico: Último valor en el margen de tiempo
- Detalles de métricas disponibles: Matriz de confusión
- Descripción de la precisión:
La precisión puede significar cosas diferentes en función del tipo de algoritmo;Clasificación multiclase: La precisión mide el número de veces que se ha previsto correctamente cualquier clase, normalizada por el número de puntos de datos. Para obtener más detalles, consulte Multi-class classification en la documentación de Apache Spark.
Clasificación binaria: Para un algoritmo de clasificación binaria, la precisión se mide como el área bajo una curva ROC. Consulte Binary classification en la documentación de Apache Spark para obtener más detalles.
Regresión: Los algoritmos de regresión se miden utilizando el coeficiente de determinación o R2. Para obtener más detalles, consulte la Evaluación del modelo de regresión en la documentación de Apache Spark.
Tasa de positivos verdaderos
- Descripción: Proporción de predicciones correctas en predicciones de clase positiva
- Umbrales predeterminados: Límite inferior = 80 %
- Tipo de problema: Clasificación binaria
- Valores de gráfico: Último valor en el margen de tiempo
- Detalles de métricas disponibles: Matriz de confusión
- Realizar las matemáticas:
El índice de verdaderos positivos se calcula mediante la fórmula siguiente:
number of true positives
TPR = _________________________________________________________
(number of true positives + number of false negatives)
Rasa de falsos positivos
- Descripción: Proporción de predicciones incorrectas en clase positiva
- Umbrales predeterminados: límite inferior = 80%
- Tipo de problema: Clasificación binaria
- Valores de gráfico: Último valor en el margen de tiempo
- Detalles de métricas disponibles: Matriz de confusión
- Realizar las matemáticas:
La tasa de falsos positivos es el cociente del número total de falsos positivos que se divide por la suma de falsos positivos y verdaderos negativos.
number of false positives
False positive rate = ______________________________________________________
(number of false positives + number of true negatives)
Exhaustividad
- Descripción: Proporción de predicciones correctas en clase positiva
- Umbrales predeterminados: límite inferior = 80%
- Tipo de problema: Clasificación binaria
- Valores de gráfico: Último valor en el margen de tiempo
- Detalles de métricas disponibles: Matriz de confusión
- Matemáticas:
La exhaustividad (R) se define como el número de verdaderos positivos (Tp) sobre el número de verdaderos positivos más el número de falsos negativos (Fn).
number of true positives
Recall = ______________________________________________________
(number of true positives + number of false negatives)
Precisión
- Descripción: Proporción de predicciones correctas en predicciones de clase positiva
- Umbrales predeterminados: límite inferior = 80%
- Tipo de problema: Clasificación binaria
- Valores de gráfico: Último valor en el margen de tiempo
- Detalles de métricas disponibles: Matriz de confusión
- Realizar las matemáticas:
La precisión (P) se define como el número de verdaderos positivos (Tp) sobre el número de verdaderos positivos más el número de falsos positivos (Fp).
number of true positives
Precision = __________________________________________________________
(number of true positives + the number of false positives)
F1-Measure
- Descripción: Media armónica de precisión y exhaustividad
- Umbrales predeterminados: límite inferior = 80%
- Tipo de problema: Clasificación binaria
- Valores de gráfico: Último valor en el margen de tiempo
- Detalles de métricas disponibles: Matriz de confusión
- Realizar las matemáticas:
La F1-measure es el promedio armónico ponderado o la media de precisión y exhaustividad.
(precision * recall)
F1 = 2 * ____________________
(precision + recall)
Coeficiente Gini
- Descripción: El coeficiente de Gini mide la forma en que los modelos distinguen entre dos clases. Se calcula como el doble del área entre la curva ROC y la línea diagonal del gráfico. Si el valor del coeficiente gini es 0, el modelo no muestra ninguna capacidad de discriminación y un valor de 1 indica una discriminación perfecta.
- Umbrales predeterminados:
- Límite inferior = 80%
- Tipo de problema: Clasificación binaria
- Valores de gráfico: Último valor en el margen de tiempo
- Detalles de métricas disponibles: Matriz de confusión
- Realizar las matemáticas:
La métrica del coeficiente de gini se calcula con la fórmula siguiente:
Gini = 2 * Area under ROC - 1
Pérdida logarítmica
- Descripción: Media de probabilidades de clase de destino de logaritmos (confianza). También se conoce como logaritmo de verosimilitud previsto.
- Umbrales predeterminados: límite inferior = 80%
- Tipo de problema: Clasificación binaria y clasificación multiclase
- Valores de gráfico: Último valor en el margen de tiempo
- Detalles de métricas disponibles: Ninguno
- Realizar las matemáticas:
Para un modelo binario, la pérdida logarítmica se calcula mediante la fórmula siguiente:
-(y log(p) + (1-y)log(1-p))
donde p = etiqueta verdadera e y = probabilidad prevista
Para un modelo multiclase, la pérdida logarítmica se calcula mediante la fórmula siguiente:
M
-SUM Yo,c log(Po,c)
c=1
donde M > 2, p = etiqueta verdadera e y = probabilidad prevista
Proporción de varianza explicada
- Descripción: La proporción de varianza explicada es la proporción de varianza explicada y la varianza de destino. La varianza explicada es la diferencia entre la varianza de destino y la varianza de error de predicción.
- Umbrales predeterminados: límite inferior = 80%
- Tipo de problema: Regresión
- Valores de gráfico: Último valor en el margen de tiempo
- Detalles de métricas disponibles: Ninguno
- Realizar las matemáticas:
La varianza de proporción explicada se calcula promediando los números y, a continuación, para cada número, resta la media y cuadra los resultados. Luego, trabajar las plazas.
sum of squares between groups
Proportion explained variance = ________________________________
sum of squares total
Media-error absoluto
- Descripción: Promedio de la diferencia absoluta entre la predicción del modelo y el valor de destino
- Umbrales predeterminados: Límite superior = 80 %
- Tipo de problema: Regresión
- Valores de gráfico: Último valor en el margen de tiempo
- Detalles de métricas disponibles: Ninguno
- Realizar las matemáticas:
El error absoluto promedio se calcula sumando todos los errores absolutos y dividiéndolos por el número de errores.
SUM | Yi - Xi |
Mean absolute errors = ____________________
number of errors
Error cuadrático medio
- Descripción: Promedio de la diferencia cuadrática entre la predicción del modelo y el valor de destino
- Umbrales predeterminados: Límite superior = 80 %
- Tipo de problema: Regresión
- Valores de gráfico: Último valor en el margen de tiempo
- Detalles de métricas disponibles: Ninguno
- Realizar las matemáticas:
El error de la media cuadrática en su forma más simple se representa mediante la fórmula siguiente.
SUM (Yi - ^Yi) * (Yi - ^Yi)
Mean squared errors = ____________________________
number of errors
R cuadrado
- Descripción: Proporción de diferencia entre la varianza de destino y la varianza para error de predicción con la varianza de destino
- Umbrales predeterminados: límite inferior = 80%
- Tipo de problema: Regresión
- Valores de gráfico: Último valor en el margen de tiempo
- Detalles de métricas disponibles: Ninguno
- Realizar las matemáticas:
La métrica R cuadrado se define en la fórmula siguiente.
explained variation
R-squared = _____________________
total variation
Raíz del error cuadrático promedio
- Descripción: Raíz cuadrada de media de cuadrado de la diferencia entre la predicción del modelo y el valor de destino
- Umbrales predeterminados: Límite superior = 80 %
- Tipo de problema: Regresión
- Valores de gráfico: Último valor en el margen de tiempo
- Detalles de métricas disponibles: Ninguno
- Realizar las matemáticas:
La raíz del error cuadrático medio es igual a la raíz cuadrada de la media del cuadrado (previsiones menos valores observados).
___________________________________________________________
RMSE = √(forecasts - observed values)*(forecasts - observed values)
Tasa de faltos positivos ponderados
- Descripción: Media ponderada de clase TPR con ponderaciones iguales a la probabilidad de clase
- Umbrales predeterminados: límite inferior = 80%
- Tipo de problema: Clasificación multiclase
- Valores de gráfico: Último valor en el margen de tiempo
- Detalles de métricas disponibles: Matriz de confusión
- Realizar las matemáticas:
El índice de verdaderos positivos se calcula mediante la fórmula siguiente:
number of true positives
TPR = _________________________________________________________
number of true positives + number of false negatives
Tasa de faltos positivos ponderados
- Descripción: Proporción de predicciones incorrectas en clase positiva
- Umbrales predeterminados: límite inferior = 80%
- Tipo de problema: Clasificación multiclase
- Valores de gráfico: Último valor en el margen de tiempo
- Detalles de métricas disponibles: Matriz de confusión
- Realizar las matemáticas:
El índice de falsos positivos ponderados es la aplicación del FPR con datos ponderados.
number of false positives
FPR = ______________________________________________________
(number of false positives + number of true negatives)
Exhaustividad ponderada
- Descripción: Media ponderada de exhaustividad con ponderaciones iguales a la probabilidad de clase
- Umbrales predeterminados: límite inferior = 80%
- Tipo de problema: Clasificación multiclase
- Valores de gráfico: Último valor en el margen de tiempo
- Detalles de métricas disponibles: Matriz de confusión
- Realizar las matemáticas:
La exhaustividad ponderada (wR) se define como el número de verdaderos positivos (Tp) sobre el número de verdaderos positivos más el número de falsos negativos (Fn) utilizados con los datos ponderados.
number of true positives
Recall = ______________________________________________________
number of true positives + number of false negatives
Precisión ponderada
- Descripción: Media ponderada de precisión con ponderaciones iguales a la probabilidad de clase
- Umbrales predeterminados: límite inferior = 80%
- Tipo de problema: Clasificación multiclase
- Valores de gráfico: Último valor en el margen de tiempo
- Detalles de métricas disponibles: Matriz de confusión
- Realizar las matemáticas:
La precisión (P) se define como el número de verdaderos positivos (Tp) sobre el número de verdaderos positivos más el número de falsos positivos (Fp).
number of true positives
Precision = ________________________________________________________
number of true positives + the number of false positives
Medida F1 ponderada
- Descripción: Medida ponderada de la medida F1 con ponderaciones iguales a la probabilidad de clase
- Umbrales predeterminados: límite inferior = 80%
- Tipo de problema: Clasificación multiclase
- Valores de gráfico: Último valor en el margen de tiempo
- Detalles de métricas disponibles: Matriz de confusión
- Realizar las matemáticas:
La medida F1 ponderada es el resultado de utilizar los datos ponderados.
precision * recall
F1 = 2 * ____________________
precision + recall
Configuración de evaluaciones de calidad con datos históricos
También puede configurar las evaluaciones de calidad para que generen métricas con datos históricos de comentarios puntuados de ventanas temporales anteriores. Para configurar evaluaciones con datos históricos de retroalimentación puntuada, puede utilizar el SDK dePython para especificar parámetros para calcular métricas en una única ventana de tiempo con fechas de inicio y fin:
parameters = {
"start_date": "2024-08-05T11:00:18.0000Z",
"end_date": "2024-08-05T14:00:18.0000Z"
}
run_details = wos_client.monitor_instances.run(monitor_instance_id=quality_monitor_instance_id, parameters = run_parameters, background_mode=False).result
Más información
Revisión de los resultados de calidad de los modelos de aprendizaje automático
Tema padre: Configuración de evaluaciones de modelo