0 / 0
Volver a la versión inglesa de la documentación
Revisión de los resultados de la evaluación
Última actualización: 25 oct 2024
Revisión de los resultados de la evaluación

Cuando configure las evaluaciones, podrá analizar los resultados de las mismas para obtener información sobre el rendimiento de su modelo. Un panel de control proporciona las herramientas para revisar detalles de rendimiento, compartir información sobre alertas o imprimir informes.

Algunos de los detalles que puede revisar desde el panel Insights incluyen:

  • Revise los resultados de calidad para ver una matriz de confusión que le ayude a determinar si el modelo desplegado ha analizado las transacciones correctamente.
  • Vea los resultados de la desviación para ver las transacciones que son responsables de una disminución de la precisión, una disminución de la coherencia de datos o ambas.
  • Inspeccione los resultados de evaluación de estado del modelo, donde puede ver un resumen de las métricas que se generan durante la última evaluación con mosaicos de tabla de puntuación que se correlacionan con distintas dimensiones.

El gráfico de evaluación de despliegue de modelo se visualiza con cada evaluación que muestra detalles sobre cómo el modelo cumple los umbrales establecidos.

Para ver los resultados en el panel de control de Insights:

  1. En Watson Openscale, pulse el icono Actividad Icono de la actividad para abrir el panel de instrumentos de Insights.

  2. Seleccione el mosaico del modelo de despliegue que desea ver los resultados. Se muestran los resultados de su última evaluación.

  3. Pulse la flecha flecha de navegación en una sección de evaluación para ver las visualizaciones de datos de los resultados de evaluación dentro de los valores de periodo de tiempo y Rango de fechas que especifique. La última evaluación para el periodo de tiempo que seleccione también se visualiza durante el rango de datos asociado.

  4. Utilice el menú Acciones para ver detalles sobre el modelo seleccionando cualquiera de las siguientes opciones de análisis:

    • Todas las evaluaciones: para los modelos de preproducción, visualice un historial de sus evaluaciones para comprender cómo cambian los resultados a lo largo del tiempo.
    • Comparar: compare los modelos con un gráfico de matriz que resalta las métricas clave para ayudarle a determinar qué versión de un modelo está lista para producción o qué modelos pueden necesitar más entrenamiento.
    • Ver información de modelo: Ver detalles sobre el modelo para comprender cómo se configura el entorno de despliegue.
    • Descargar PDF de informe: Genere un informe de resumen de modelo que proporcione todas las métricas y la explicación de por qué se han puntuado de la forma en que se han puntuado.
    • Configurar alerta: enviar alertas sobre infracciones de umbral a una dirección de correo electrónico.

También puede utilizar el menú Acciones para gestionar datos para evaluaciones de modelo. Para obtener más información, consulte Envío de transacciones de modelo.

Con los gráficos de series temporales, las evaluaciones agregadas se muestran como puntos de datos que puede seleccionar para ver los resultados de un tiempo específico. La marca de tiempo de cada punto de datos que se muestra al pasar el ratón por encima de los gráficos de series temporales no coincide con la marca de tiempo de la última evaluación debido al comportamiento de agregación predeterminado.

Las siguientes secciones describen cómo puede analizar los resultados de sus evaluaciones de modelos:

Revisión de los resultados de equidad

Para ayudarle a revisar los resultados de la equidad, se proporcionan cálculos para los siguientes tipos de conjuntos de datos:

  • Equilibrado: el cálculo equilibrado incluye la solicitud de puntuación que se recibe para la hora seleccionada. El cálculo también incluye más registros de horas anteriores si no se ha cumplido el número mínimo de registros necesarios para la evaluación. Incluye registros más perturbados y sintetizados que se utilizan para probar la respuesta del modelo cuando cambia el valor de la característica supervisada.
  • Carga útil: las solicitudes de puntuación reales que recibe el modelo para la hora seleccionada.
  • Entrenamiento: los registros de datos de entrenamiento que se utilizan para entrenar el modelo.
  • Sin sesgo: La salida del algoritmo sin sesgo tras procesar el tiempo de ejecución y los datos alterados.

visualización de datos de métricas de equidad para cada grupo supervisado

Con el gráfico, puede observar los grupos que experimentan sesgo y ver el porcentaje de resultados esperados para estos grupos. También puede ver el porcentaje de resultados esperados para los grupos de referencia, que es el promedio de resultados esperados en todos los grupos de referencia. Los gráficos indican la presencia de sesgo comparando la proporción del porcentaje de resultados esperados para grupos supervisados en un rango de datos con el porcentaje de resultados para grupos de referencia.

El gráfico también muestra la distribución de los valores de referencia y supervisados para cada valor distinto del atributo de los datos de la tabla de carga útil que se ha analizado para identificar el sesgo. La distribución de los datos de carga útil se muestra para cada valor distinto de los atributos. Puede utilizar estos datos para correlacionar la cantidad de sesgo con la cantidad de datos recibidos por el modelo. También puede ver el porcentaje de grupos con resultados esperados para identificar las fuentes de sesgo que sesgaron los resultados y condujeron a aumentos en el porcentaje de resultados esperados para los grupos de referencia.

Revisión de los resultados de calidad

Para ayudarle a revisar los resultados de calidad, se muestra una matriz de confusión que le ayuda a determinar si el modelo implantado ha analizado sus transacciones de forma incorrecta. Para los modelos de clasificación binaria, los registros de transacciones se clasifican como falsos positivos o falsos negativos y como asignaciones de clase incorrectas para los modelos multiclase. En los problemas de clasificación binaria, la categoría objetivo se asigna al nivel positive o negative. La matriz de confusión también muestra el porcentaje de transacciones positivas y negativas que se analizan correctamente. Para identificar la corrección, la matriz también resalta las categorías de transacciones con tonos de color verde y azul para indicar los niveles de las categorías más o menos correctas. Puede utilizar los menús Valor previsto y Valor real para especificar la categoría de transacciones que desea analizar.

cuadro detallado de las métricas de calidad

Revisión de los resultados de la desviación

Para las evaluaciones de desviación, puede ver las transacciones que son responsables de una disminución de la precisión, una disminución de la coherencia de datos o ambas. También puede ver el número de transacciones que se identifican y las características del modelo que son responsables de la precisión reducida o de la coherencia de los datos.

Se visualiza la página de transacciones de desviación de modelo

Para obtener más información, consulte Revisión de transacciones de desviación.

Revisión de los resultados de la desviación v2

Al revisar los resultados de la evaluación drift v2, aparecen mosaicos plegables que puede abrir para ver distintos detalles sobre las métricas. Puede ver el historial de cómo cambia cada puntuación de métrica a lo largo del tiempo con un gráfico de serie temporal o ver detalles sobre cómo se calculan los resultados de las puntuaciones y las derivaciones de características. También puede ver detalles sobre cada característica para comprender cómo contribuyen a las puntuaciones que se generan.

Se muestran los resultados de la evaluación de la desviación v2

Revisión de los resultados de salud del modelo

Al revisar los resultados de la evaluación de la salud del modelo, se ofrece un resumen de las métricas generadas durante la última evaluación con fichas de puntuación que se correlacionan con diferentes dimensiones. Para las métricas con varias dimensiones, puede pulsar un menú desplegable en los mosaicos para seleccionar la métrica que desea analizar. Para analizar cómo cambian las métricas a lo largo del tiempo, puede pulsar los mosaicos contraíbles de cada categoría para ver los gráficos de serie temporal.

Se muestran las métricas de estado del modelo

Para obtener más información, consulte Métricas de evaluación del estado del modelo.

Tema principal: Revisión de los modelos

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información