Evaluación de plantillas de solicitud desconectadas en proyectos
Última actualización: 03 dic 2024
Evaluación de plantillas de solicitud desconectadas en proyectos
Puede evaluar plantillas de solicitud desconectadas en proyectos para medir el rendimiento de los modelos de base que no se crean ni alojan en IBM.
Al evaluar plantillas de solicitud desconectadas en proyectos, puede evaluar la eficacia con la que el modelo externo genera respuestas para los siguientes tipos de tarea:
Resumen de texto
Clasificación de texto
Respuesta a preguntas
Extracción de entidades
Generación de contenido
Generación aumentada por recuperación
Antes de empezar
Copy link to section
Permisos necesarios Debe tener los roles siguientes para evaluar las plantillas de solicitud: Admin o el rol Editor en un proyecto
Antes de evaluar las plantillas de solicitud desconectadas en el proyecto, debe crear una plantilla de solicitud desconectada que conecte el modelo externo a watsonx.governance. Debe especificar variables y proporcionar detalles de conexión como, por ejemplo, el nombre del modelo externo y su URL al crear la plantilla de solicitud desconectada. El ejemplo siguiente muestra cómo crear una plantilla de solicitud desconectada con la API:
Copy to clipboardSe ha copiado en el portapapelesShow more
Ejecución de evaluaciones
Copy link to section
Para ejecutar evaluaciones de plantilla de solicitud desconectadas en el proyecto, puede abrir una plantilla de solicitud desconectada guardada en la pestaña Activos y seleccionar Evaluar en la pestaña Evaluaciones en watsonx.governance para abrir el asistente Evaluar plantilla de solicitud . Sólo puede ejecutar evaluaciones si tiene asignados los roles Admin o Editor para el proyecto.
Seleccionar dimensiones
Copy link to section
El asistente Evaluar plantilla de solicitud muestra las dimensiones que están disponibles para evaluar el tipo de tarea asociado a la solicitud. Puede expandir las dimensiones para ver la lista de métricas que se utilizan para evaluar las dimensiones que seleccione.
Watsonx.governance configura automáticamente las evaluaciones para cada dimensión con los valores predeterminados. Para configurar evaluaciones con distintos valores, puede seleccionar Valores avanzados para establecer tamaños mínimos de muestra y valores de umbral para cada métrica, tal como se muestra en el ejemplo siguiente:
Seleccionar datos de prueba
Copy link to section
Debe cargar un archivo CSV que contenga datos de prueba con columnas de referencia que incluyan la entrada y la salida de modelo esperada. Los datos de prueba que cargue deben contener la salida del modelo para habilitar las evaluaciones de despliegue desconectadas. Cuando finalice la carga, también debe asignar las variables de solicitud a las columnas asociadas de sus datos de prueba.
Revisar y evaluar
Copy link to section
Puede revisar las selecciones para el tipo de tarea de solicitud, los datos de prueba cargados y el tipo de evaluación que se ejecuta. Debe seleccionar Evaluar para ejecutar la evaluación.
Revisión de los resultados de la evaluación
Copy link to section
Cuando finalice la evaluación, puede revisar un resumen de los resultados de la evaluación en la pestaña Evaluaciones en watsonx.governance para obtener información sobre el rendimiento del modelo. El resumen proporciona una visión general de las puntuaciones de métrica y las infracciones de los umbrales de puntuación predeterminados para las evaluaciones de plantilla de solicitud.
Si tiene asignado el rol de Visor para el proyecto, puede seleccionar Evaluar en la lista de activos en la pestaña Activos para ver los resultados de la evaluación.
Para analizar los resultados, puede pulsar la flecha junto a la evaluación de plantilla de solicitud para ver las visualizaciones de datos de los resultados a lo largo del tiempo. También puede analizar los resultados de la evaluación de estado del modelo que se ejecuta de forma predeterminada durante las evaluaciones de plantilla de solicitud para comprender la eficacia con la que el modelo procesa los datos.
El menú Acciones también proporciona las opciones siguientes para ayudarle a analizar los resultados:
Evaluar ahora: Ejecutar evaluación con un conjunto de datos de prueba diferente
Todas las evaluaciones: muestra un historial de las evaluaciones para comprender cómo cambian los resultados a lo largo del tiempo.
Configurar supervisores: configurar umbrales de evaluación y tamaños de muestra.
Ver información de modelo: Ver detalles sobre el modelo para comprender cómo se configura el entorno de despliegue.