Con Evaluation Studio, puede evaluar y comparar sus activos de IA generativa con métricas cuantitativas y criterios personalizables que se adapten a sus casos de uso. Evalúe el rendimiento de varios activos simultáneamente y vea análisis comparativos de los resultados para identificar las mejores soluciones.
Puede utilizar Evaluation Studio para agilizar su proceso de desarrollo de IA generativa automatizando el proceso de evaluación de múltiples activos de IA para varios tipos de tareas. En lugar de revisar individualmente cada plantilla de preguntas y comparar manualmente su rendimiento, puede configurar un único experimento para evaluar varias plantillas de preguntas simultáneamente, lo que puede ahorrar tiempo durante el desarrollo.
Evaluation Studio incluye las siguientes funciones para ayudarle a evaluar y comparar las plantillas de avisos e identificar los activos que mejor se adaptan a sus necesidades:
Configuración personalizable del experimento
- Elija entre distintos tipos de tareas para adaptarse a sus necesidades específicas.
- Cargue los datos de prueba seleccionando los activos del proyecto.
- Seleccione hasta cinco plantillas para evaluar y comparar.
- Seleccione dimensiones de evaluación para configurar métricas específicas de la tarea.
Análisis flexible de los resultados
- Visualice los resultados en formato de tabla o gráfico para facilitar la recopilación de información.
- Seleccione plantillas de avisos de referencia para facilitar las comparaciones
- Filtre u ordene los resultados por métricas o valores específicos.
- Búsqueda en los resultados de la evaluación con intervalos de valores.
- Compare varias plantillas de avisos mediante gráficos.
- Capture automáticamente los detalles de la evaluación en AI Factsheets para realizar un seguimiento del rendimiento en todos los casos de uso de la IA.
- Cree clasificaciones personalizadas para priorizar los resultados más importantes para su caso de uso.
- Añada o elimine plantillas de avisos de los experimentos y vuelva a ejecutar las evaluaciones para realizar nuevas comparaciones.
Requisitos
Puede comparar activos AI en Evaluation Studio si cumple los siguientes requisitos:
Roles necesarios
Debe tener asignado el rol Service access: Reader en watsonx.governance para utilizar Evaluation Studio. También debes tener asignados los roles de Administrador o Editor para tu proyecto y el rol de Escritor para el bucket Cloud Object Storage que utilizas para tu proyecto.
Planes de servicio
Evaluation Studio está restringido a determinados planes de servicio y centros de datos. Para obtener más información, consulta los planes de servicio de watsonx.ai Studio y la disponibilidad regional de servicios y funciones.
Plantillas de solicitud
Actualmente se aplican las siguientes restricciones al evaluar y comparar plantillas de avisos en Evaluation Studio:
- Las evaluaciones de plantillas sólo pueden ejecutarse en proyectos.
- Los resultados de la evaluación de plantillas siempre muestran los detalles de la última evaluación realizada.
- No puede ejecutar una evaluación de plantilla de aviso si todavía se está ejecutando una evaluación para la misma plantilla de aviso.
- Debe evaluar al menos dos plantillas de avisos.
- Las plantillas de avisos no se pueden evaluar.
- Las plantillas deben estar en el mismo proyecto.
- Las plantillas de preguntas deben tener el mismo número y nombre de variables.
- Las plantillas de consulta deben asignarse al mismo nombre de columna en los datos de prueba.
- Las plantillas de avisos no se pueden importar ni exportar para ningún tipo de modelo.
- Debe asociarse el mismo tipo de tarea a cada modelo de solicitud.
- Los siguientes tipos de tareas son compatibles con las plantillas de avisos:
- Clasificación
- Resumen
- Generación
- Respuesta a preguntas
- Extracción de entidades
- Recuperación-Generación aumentada
Cada modelo de solicitud puede asociarse al mismo o a diferentes modelos de cimientos.
Datos de prueba
Los datos de prueba que cargue deben contener columnas de salida y entrada de referencia para cada variable de aviso. Las columnas de salida de referencia se utilizan para calcular métricas basadas en referencias, como ROUGE y BLEU. Para más información, consulte Gestión de los datos de respuesta.
Uso de recursos
Los recursos necesarios para utilizar Evaluation Studio se calculan por experimento. Cada evaluación que realice se calcula como un experimento. Un mayor número de plantillas de avisos, registros de evaluación y dimensiones de seguimiento requiere más recursos por experimento.
En la siguiente sección se describe cómo evaluar y comparar activos de IA con Evaluation Studio:
Comparación y evaluación de múltiples activos de IA
Puede realizar los siguientes pasos para evaluar y comparar activos con Evaluation Studio:
- Seleccione la tarea de evaluación.
- En la pestaña Activos de su proyecto watsonx.governance, seleccione Nuevo activo.
- En la ventana Qué desea hacer, seleccione la ficha de tarea Evaluar y comparar avisos.
- Establezca la evaluación. Cuando se abra el asistente Evaluar y comparar avisos y muestre los tipos de tarea disponibles para las evaluaciones, especifique un nombre de evaluación y seleccione el tipo de tarea asociado a las plantillas de avisos que desea evaluar.
- Seleccione las plantillas de avisos de su proyecto que desee evaluar y comparar.
- Seleccione las métricas.
Watsonx.governance selecciona automáticamente las métricas que están disponibles para el tipo de tarea de las plantillas de avisos y configura los ajustes predeterminados para cada métrica. Puede cambiar las selecciones de métricas o seleccionar Configurar para configurar sus evaluaciones con ajustes personalizados. - Seleccione los datos de prueba seleccionando un activo de su proyecto.
Cuando usted selecciona datos de prueba, watsonx.governance detecta automáticamente las columnas que están mapeadas a sus variables prompt. - Revise y ejecute la evaluación.
- Antes de ejecutar su evaluación de plantilla de aviso, puede revisar las selecciones para el tipo de tarea, los datos de prueba cargados, las métricas y el tipo de evaluación que se ejecuta.
- Después de ejecutar su evaluación, puede seleccionar Ver trabajos para ver una lista que muestra el estado de la evaluación mientras está en curso y las evaluaciones anteriores que ha completado.
- Revise la comparación de métricas.
- Una vez finalizada la evaluación, puede ver visualizaciones de datos que comparan los resultados de cada plantilla de preguntas seleccionada. Las visualizaciones muestran si las puntuaciones infringen los umbrales de cada métrica. Los resultados también se muestran en una tabla que puede utilizar para analizar los resultados seleccionando, filtrando o clasificando las métricas que desea ver para sus activos.
- Para realizar comparaciones, seleccione un activo de referencia para resaltar columnas en la tabla que muestren si otros activos tienen un rendimiento mejor o peor que el activo seleccionado.
- Para analizar los resultados, también puede crear una clasificación personalizada de las métricas de los distintos grupos especificando factores de ponderación y una fórmula de clasificación para determinar qué plantillas de avisos tienen el mejor rendimiento.
- Si desea volver a ejecutar las evaluaciones, haga clic en Ajustar configuración en el panel de detalles de la evaluación para actualizar los datos de la prueba o volver a configurar las métricas.
- Si desea editar el experimento, haga clic en Editar activos para eliminar o añadir activos a su evaluación y cambiar su comparación.
Próximos pasos
Ha creado un nuevo activo de evaluación de IA en su proyecto. Puede volver a abrir el activo en su proyecto para editarlo o realizar nuevos experimentos.
Más información
Tema principal: Evaluación de modelos de IA.