Inicio rápido: Comparar el rendimiento de los avisos
Última actualización: 05 mar 2025
Inicio rápido: Comparar el rendimiento de los avisos
Siga este tutorial para aprender a comparar varios mensajes en Evaluation Studio. Con Evaluation Studio, puede evaluar y comparar sus activos de IA generativa con métricas cuantitativas y criterios personalizables que se adapten a sus casos de uso. Evalúe el rendimiento de varios activos simultáneamente y vea análisis comparativos de los resultados para identificar las mejores soluciones.
Servicios necesarios
watsonx.ai
watsonx.governance
watsonx.ai Runtime
Roles necesarios
Acceso al nivel de servicio Watsonx.governance : Función de lector
Para su proyecto: Funciones de administrador o editor
Cubo de Cloud Object Storage utilizado para su proyecto: Rol de escritor
El flujo de trabajo básico incluye estas tareas:
Abra un proyecto que contenga las plantillas de avisos a evaluar. En los proyectos puedes colaborar con otras personas para trabajar con activos.
Cree un experimento de Evaluation Studio.
Revise los resultados.
Más información sobre Evaluation Studio
Copy link to section
Puede utilizar Evaluation Studio para agilizar su desarrollo de IA generativa automatizando el proceso de evaluación de múltiples activos de IA para diversos tipos de tareas. En lugar de revisar individualmente cada plantilla de preguntas y comparar manualmente su rendimiento, puede configurar un único experimento para evaluar varias plantillas de preguntas simultáneamente, lo que puede ahorrar tiempo durante el desarrollo.
Evaluation Studio incluye las siguientes funciones para ayudarle a evaluar y comparar las plantillas de avisos e identificar los activos que mejor se adaptan a sus necesidades:
Vea este vídeo para obtener una vista preliminar de los pasos de esta guía de aprendizaje. Puede haber ligeras diferencias en la interfaz de usuario mostrada en el vídeo. El vídeo pretende ser un complemento del tutorial escrito.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Prueba un tutorial con Evaluation Studio
Copy link to section
En esta guía de aprendizaje, realizará estas tareas:
Consejos para completar este tutorial Aquí tienes algunos consejos para completar con éxito este tutorial.
Utiliza el vídeo picture-in-picture
Copy link to section
Sugerencia: Inicia el vídeo y, a medida que te desplazas por el tutorial, el vídeo pasa al modo de imagen en imagen. Cierra el índice del vídeo para disfrutar de la mejor experiencia con la imagen en imagen. Puedes utilizar el modo imagen en imagen para seguir el vídeo mientras realizas las tareas de este tutorial. Haga clic en las marcas de tiempo de cada tarea para seguirla.
La siguiente imagen animada muestra cómo utilizar las funciones de imagen en imagen de vídeo e índice de contenidos:
Para una experiencia óptima al completar este tutorial, abra Cloud Pak for Data en una ventana del navegador, y mantenga esta página del tutorial abierta en otra ventana del navegador para cambiar fácilmente entre las dos aplicaciones. Considere la posibilidad de colocar las dos ventanas del navegador una al lado de la otra para facilitar el seguimiento.
Consejo: Si se encuentra con una visita guiada mientras completa este tutorial en la interfaz de usuario, haga clic en Tal vez más tarde.
Tarea 1: Crear el proyecto de muestra
Para previsualizar esta tarea, vea el vídeo a partir del minuto 00:16.
El hub de recursos incluye un proyecto de muestra que contiene plantillas de avisos de muestra que puede comparar en Evaluation Studio. Siga estos pasos para crear el proyecto basado en una muestra:
En la pantalla de inicio, haga clic en el icono Crear un nuevo proyecto.
Seleccionar muestra.
Busque Getting started with watsonx.governanceSe ha copiado en el portapapeles, seleccione ese proyecto de ejemplo y haga clic en Siguiente.
La siguiente imagen muestra la pestaña Activos del proyecto. Ya está listo para crear el experimento.
Tarea 2: Crear el experimento de Evaluation Studio
Para previsualizar esta tarea, vea el vídeo a partir del minuto 01:11.
Para comparar el rendimiento de las preguntas, debe crear un experimento en Evaluation Studio. Siga estos pasos para crear el experimento:
En la pestaña Activos, haga clic en Nuevo activo > Evaluar y comparar indicaciones.
En la página Configuración, escriba Summarization Evaluation experimentSe ha copiado en el portapapeles como nombre.
Seleccione un tipo de tarea. En este caso, desea comparar las plantillas de avisos de integración, así que seleccione Integración.
Haga clic en Siguiente para continuar con la página Plantillas de solicitud.
Seleccione las plantillas de Resumen de reclamo de seguro, 2 Resumen de reclamo de seguro y 3 Resumen de reclamo de seguro.
Observe que las tres plantillas incluyen variables de entrada, un requisito de Evaluation Studio.
Haga clic en Siguiente para continuar con la página Métricas.
Amplíe las secciones Calidad de la IA Generativa y Salud del Modelo para revisar las métricas que se utilizarán en la evaluación.
Haga clic en Siguiente para pasar a la página Datos de prueba.
Seleccione los datos de la prueba:
Pulse Seleccionar datos del proyecto.
Seleccione Archivo de proyecto > data.csv de prueba de resumen de reclamaciones de seguro.csv.
Los datos de prueba que cargue deben contener columnas de salida y entrada de referencia para cada variable de aviso. Las columnas de salida de referencia se utilizan para calcular métricas basadas en referencias, como ROUGE y BLEU.
Pulse Seleccionar.
En la columna Entrada, seleccione Reclamación_de_seguro.
Para la columna de salida Referencia, seleccione Resumen.
Haga clic en Siguiente para continuar con la página Revisar y ejecutar.
Revise la configuración y haga clic en Ejecutar evaluación. Las evaluaciones pueden durar unos minutos.
Comprueba tu progreso
Copy link to section
La siguiente imagen muestra los resultados de la evaluación. Ahora puedes revisar los resultados.
Tarea 3: Revisar los resultados en Evaluation Studio
Para previsualizar esta tarea, vea el vídeo a partir del minuto 02:26.
Ahora ya puede evaluar y comparar los activos de IA. Siga estos pasos para revisar los resultados en Evaluation Studio:
Cuando finalice la evaluación, vea las visualizaciones de comparación de métricas.
Los gráficos comparan los resultados de cada plantilla de consulta seleccionada. La visualización muestra si las puntuaciones infringen los umbrales de cada métrica.
Haga clic en la lista Registros para seleccionar una métrica diferente. Por ejemplo, seleccione Análisis de contenido para ver las actualizaciones del gráfico en función de la métrica seleccionada.
Pase el ratón por encima de una barra del gráfico para ver los detalles.
Revise la tabla debajo de la visualización que muestra las tres plantillas de avisos. Observe que cada una de las indicaciones utiliza un modelo de base diferente.
Para realizar comparaciones, haga clic en el icono Establecer como referencia situado junto a una plantilla de consulta.
La configuración de la plantilla de referencia resalta las columnas de la tabla para mostrar si otros activos tienen un rendimiento mejor o peor que el activo seleccionado.
Haga clic en el icono de clasificación personalizada.
Para analizar los resultados, también puede crear una clasificación personalizada de las métricas de los distintos grupos especificando factores de ponderación y una fórmula de clasificación para determinar qué plantillas de avisos tienen el mejor rendimiento. Al crear una clasificación personalizada, puede seleccionar métricas que sean relevantes para su clasificación y proporcionarles un factor de ponderación. Pulse Cancelar.
Para volver a realizar las evaluaciones, haga clic en el icono Ajustar configuración. Utilice el panel de detalles de la evaluación para actualizar los datos de la prueba o reconfigurar las métricas.
Para editar el experimento, haga clic en el icono Activos para eliminar o añadir activos a su evaluación y cambiar su comparación.
En la tabla, haga clic en el menú Desbordamiento situado junto a una plantilla de consulta y seleccione Ver hoja de datos AI. Las hojas de datos recogen detalles sobre el activo en cada fase del ciclo de vida de la IA para ayudarle a cumplir los objetivos de gobernanza y cumplimiento.
Cierre la página Hoja informativa sobre IA para volver al Estudio de evaluación.
Desde aquí, puede iniciar el seguimiento de una plantilla de aviso en un caso de uso de AI. En la tabla, haga clic en el menú Desbordamiento situado junto a una plantilla de aviso y seleccione Seguimiento en caso de uso AI.
Comprueba tu progreso
Copy link to section
La siguiente imagen muestra los resultados de la evaluación.
Más información
Copy link to section
Para más información, consulta los siguientes temas: