Siga este tutorial para aprender a comparar varios mensajes en Evaluation Studio. Con Evaluation Studio, puede evaluar y comparar sus activos de IA generativa con métricas cuantitativas y criterios personalizables que se adapten a sus casos de uso. Evalúe el rendimiento de varios activos simultáneamente y vea análisis comparativos de los resultados para identificar las mejores soluciones.
- Servicios necesarios
- watsonx.ai
- watsonx.governance
- tiempo de ejecución de watsonx.ai
- Roles necesarios
- Acceso al nivel de servicio Watsonx.governance : Función de lector
- Para su proyecto: Funciones de administrador o editor
- Cubo de Cloud Object Storage utilizado para su proyecto: Rol de escritor
El flujo de trabajo básico incluye estas tareas:
- Abra un proyecto que contenga las plantillas de avisos a evaluar. En los proyectos puedes colaborar con otras personas para trabajar con activos.
- Cree un experimento de Evaluation Studio.
- Revise los resultados.
Más información sobre Evaluation Studio
Puede utilizar Evaluation Studio para agilizar su desarrollo de IA generativa automatizando el proceso de evaluación de múltiples activos de IA para diversos tipos de tareas. En lugar de revisar individualmente cada plantilla de preguntas y comparar manualmente su rendimiento, puede configurar un único experimento para evaluar varias plantillas de preguntas simultáneamente, lo que puede ahorrar tiempo durante el desarrollo.
Evaluation Studio incluye las siguientes funciones para ayudarle a evaluar y comparar las plantillas de avisos e identificar los activos que mejor se adaptan a sus necesidades:
- Configuración personalizable del experimento
- Análisis flexible de los resultados
Vea un vídeo sobre Evaluation Studio
Vea este vídeo para obtener una vista preliminar de los pasos de esta guía de aprendizaje. Puede haber ligeras diferencias en la interfaz de usuario mostrada en el vídeo. El vídeo pretende ser un complemento del tutorial escrito.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Prueba un tutorial con Evaluation Studio
En esta guía de aprendizaje, realizará estas tareas:
- Tarea 1: Crear el proyecto de muestra
- Tarea 2: Crear el experimento de Evaluation Studio
- Tarea 3: Revisar los resultados en Evaluation Studio
Consejos para completar este tutorial
Aquí tienes algunos consejos para completar con éxito este tutorial.
Utiliza el vídeo picture-in-picture
La siguiente imagen animada muestra cómo utilizar las funciones de imagen en imagen de vídeo e índice de contenidos:
Obtener ayuda en la comunidad
Si necesitas ayuda con este tutorial, puedes hacer una pregunta o encontrar una respuesta en el foro de debate de la Comunidad watsonx.
Configurar las ventanas del navegador
Para una experiencia óptima al completar este tutorial, abra Cloud Pak for Data en una ventana del navegador, y mantenga esta página del tutorial abierta en otra ventana del navegador para cambiar fácilmente entre las dos aplicaciones. Considere la posibilidad de colocar las dos ventanas del navegador una al lado de la otra para facilitar el seguimiento.
Tarea 1: Crear el proyecto de muestra
Para previsualizar esta tarea, vea el vídeo a partir del minuto 00:16.
El hub de recursos incluye un proyecto de muestra que contiene plantillas de avisos de muestra que puede comparar en Evaluation Studio. Siga estos pasos para crear el proyecto basado en una muestra:
En la pantalla de inicio, haga clic en el icono Crear un nuevo proyecto
.
Seleccionar muestra.
Busque
Getting started with watsonx.governance
, seleccione ese proyecto de ejemplo y haga clic en Siguiente.Elija una instancia de servicio de almacenamiento de objetos existente o cree una nueva.
Pulse Crear.
Espere a que se complete la importación del proyecto y, a continuación, haga clic en Ver nuevo proyecto.
Asociar un servicio watsonx.ai Runtime al proyecto. Para más información, consulte watsonx.ai Runtime.
Cuando se abra el proyecto, haz clic en la pestaña Gestionar y selecciona la página Servicios e integraciones.
En la pestaña Servicios IBM, haga clic en Asociar servicio.
Seleccione su instancia de watsonx.ai Runtime. Si aún no dispone de una instancia del servicio watsonx.ai Runtime, siga estos pasos:
Haga clic en Nuevo servicio.
Seleccione watsonx.ai Runtime.
Pulse Crear.
Seleccione la nueva instancia de servicio de la lista.
Haga clic en Asociar servicio.
Si es necesario, haga clic en Cancelar para volver a la página Servicios e integraciones.
Haga clic en la pestaña Activos del proyecto para ver los activos de muestra.
Para obtener más información o ver un vídeo, consulte Creación de un proyecto. Para obtener más información sobre los servicios asociados, consulte Adición de servicios asociados.
Comprueba tu progreso
La siguiente imagen muestra la pestaña Activos del proyecto. Ya está listo para crear el experimento.
Tarea 2: Crear el experimento de Evaluation Studio
Para previsualizar esta tarea, vea el vídeo a partir del minuto 01:11.
Para comparar el rendimiento de las preguntas, debe crear un experimento en Evaluation Studio. Siga estos pasos para crear el experimento:
En la pestaña Activos, haga clic en Nuevo activo > Evaluar y comparar indicaciones.
En la página Configuración, escriba
Summarization Evaluation experiment
como nombre.Seleccione un tipo de tarea. En este caso, desea comparar las plantillas de avisos de integración, así que seleccione Integración.
Haga clic en Siguiente para continuar con la página Plantillas de solicitud.
Seleccione las plantillas de Resumen de reclamo de seguro, 2 Resumen de reclamo de seguro y 3 Resumen de reclamo de seguro.
Observe que las tres plantillas incluyen variables de entrada, un requisito de Evaluation Studio.
Haga clic en Siguiente para continuar con la página Métricas.
Amplíe las secciones Calidad de la IA Generativa y Salud del Modelo para revisar las métricas que se utilizarán en la evaluación.
Haga clic en Siguiente para pasar a la página Datos de prueba.
Seleccione los datos de la prueba:
Pulse Seleccionar datos del proyecto.
Seleccione Archivo de proyecto > data.csv de prueba de resumen de reclamaciones de seguro.csv.
Los datos de prueba que cargue deben contener columnas de salida y entrada de referencia para cada variable de aviso. Las columnas de salida de referencia se utilizan para calcular métricas basadas en referencias, como ROUGE y BLEU.
Pulse Seleccionar.
En la columna Entrada, seleccione Reclamación_de_seguro.
Para la columna de salida Referencia, seleccione Resumen.
Haga clic en Siguiente para continuar con la página Revisar y ejecutar.
Revise la configuración y haga clic en Ejecutar evaluación. Las evaluaciones pueden durar unos minutos.
Comprueba tu progreso
La siguiente imagen muestra los resultados de la evaluación. Ahora puedes revisar los resultados.
Tarea 3: Revisar los resultados en Evaluation Studio
Para previsualizar esta tarea, vea el vídeo a partir del minuto 02:26.
Ahora ya puede evaluar y comparar los activos de IA. Siga estos pasos para revisar los resultados en Evaluation Studio:
Cuando finalice la evaluación, vea las visualizaciones de comparación de métricas.
Los gráficos comparan los resultados de cada plantilla de consulta seleccionada. La visualización muestra si las puntuaciones infringen los umbrales de cada métrica.
Haga clic en la lista Registros para seleccionar una métrica diferente. Por ejemplo, seleccione Análisis de contenido para ver las actualizaciones del gráfico en función de la métrica seleccionada.
Pase el ratón por encima de una barra del gráfico para ver los detalles.
Revise la tabla debajo de la visualización que muestra las tres plantillas de avisos. Fíjese en que cada una de las preguntas utiliza un foundation model diferente.
Para realizar comparaciones, haga clic en el icono Establecer como referencia
situado junto a una plantilla de consulta.
La configuración de la plantilla de referencia resalta las columnas de la tabla para mostrar si otros activos tienen un rendimiento mejor o peor que el activo seleccionado.
Haga clic en el icono de clasificación personalizada
.
Para analizar los resultados, también puede crear una clasificación personalizada de las métricas de los distintos grupos especificando factores de ponderación y una fórmula de clasificación para determinar qué plantillas de avisos tienen el mejor rendimiento. Al crear una clasificación personalizada, puede seleccionar métricas que sean relevantes para su clasificación y proporcionarles un factor de ponderación. Pulse Cancelar.
Para volver a realizar las evaluaciones, haga clic en el icono Ajustar configuración
. Utilice el panel de detalles de la evaluación para actualizar los datos de la prueba o reconfigurar las métricas.
Para editar el experimento, haga clic en el icono Activos
para eliminar o añadir activos a su evaluación y cambiar su comparación.
En la tabla, haga clic en el menú Desbordamiento
situado junto a una plantilla de consulta y seleccione Ver hoja de datos AI. Las hojas de datos recogen detalles sobre el activo en cada fase del ciclo de vida de la IA para ayudarle a cumplir los objetivos de gobernanza y cumplimiento.
Cierre la página Hoja informativa sobre IA para volver al Estudio de evaluación.
Desde aquí, puede iniciar el seguimiento de una plantilla de aviso en un caso de uso de AI. En la tabla, haga clic en el menú Desbordamiento
situado junto a una plantilla de aviso y seleccione Seguimiento en caso de uso AI.
Comprueba tu progreso
La siguiente imagen muestra los resultados de la evaluación.
Más información
Para más información, consulta los siguientes temas:
Próximos pasos
Prueba uno de los otros tutoriales:
- Evaluar y realizar el seguimiento de una plantilla de avisos
- Cree un foundation model utilizando Prompt Lab
- Promover un foundation model con el tutorial del patrón de generación de recuperación aumentada
- Afinar un foundation model
- Evaluar un modelo de aprendizaje automático
- Otros tutoriales de casos de uso watsonx.ai
Recursos adicionales
Ver más vídeos.
En el Centro de recursos encontrará ejemplos de conjuntos de datos, proyectos, modelos, instrucciones y cuadernos para adquirir experiencia práctica:
Cuadernos que puedes añadir a tu proyecto para empezar a analizar datos y construir modelos.
Proyectos que puede importar y que contienen cuadernos, conjuntos de datos, avisos y otros recursos.
Conjuntos de datos que puede añadir a su proyecto para perfeccionar, analizar y construir modelos.
Avisos que puede utilizar en el Prompt Lab para avisar a un foundation model.
Modelos de la Fundación que puede utilizar en el Prompt Lab.
Tema principal: Tutoriales de inicio rápido