Configuración de evaluaciones de calidad de IA generativa

Última actualización: 11 mar 2025

Puede utilizar evaluaciones de calidad de IA generativa configuradas para medir el rendimiento de su modelo de base en las tareas.

Cuando evalúa plantillas de solicitud, puede revisar un resumen de los resultados de evaluación de calidad de IA generativa para los siguientes tipos de tarea:

Resumen de texto
Generación de contenido
Extracción de entidades
Respuesta a preguntas
Generación aumentada de recuperación (RAG)

El resumen muestra puntuaciones e infracciones para las métricas que se calculan con los valores predeterminados.

Para configurar evaluaciones de calidad de IA generativas con sus propios valores, puede establecer un tamaño de muestra mínimo y establecer valores de umbral para cada métrica, tal como se muestra en el ejemplo siguiente:

Configurar evaluaciones generativas de calidad de IA

El tamaño mínimo de la muestra indica el número mínimo de registros de transacción de modelo que desea evaluar y los valores de umbral crean alertas cuando las puntuaciones de métrica violan los umbrales. Las puntuaciones de métrica deben ser superiores a los valores de umbral inferiores para evitar infracciones. Los valores de métrica más altos indican mejores puntuaciones.

También puede configurar los ajustes para calcular métricas con modelos LLM-as-a-judge. Los modelos LLM-as-a-judge son modelos LLM que puede utilizar para evaluar el rendimiento de otros modelos.

Para calcular métricas con modelos LLM-as-a-judge, debe seleccionar Gestionar para añadir un sistema ' generative_ai_evaluator ' cuando configure sus parámetros de evaluación.

Añadir un evaluador gen AI para las evaluaciones de modelos LLM-as-a-judge

Puede seleccionar un evaluador para calcular las métricas de calidad de respuesta y calidad de recuperación.

Selección de un evaluador gen AI para el establecimiento de métricas

También puede utilizar un cuaderno para crear un evaluador cuando configure sus plantillas de avisos y revise los resultados de la evaluación para la tarea RAG en watsonx.governance.

Tema principal: Evaluación de modelos de IA

¿Fue útil el tema?

0/1000