Evaluación de plantillas de solicitud desconectadas en proyectos

Última actualización: 03 dic 2024
Evaluación de plantillas de solicitud desconectadas en proyectos

Puede evaluar plantillas de solicitud desconectadas en proyectos para medir el rendimiento de los modelos de base que no se crean ni alojan en IBM.

Al evaluar plantillas de solicitud desconectadas en proyectos, puede evaluar la eficacia con la que el modelo externo genera respuestas para los siguientes tipos de tarea:

  • Resumen de texto
  • Clasificación de texto
  • Respuesta a preguntas
  • Extracción de entidades
  • Generación de contenido
  • Generación aumentada por recuperación

Antes de empezar

Permisos necesarios
Debe tener los roles siguientes para evaluar las plantillas de solicitud:
Admin o el rol Editor en un proyecto

Antes de evaluar las plantillas de solicitud desconectadas en el proyecto, debe crear una plantilla de solicitud desconectada que conecte el modelo externo a watsonx.governance. Debe especificar variables y proporcionar detalles de conexión como, por ejemplo, el nombre del modelo externo y su URL al crear la plantilla de solicitud desconectada. El ejemplo siguiente muestra cómo crear una plantilla de solicitud desconectada con la API:

{
    "name": "prompt name",
    "description": "prompt description",
    "model_version": {
        "number": "2.0.0-rc.7",
        "tag": "my prompt tag",
        "description": "my description"
    },
    "prompt_variables": {
        "var1": {},
        "var2": {}
    },
    "task_ids": [
        "retrieval_augmented_generation"
    ],
    "input_mode": "detached",
    "prompt": {
        "model_id": "",
        "input": [
            [
                "Some input",
                ""
            ]
        ],
        "data": {},
        "external_information": {
            "external_prompt_id": "external prompt",
            "external_model_id": "external model",
            "external_model_provider": "external provider",
            "external_prompt": {
                "url": "https://asdfasdf.com?asd=a&32=1",
                "additional_information": [
                    {
                        "additional_key": "additional settings"
                    }
                ]
            },
            "external_model": {
                "name": "An external model",
                "url": "https://asdfasdf.com?asd=a&32=1"
            }
        }
    }
}

Ejecución de evaluaciones

Para ejecutar evaluaciones de plantilla de solicitud desconectadas en el proyecto, puede abrir una plantilla de solicitud desconectada guardada en la pestaña Activos y seleccionar Evaluar en la pestaña Evaluaciones en watsonx.governance para abrir el asistente Evaluar plantilla de solicitud . Sólo puede ejecutar evaluaciones si tiene asignados los roles Admin o Editor para el proyecto.

Ejecutar evaluación de plantilla de solicitud externa

Seleccionar dimensiones

El asistente Evaluar plantilla de solicitud muestra las dimensiones que están disponibles para evaluar el tipo de tarea asociado a la solicitud. Puede expandir las dimensiones para ver la lista de métricas que se utilizan para evaluar las dimensiones que seleccione.

Seleccionar dimensiones llm externas para evaluar

Watsonx.governance configura automáticamente las evaluaciones para cada dimensión con los valores predeterminados. Para configurar evaluaciones con distintos valores, puede seleccionar Valores avanzados para establecer tamaños mínimos de muestra y valores de umbral para cada métrica, tal como se muestra en el ejemplo siguiente:

Configurar evaluaciones de llm externas

Seleccionar datos de prueba

Debe cargar un archivo CSV que contenga datos de prueba con columnas de referencia que incluyan la entrada y la salida de modelo esperada. Los datos de prueba que cargue deben contener la salida del modelo para habilitar las evaluaciones de despliegue desconectadas. Cuando finalice la carga, también debe asignar las variables de solicitud a las columnas asociadas de sus datos de prueba. Seleccionar datos de prueba LLM externos para cargar

Revisar y evaluar

Puede revisar las selecciones para el tipo de tarea de solicitud, los datos de prueba cargados y el tipo de evaluación que se ejecuta. Debe seleccionar Evaluar para ejecutar la evaluación.

Revisar y evaluar valores de evaluación de plantilla de solicitud desconectada

Revisión de los resultados de la evaluación

Cuando finalice la evaluación, puede revisar un resumen de los resultados de la evaluación en la pestaña Evaluaciones en watsonx.governance para obtener información sobre el rendimiento del modelo. El resumen proporciona una visión general de las puntuaciones de métrica y las infracciones de los umbrales de puntuación predeterminados para las evaluaciones de plantilla de solicitud.

Si tiene asignado el rol de Visor para el proyecto, puede seleccionar Evaluar en la lista de activos en la pestaña Activos para ver los resultados de la evaluación.

Para analizar los resultados, puede pulsar la flecha flecha de navegación junto a la evaluación de plantilla de solicitud para ver las visualizaciones de datos de los resultados a lo largo del tiempo. También puede analizar los resultados de la evaluación de estado del modelo que se ejecuta de forma predeterminada durante las evaluaciones de plantilla de solicitud para comprender la eficacia con la que el modelo procesa los datos.

El menú Acciones también proporciona las opciones siguientes para ayudarle a analizar los resultados:

  • Evaluar ahora: Ejecutar evaluación con un conjunto de datos de prueba diferente
  • Todas las evaluaciones: muestra un historial de las evaluaciones para comprender cómo cambian los resultados a lo largo del tiempo.
  • Configurar supervisores: configurar umbrales de evaluación y tamaños de muestra.
  • Ver información de modelo: Ver detalles sobre el modelo para comprender cómo se configura el entorno de despliegue.

Analizar resultados de evaluación de plantilla de solicitud desconectada

Próximos pasos

Puede promocionar las plantillas de solicitud a espacios de despliegue para evaluar plantillas de solicitud desconectadas en espacios para obtener información sobre el rendimiento del modelo a lo largo del ciclo de vida de IA.

Más información

Si está realizando un seguimiento del despliegue separado en un caso de uso de IA, los detalles sobre el modelo y los resultados de la evaluación se registran en una ficha informativa.