Volver a la versión inglesa de la documentación

Métricas de evaluación de latencia de API

Última actualización: 14 mar 2025
Métricas de evaluación de latencia de API

La métrica de latencia de la API mide el tiempo (en ms) que tarda en procesar una solicitud de puntuación su implementación de modelo.

Detalles de métrica

La latencia de la API es una métrica de rendimiento y latencia para las evaluaciones del monitor de estado del modelo que calcula la latencia mediante el seguimiento del tiempo que tarda en procesar las solicitudes de puntuación por milisegundo (ms).

Ámbito

La métrica de latencia de la API evalúa los activos de IA generativa y los modelos de aprendizaje automático.

  • Tareas de IA generativa :
    • Resumen de texto
    • Clasificación de texto
    • Generación de contenido
    • Extracción de entidades
    • Respuesta a preguntas
    • Generación aumentada de recuperación (RAG)
  • Tipo de problema de aprendizaje automático :
    • Clasificación binaria
    • Clasificación de varias clases
    • Regresión
  • Idiomas disponibles : inglés

Proceso de evaluación

La latencia media, máxima, mediana y mínima del API para puntuar solicitudes y registros de transacciones se calculan durante las evaluaciones del monitor de estado del modelo.

Para calcular la métrica de latencia de la API, se utiliza un valor de puntuación ( response_time ) de sus solicitudes de puntuación para hacer un seguimiento del tiempo que tarda la implementación de su modelo en procesar las solicitudes de puntuación.

Para implementaciones de Runtime de watsonx.ai, el valor de response_time se detecta automáticamente cuando se configuran las evaluaciones.

Para implementaciones externas y personalizadas, debe especificar el valor response_time cuando envíe solicitudes de puntuación para calcular el rendimiento y la latencia, como se muestra en el siguiente ejemplo del SDK de Python :

    from ibm_watson_openscale.supporting_classes.payload_record import PayloadRecord            
        client.data_sets.store_records(
        data_set_id=payload_data_set_id, 
        request_body=[
        PayloadRecord(
            scoring_id=<uuid>,
            request=openscale_input,
            response=openscale_output,
            response_time=<response_time>,  
            user_id=<user_id>)
                    ]
        ) 

Tema principal: Métricas de evaluación