0 / 0
Retourner à la version anglaise de la documentation
Métrique d'évaluation de la latence de l'API
Dernière mise à jour : 07 mars 2025
Métrique d'évaluation de la latence de l'API

La métrique de latence de l'API mesure le temps nécessaire (en ms) pour traiter une demande de scoring par votre déploiement de modèle.

Détails de l'indicateur

La latence API est une mesure de débit et de latence pour les évaluations de surveillance de l'état des modèles qui calcule la latence en suivant le temps nécessaire pour traiter les demandes de notation par milliseconde (ms).

Portée

La métrique de latence de l'API évalue les ressources d'IA générative et les modèles d'apprentissage automatique.

  • Tâches d'IA générative :
    • Synthèse de texte
    • Classification de texte
    • Génération de contenu
    • Extraction d'entités
    • Réponse aux questions
    • Récupération Augmentée Génération (RAG)
  • Type de problème d'apprentissage automatique :
    • Classification binaire
    • Classification multiclasse
    • Régression
  • Langues prises en charge : anglais

Processus d'évaluation

La latence API moyenne, maximale, médiane et minimale pour les demandes de notation et les enregistrements de transactions sont calculées lors des évaluations du moniteur d'intégrité du modèle.

Pour calculer la métrique de latence de l'API, une valeur d' response_time s de vos demandes de scoring est utilisée pour suivre le temps que prend le déploiement de votre modèle pour traiter les demandes de scoring.

Pour les déploiements d' watsonx.ai, la valeur d' response_time s est automatiquement détectée lorsque vous configurez les évaluations.

Pour les déploiements externes et personnalisés, vous devez spécifier la valeur response_time lorsque vous envoyez des demandes de scoring pour calculer le débit et la latence, comme le montre l'exemple suivant du SDK d' Python :

    from ibm_watson_openscale.supporting_classes.payload_record import PayloadRecord            
        client.data_sets.store_records(
        data_set_id=payload_data_set_id, 
        request_body=[
        PayloadRecord(
            scoring_id=<uuid>,
            request=openscale_input,
            response=openscale_output,
            response_time=<response_time>,  
            user_id=<user_id>)
                    ]
        ) 

Sujet parent : Indicateurs d'évaluation