0 / 0
Retourner à la version anglaise de la documentation
Métrique d'évaluation du débit de l'API
Dernière mise à jour : 07 mars 2025
Métrique d'évaluation du débit de l'API

L'indicateur de débit de l'API mesure le nombre de demandes de découpe traitées par seconde par votre déploiement de modèle.

Détails de l'indicateur

Le débit API est une mesure de débit et de latence pour les évaluations de surveillance de l'état des modèles qui calcule le débit en suivant le nombre de demandes de notation et d'enregistrements de transactions traités par seconde.

Portée

L'indicateur de débit de l'API évalue les ressources d'IA générative et les modèles d'apprentissage automatique.

  • Tâches d'IA générative :
    • Synthèse de texte
    • Classification de texte
    • Génération de contenu
    • Extraction d'entités
    • Réponse aux questions
    • Récupération Augmentée Génération (RAG)
  • Type de problème d'apprentissage automatique :
    • Classification binaire
    • Classification multiclasse
    • Régression
  • Langues prises en charge : anglais

Processus d'évaluation

Le débit moyen, maximum, médian et minimum de l'API pour les demandes de notation et les enregistrements de transactions sont calculés lors des évaluations du moniteur d'intégrité du modèle.

Pour calculer la mesure du débit de l'API, une valeur d' response_time s de vos demandes de scoring est utilisée pour suivre le temps que prend le déploiement de votre modèle pour traiter les demandes de scoring.

Pour les déploiements d' watsonx.ai, la valeur d' response_time s est automatiquement détectée lorsque vous configurez les évaluations.

Pour les déploiements externes et personnalisés, vous devez spécifier la valeur response_time lorsque vous envoyez des demandes de scoring pour calculer le débit et la latence, comme le montre l'exemple suivant du SDK d' Python :

    from ibm_watson_openscale.supporting_classes.payload_record import PayloadRecord            
        client.data_sets.store_records(
        data_set_id=payload_data_set_id, 
        request_body=[
        PayloadRecord(
            scoring_id=<uuid>,
            request=openscale_input,
            response=openscale_output,
            response_time=<response_time>,  
            user_id=<user_id>)
                    ]
        ) 

Sujet parent : Indicateurs d'évaluation