L'indicateur de débit de l'API mesure le nombre de demandes de découpe traitées par seconde par votre déploiement de modèle.
Détails de l'indicateur
Le débit API est une mesure de débit et de latence pour les évaluations de surveillance de l'état des modèles qui calcule le débit en suivant le nombre de demandes de notation et d'enregistrements de transactions traités par seconde.
Portée
L'indicateur de débit de l'API évalue les ressources d'IA générative et les modèles d'apprentissage automatique.
- Tâches d'IA générative :
- Synthèse de texte
- Classification de texte
- Génération de contenu
- Extraction d'entités
- Réponse aux questions
- Récupération Augmentée Génération (RAG)
- Type de problème d'apprentissage automatique :
- Classification binaire
- Classification multiclasse
- Régression
- Langues prises en charge : anglais
Processus d'évaluation
Le débit moyen, maximum, médian et minimum de l'API pour les demandes de notation et les enregistrements de transactions sont calculés lors des évaluations du moniteur d'intégrité du modèle.
Pour calculer la mesure du débit de l'API, une valeur d' response_time
s de vos demandes de scoring est utilisée pour suivre le temps que prend le déploiement de votre modèle pour traiter les demandes de scoring.
Pour les déploiements d' watsonx.ai, la valeur d' response_time
s est automatiquement détectée lorsque vous configurez les évaluations.
Pour les déploiements externes et personnalisés, vous devez spécifier la valeur response_time
lorsque vous envoyez des demandes de scoring pour calculer le débit et la latence, comme le montre l'exemple suivant du SDK d' Python :
from ibm_watson_openscale.supporting_classes.payload_record import PayloadRecord
client.data_sets.store_records(
data_set_id=payload_data_set_id,
request_body=[
PayloadRecord(
scoring_id=<uuid>,
request=openscale_input,
response=openscale_output,
response_time=<response_time>,
user_id=<user_id>)
]
)
Sujet parent : Indicateurs d'évaluation