Retourner à la version anglaise de la documentationMesure d'évaluation BLEU
Mesure d'évaluation BLEU
Dernière mise à jour : 26 févr. 2025
La métrique BLEU (Bilingual Evaluation Understudy) compare les phrases traduites à partir de traductions automatiques à des phrases provenant de traductions de référence afin de mesurer la similarité entre les textes de référence et les prédictions.
Détails de l'indicateur
BLEU est une métrique d'évaluation de la qualité de l'IA générative qui mesure la qualité des tâches effectuées par les ressources d'IA générative.
Portée
La mesure BLEU évalue uniquement les actifs d'IA générative.
- Types d'actifs IA : Modèles d'invites
- Tâches d'IA générative :
- Synthèse de texte
- Génération de contenu
- Réponse aux questions
- Génération augmentée de recherche (RAG)
- Langues prises en charge : Anglais
Scores et valeurs
Le score de la métrique BLEU indique la similarité entre la traduction automatique et les traductions de référence. Des scores plus élevés indiquent une plus grande similitude entre les textes de référence et les prédictions.
- Plage de valeurs : 0.0-1.0
- Meilleure note possible : 1.0
Paramètres
- Seuils :
- Limite inférieure : 0.8
- Limite supérieure : 1
- Paramètres :
- Max order : Ordre maximal des n-grammes à utiliser pour compléter le score BLEU
- Lisser : Appliquer ou non une fonction de lissage pour éliminer le bruit des données
Sujet parent : Mesures d'évaluation
La rubrique a-t-elle été utile ?
0/1000