0 / 0
Retourner à la version anglaise de la documentation
Mesure d'évaluation BLEU
Dernière mise à jour : 26 févr. 2025
Mesure d'évaluation BLEU

La métrique BLEU (Bilingual Evaluation Understudy) compare les phrases traduites à partir de traductions automatiques à des phrases provenant de traductions de référence afin de mesurer la similarité entre les textes de référence et les prédictions.

Détails de l'indicateur

BLEU est une métrique d'évaluation de la qualité de l'IA générative qui mesure la qualité des tâches effectuées par les ressources d'IA générative.

Portée

La mesure BLEU évalue uniquement les actifs d'IA générative.

  • Types d'actifs IA : Modèles d'invites
  • Tâches d'IA générative :
    • Synthèse de texte
    • Génération de contenu
    • Réponse aux questions
    • Génération augmentée de recherche (RAG)
  • Langues prises en charge : Anglais

Scores et valeurs

Le score de la métrique BLEU indique la similarité entre la traduction automatique et les traductions de référence. Des scores plus élevés indiquent une plus grande similitude entre les textes de référence et les prédictions.

  • Plage de valeurs : 0.0-1.0
  • Meilleure note possible : 1.0

Paramètres

  • Seuils :
    • Limite inférieure : 0.8
    • Limite supérieure : 1
  • Paramètres :
    • Max order : Ordre maximal des n-grammes à utiliser pour compléter le score BLEU
    • Lisser : Appliquer ou non une fonction de lissage pour éliminer le bruit des données

Sujet parent : Mesures d'évaluation