資料の 英語版 に戻る

BLEU評価指標

最終更新: 2025年2月26日
BLEU評価指標

BLEU(Bilingual Evaluation Understudy)メトリックは、機械翻訳の翻訳文と参照翻訳の原文を比較し、参照テキストと予測の類似性を測定する。

メトリックの詳細

BLEUは、生成型AI 資産タスクをどれだけうまく実行できるかを測定する生成型AIの品質評価指標です。

範囲

BLEUメトリックは生成型AI 資産のみを評価します。

  • AI 資産の種類: テンプレートを即座に表示
  • 生成型AIのタスク
    • テキストの要約
    • コンテンツの生成
    • 質問への回答
    • 検索強化型生成(RAG)
  • 対応言語 :英語

スコアと価値

BLEU 評価尺度スコアは、機械翻訳と参照翻訳の類似性を示す。 スコアが高いほど、参照テキストと予測の類似性が高いことを示します。

  • 値の範囲 : 0.0-1.0
  • 最高得点 : 1.0

設定

  • しきいち:
    • 下限: 0.8
    • 上限:1
  • パラメーター:
    • 最大注文:BLEUスコアを算出する際に使用する最大n-gram注文
    • スムーズ:データのノイズを除去する平滑化処理を適用するかどうか

親トピック: 評価基準