資料の 英語版 に戻る

ROUGE評価基準

最終更新: 2025年3月07日
ROUGE評価基準

ROUGEメトリックは、生成された要約や翻訳が参照出力と比較してどの程度適切であるかを測定します。

メトリックの詳細

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)は、ジェネレーティブAIの品質評価指標であり、 資産がタスクをどれだけうまく実行できるかを測定します。

範囲

ROUGEの評価基準は、生成型AI 資産のみを評価します。

  • AI 資産の種類: テンプレートを即座に表示
  • 生成型AIのタスク
    • テキストの要約
    • コンテンツの生成
    • 質問への回答
    • エンティティー抽出
    • 検索強化型生成(RAG)
  • 対応言語 :英語

スコアと価値

ROUGEのメトリックスコアは、生成された要約と参照出力の類似性を示す。 スコアが高いほど、要約と参照文の類似性が高いことを示します。

  • 値の範囲 : 0.0-1.0
  • 最高得点 : 1.0

設定

  • しきいち:
    • 下限: 0.8
    • 上限:1
  • パラメーター:
    • ステマーを使用: ステマーを使用すると、ユーザーは語尾を削除します。 デフォルトは false です。

親トピック: 評価基準