BLEU 평가 지표

마지막 업데이트 날짜: 2025년 2월 26일
BLEU 평가 지표

BLEU(Bilingual Evaluation Understudy) 지표는 기계 번역된 문장과 참조 번역된 문장을 비교하여 참조 텍스트와 예측 간의 유사성을 측정합니다.

메트릭 세부사항

BLEU는 생성적 AI 자산이 작업을 얼마나 잘 수행하는지 측정하는 생성적 AI 품질 평가 지표입니다.

범위

BLEU 지표는 생성적 AI 자산만을 평가합니다.

  • AI 자산의 유형 : 프롬프트 템플릿
  • 생성적 AI 작업 :
    • 텍스트 요약
    • 컨텐츠 생성
    • 질문 응답
    • 검색 증강 생성(RAG)
  • 지원 언어 : 영어

점수와 가치

BLEU 지표 점수는 기계 번역과 참고 번역 간의 유사성을 나타냅니다. 점수가 높을수록 참조 텍스트와 예측의 유사성이 높음을 의미합니다.

  • 값의 범위 : 0.0-1.0
  • 최상의 점수 : 1.0

설정

  • 임계치 :
    • 하한: 0.8
    • 상한: 1
  • 매개변수:
    • 최대 순서: BLEU 점수를 완성할 때 사용할 수 있는 최대 n-gram 순서
    • Smooth: 데이터에서 잡음을 제거하기 위해 스무딩 기능을 적용할지 여부

상위 주제: 평가 지표