생성적 AI 품질 평가 구성

마지막 업데이트 날짜: 2025년 3월 11일
생성적 AI 품질 평가 구성

생성적 AI 품질 평가를 구성하여 기초 모델이 작업을 얼마나 잘 수행하는지 측정할 수 있습니다.

프롬프트 템플리트를 평가할 때 다음 태스크 유형에 대한 생성 AI 품질 평가 결과의 요약을 검토할 수 있습니다.

  • 텍스트 요약
  • 컨텐츠 생성
  • 엔티티 추출
  • 질문 응답
  • RAG (Retrieval Augmented Generation)

요약에는 기본 설정으로 계산된 메트릭에 대한 점수 및 위반이 표시됩니다.

사용자 고유의 설정으로 생성 AI 품질 평가를 구성하기 위해 최소 샘플 크기를 설정하고 다음 예제에 표시된 대로 각 메트릭에 대한 임계값을 설정할 수 있습니다.

생성 AI 품질 평가 구성

최소 샘플 크기는 평가하려는 모델 트랜잭션 레코드의 최소 수를 표시하며 임계값은 메트릭 점수가 임계값을 위반할 때 경보를 작성합니다. 위반을 방지하려면 메트릭 점수가 하한 임계값보다 높아야 합니다. 메트릭 값이 높을수록 점수가 우수함을 나타냅니다.

LLM-as-a-judge 모델로 메트릭을 계산하도록 설정을 구성할 수도 있습니다. LLM-as-a-judge 모델은 다른 모델의 성능을 평가하는 데 사용할 수 있는 LLM 모델입니다.

LLM-as-a-judge 모델을 사용하여 지표를 계산하려면 평가 설정을 구성할 때 관리를 선택하여 ' generative_ai_evaluator 시스템을 추가해야 합니다.

LLM-as-a-judge 모델 평가를 위한 gen AI 평가자 추가

평가자를 선택하여 답변 품질 및 검색 품질 메트릭을 계산할 수 있습니다.

메트릭 설정을 위한 gen AI 평가기 선택

또한 노트북을 사용하여 프롬프트 템플릿을 설정할 때 평가자를 생성하고 watsonx.governance RAG 작업에 대한 평가 결과를 검토할 수 있습니다.

상위 주제: 인공지능 모델 평가