지표 평가

마지막 업데이트 날짜: 2025년 3월 25일
지표 평가

평가 지표 모듈은 LLM 지표를 계산하는 데 도움이 될 수 있습니다.

평가 지표는 컨텍스트 관련성, 충실도, 답변 유사성 지표에 대한 점수를 계산하는 방법을 포함하는 ibm-watsonx-gov Python SDK의 모듈입니다. 모델 통찰력을 사용하여 평가 결과를 시각화할 수 있습니다.

평가 지표 모듈을 사용하면 다음 예와 같이 지표를 계산할 수 있습니다

1단계: AI 구성 객체 생성:

from ibm_watsonx_gov.config import GenAIConfiguration
from ibm_watsonx_gov.metrics import ContextRelevanceMetric, FaithfulnessMetric, AnswerCorrectnessMetric
from ibm_watsonx_gov.entities.enums import TaskType

question_field = "question"
context_field = "contexts"

config = GenAIConfiguration(
    input_fields=[question_field, context_field],
    question_field=question_field,
    context_fields=[context_field],
    output_fields=["answer"],
    reference_fields=["ground_truth", "answer"],
    task_type=TaskType.RAG,
)

metrics = [
    FaithfulnessMetric(method="token_k_precision"),
]

2단계: 지표 계산

from ibm_watsonx_gov.evaluate import evaluate_metrics

evaluation_result = evaluate_metrics(
    credentials=credentials,
    configuration=config,
    metrics=metrics,
    data=input_df,
    output_format="dataframe",
)

더 자세한 정보는 평가 지표 노트북을 참고하세요.

상위 주제: Python SDK를 이용한 지표 계산