0 / 0
資料の 英語版 に戻る

評価指標を評価する

最終更新: 2025年3月05日
評価指標を評価する

評価指標モジュールは、LLM指標の算出に役立ちます。

Evaluate metricsは、 ibm-watsonx-gov Python SDKのモジュールであり、文脈の関連性、忠実度、回答の類似性に関する指標のスコアを計算するメソッドを含んでいます。 モデルインサイトを使用して評価結果を可視化することができます。

次の例で示すように、評価指標モジュールを使用して指標を計算することができます

ステップ1:AI構成オブジェクトを生成する:

from ibm_watsonx_gov.config import GenAIConfiguration
from ibm_watsonx_gov.metrics import ContextRelevanceMetric, FaithfulnessMetric, AnswerCorrectnessMetric
from ibm_watsonx_gov.entities.enums import TaskType

question_field = "question"
context_field = "contexts"

config = GenAIConfiguration(
    input_fields=[question_field, context_field],
    question_field=question_field,
    context_fields=[context_field],
    output_fields=["answer"],
    reference_fields=["ground_truth", "answer"],
    task_type=TaskType.RAG,
)

metrics = [
    FaithfulnessMetric(method="token_k_precision"),
]

ステップ2:指標を算出する

from ibm_watsonx_gov.evaluate import evaluate_metrics

evaluation_result = evaluate_metrics(
    credentials=credentials,
    configuration=config,
    metrics=metrics,
    data=input_df,
    output_format="dataframe",
)

詳細は、「評価メトリクスノートブック」 を参照してください。

親トピック: Python SDK を使用したメトリクスの計算