0 / 0
資料の 英語版 に戻る

モデルの洞察

最終更新: 2025年3月05日
モデルの洞察

モデルインサイトモジュールは、評価結果を分析することで、ユースケースに最適なソリューションを特定し、RAGアプリケーションのパフォーマンスを向上させるのに役立ちます。

Model insightsは、 ibm-watsonx-gov Python SDKのモジュールです。 モデルインサイトモジュールを使用して、LLM評価指標を視覚化し分析するためのインタラクティブな方法を提供するモデルインサイトダッシュボードを構築することができます。 ダッシュボードを使用して、設定されたメトリックのしきい値を超えたレコードを表示および整理することができます。

モデルインサイトモジュールを使用するには、事前に計算された評価指標付きLLMレコードを含むデータセットと、各指標の閾値を指定する構成ファイルが必要です。 RAGアプリケーションの場合、レコードにはアプリケーションのテストに使用される各ユーザー質問の評価基準が含まれています。

このモジュールは、違反の詳細な分析をサポートし、根本原因の調査を促進することで、評価スコアに影響を与える要因を理解するのに役立ちます。

次の例に示すように、モデルインサイトモジュールを使用して、データセットのメトリクスを構成し、視覚化することができます

ステップ1:設定

データセットのカラムの詳細とメトリックのしきい値を含む、モデルインサイトモジュールの構成を作成します

from ibm_watsonx_gov.config import GenAIConfiguration
from ibm_watsonx_gov.metrics import (
    AveragePrecisionMetric,
    ContextRelevanceMetric,
    FaithfulnessMetric,
    HitRateMetric,
    NDCGMetric,
    ReciprocalRankMetric,
    RetrievalPrecisionMetric,
    UnsuccessfulRequestsMetric
)
from ibm_watsonx_gov.entities.enums import TaskType
from ibm_watsonx_gov.visualizations import ModelInsights

question_field = "question"
context_fields = ["context1",  "context2", "context3", "context4"]

configuration = GenAIConfiguration(
    input_fields=[question_field]+context_fields,
    question_field=question_field,
    context_fields=context_fields,
    output_fields=["answer"],
    task_type=TaskType.RAG,
)

metrics = [
    AveragePrecisionMetric(),
    ContextRelevanceMetric(),
    FaithfulnessMetric(),
    HitRateMetric(),
    NDCGMetric(),
    ReciprocalRankMetric(),
    RetrievalPrecisionMetric(),
    UnsuccessfulRequestsMetric(),
]

model_insights = ModelInsights(configuration=configuration, metrics=metrics)

ステップ2:違反したレコードを表示する

モデルインサイトモジュールにメトリック値付きのデータセットを提供し、しきい値設定に基づくインタラクティブな視覚化を作成します

%matplotlib ipympl
import pandas as pd

# Load the results dataframe from the sample file
df = pd.read_csv("../data/rag/sample_metrics.csv")

# Find the violated records and display them
model_insights.display_metrics(metrics_result=df)

詳細は、 Model Insightsノートブックを参照してください。

親トピック: Python SDK を使用したメトリクスの計算