0 / 0
Retourner à la version anglaise de la documentation
Évaluer les mesures
Dernière mise à jour : 05 mars 2025
Évaluer les mesures

Le module d'évaluation des métriques peut vous aider à calculer les métriques LLM.

L'évaluation des métriques est un module du ibm-watsonx-gov SDK Python qui contient des méthodes pour calculer les scores pour les mesures de pertinence du contexte, de fidélité et de similarité des réponses. Vous pouvez utiliser les aperçus des modèles pour visualiser les résultats de l'évaluation.

Exemples

Vous pouvez utiliser le module d'évaluation des métriques pour calculer les métriques comme indiqué dans les exemples suivants :

Étape 1 : générer l'objet de configuration AI :

from ibm_watsonx_gov.config import GenAIConfiguration
from ibm_watsonx_gov.metrics import ContextRelevanceMetric, FaithfulnessMetric, AnswerCorrectnessMetric
from ibm_watsonx_gov.entities.enums import TaskType

question_field = "question"
context_field = "contexts"

config = GenAIConfiguration(
    input_fields=[question_field, context_field],
    question_field=question_field,
    context_fields=[context_field],
    output_fields=["answer"],
    reference_fields=["ground_truth", "answer"],
    task_type=TaskType.RAG,
)

metrics = [
    FaithfulnessMetric(method="token_k_precision"),
]

Étape 2 : calculer les métriques

from ibm_watsonx_gov.evaluate import evaluate_metrics

evaluation_result = evaluate_metrics(
    credentials=credentials,
    configuration=config,
    metrics=metrics,
    data=input_df,
    output_format="dataframe",
)

Pour plus d'informations, consultez le cahier de métriques Evaluate.

Sujet parent : Calcul des métriques à l'aide du kit de développement logiciel ( Python )