Configuration des évaluations qualitatives de l'IA générative

Dernière mise à jour : 11 mars 2025

Vous pouvez utiliser les évaluations de qualité de l'IA générative de configuration pour mesurer la qualité des tâches effectuées par votre modèle de base.

Lorsque vous évaluez des modèles d'invite, vous pouvez passer en revue un récapitulatif des résultats d'évaluation de la qualité de l'IA générative pour les types de tâche suivants:

Synthèse de texte
Génération de contenu
Extraction d'entités
Réponse aux questions
Récupération de la génération augmentée (RAG)

Le récapitulatif affiche les scores et les violations pour les indicateurs qui sont calculés avec les paramètres par défaut.

Pour configurer des évaluations de la qualité de l'IA générative avec vos propres paramètres, vous pouvez définir une taille d'échantillon minimale et des valeurs de seuil pour chaque métrique, comme illustré dans l'exemple suivant:

Configurer les évaluations de la qualité de l'IA générative

La taille d'échantillon minimale indique le nombre minimal d'enregistrements de transaction de modèle que vous souhaitez évaluer et les valeurs de seuil créent des alertes lorsque vos scores d'indicateur ne respectent pas vos seuils. Les scores des indicateurs doivent être supérieurs aux valeurs de seuil inférieures pour éviter les violations. Des valeurs de métrique plus élevées indiquent de meilleurs scores.

Vous pouvez également configurer les paramètres pour calculer les métriques avec les modèles LLM-as-a-judge. Les modèles LLM-as-a-judge sont des modèles LLM que vous pouvez utiliser pour évaluer la performance d'autres modèles.

Pour calculer les métriques avec les modèles LLM-as-a-judge, vous devez sélectionner Gérer pour ajouter un système 'generative_ai_evaluator lorsque vous configurez vos paramètres d'évaluation.

Ajout d'un évaluateur d'IA générique pour les évaluations de modèles LLM-as-a-judge

Vous pouvez sélectionner un évaluateur pour calculer la qualité des réponses et la qualité de la recherche.

Sélectionner l'évaluateur de l'IA générique pour l'établissement des métriques

Vous pouvez également utiliser un carnet pour créer un évaluateur lorsque vous configurez vos modèles d'invite et que vous examinez les résultats de l'évaluation pour la tâche RAG dans watsonx.governance

Sujet parent : Évaluer les modèles d'IA

La rubrique a-t-elle été utile ?

0/1000