Configuration des évaluations qualitatives de l'IA générative
Dernière mise à jour : 11 mars 2025
Configuration des évaluations qualitatives de l'IA générative
Vous pouvez utiliser les évaluations de qualité de l'IA générative de configuration pour mesurer la qualité des tâches effectuées par votre modèle de base.
Lorsque vous évaluez des modèles d'invite, vous pouvez passer en revue un récapitulatif des résultats d'évaluation de la qualité de l'IA générative pour les types de tâche suivants:
Synthèse de texte
Génération de contenu
Extraction d'entités
Réponse aux questions
Récupération de la génération augmentée (RAG)
Le récapitulatif affiche les scores et les violations pour les indicateurs qui sont calculés avec les paramètres par défaut.
Pour configurer des évaluations de la qualité de l'IA générative avec vos propres paramètres, vous pouvez définir une taille d'échantillon minimale et des valeurs de seuil pour chaque métrique, comme illustré dans l'exemple suivant:
La taille d'échantillon minimale indique le nombre minimal d'enregistrements de transaction de modèle que vous souhaitez évaluer et les valeurs de seuil créent des alertes lorsque vos scores d'indicateur ne respectent pas vos seuils. Les scores des indicateurs doivent être supérieurs aux valeurs de seuil inférieures pour éviter les violations. Des valeurs de métrique plus élevées indiquent de meilleurs scores.
Vous pouvez également configurer les paramètres pour calculer les métriques avec les modèles LLM-as-a-judge. Les modèles LLM-as-a-judge sont des modèles LLM que vous pouvez utiliser pour évaluer la performance d'autres modèles.
Pour calculer les métriques avec les modèles LLM-as-a-judge, vous devez sélectionner Gérer pour ajouter un système 'generative_ai_evaluator lorsque vous configurez vos paramètres d'évaluation.
Vous pouvez sélectionner un évaluateur pour calculer la qualité des réponses et la qualité de la recherche.
Vous pouvez également utiliser un carnet pour créer un évaluateur lorsque vous configurez vos modèles d'invite et que vous examinez les résultats de l'évaluation pour la tâche RAG dans watsonx.governance
À propos des cookies sur ce sitePour fonctionner correctement, nos sites Internet nécessitent certains cookies (requis). En outre, d'autres cookies peuvent être utilisés avec votre consentement pour analyser l'utilisation d'un site, améliorer l'expérience des utilisateurs et à des fins publicitaires.Pour plus informations, passez en revue vos options de préférences en préférences en matière de cookies. En visitant notre site Web, vous acceptez que nous traitions les informations comme décrit dans ladéclaration de confidentialité d’IBM.Pour faciliter la navigation, vos préférences en matière de cookie seront partagées dans les domaines Web d'IBM énumérés ici.