Vous pouvez évaluer les modèles d'invite dans les projets avec watsonx.governance pour mesurer la performance des tâches du foundation model et comprendre comment votre modèle génère des réponses.
Avec watsonx.governance, vous pouvez évaluer les modèles d'invite dans les projets afin de mesurer l'efficacité avec laquelle vos modèles de base génèrent des réponses pour les types de tâche suivants:
- Classification
- Récapitulation
- Génération
- Réponse aux questions
- Extraction d'entités
- Récupération-Génération augmentée
Avant de commencer
Vous devez avoir accès à un projet pour évaluer les modèles d'invite. Pour plus d'informations, voir Configuration de watsonx.governance.
Pour exécuter des évaluations, vous devez vous connecter et basculer vers un compte watsonx disposant d'instances watsonx.governance et watsonx.ai installées. Ouvrez ensuite un projet. Vous devez disposer des rôles Admin ou Editeur pour que le compte puisse ouvrir des projets.
Dans votre projet, vous devez utiliser le Prompt Lab watsonx.ai pour créer et enregistrer un modèle d'invite. Vous devez spécifier des variables lorsque vous créez des modèles d'invite pour activer les évaluations. La section Try du Prompt Lab doit contenir au moins une variable.
Regardez cette vidéo pour voir comment évaluer un modèle d'invite dans un projet.
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Les sections suivantes décrivent comment évaluer les modèles d'invite dans les projets et passer en revue vos résultats d'évaluation.
Exécution d'évaluations
Pour exécuter des évaluations de modèle d'invite, vous pouvez cliquer sur Evaluer lorsque vous ouvrez un modèle d'invite sauvegardé dans l'onglet Actifs de watsonx.governance pour ouvrir l'assistant Evaluer le modèle d'invite . Vous pouvez exécuter des évaluations uniquement si vous disposez des rôles Admin ou Editeur pour votre projet.
Sélectionner des dimensions
L'assistant Evaluer le modèle d'invite affiche les dimensions disponibles pour l'évaluation du type de tâche associé à votre invite. Vous pouvez développer les dimensions pour afficher la liste des métriques utilisées pour évaluer les dimensions que vous sélectionnez.
Watsonx.governance configure automatiquement les évaluations pour chaque dimension avec les paramètres par défaut. Pour configurer des évaluations avec différents paramètres, vous pouvez sélectionner Paramètres avancés pour définir la taille des échantillons et sélectionner les mesures que vous souhaitez utiliser pour évaluer votre modèle d'invite :
Vous pouvez également définir des valeurs seuils pour chaque mesure que vous sélectionnez pour vos évaluations :
Sélectionner les données de test
Pour sélectionner les données de test, vous pouvez naviguer pour télécharger un fichier CSV ou sélectionner un actif dans votre projet. Les données de test que vous sélectionnez doivent contenir des colonnes de référence et des colonnes pour chaque variable d'invite.
Mapper les variables
Vous devez faire correspondre les variables d'invite aux colonnes associées de vos données de test.
Réviser et évaluer
Avant d'exécuter l'évaluation de votre modèle d'invite, vous pouvez examiner les sélections pour le type de tâche d'invite, les données de test téléchargées et le type d'évaluation qui s'exécute.
Examen des résultats de l'évaluation
Une fois votre évaluation terminée, vous pouvez consulter un récapitulatif de vos résultats d'évaluation dans l'onglet Evaluer de watsonx.governance pour obtenir des informations sur les performances de votre modèle. Le récapitulatif fournit une vue d'ensemble des scores d'indicateur et des violations des seuils de score par défaut pour vos évaluations de modèle d'invite.
Si vous disposez du rôle Afficheur pour votre projet, vous pouvez sélectionner Evaluer dans la liste des actifs de l'onglet Actifs pour afficher les résultats de l'évaluation.
Pour analyser les résultats, vous pouvez cliquer sur la flèche à côté de l'évaluation de votre modèle d'invite pour afficher des visualisations de données de vos résultats dans le temps. Vous pouvez également analyser les résultats de l'évaluation de la santé du modèle qui est exécutée par défaut lors des évaluations de modèle d'invite afin de comprendre l'efficacité avec laquelle votre modèle traite vos données.
Le menu Actions fournit également les options suivantes pour vous aider à analyser vos résultats:
- Evaluer maintenant: Exécuter l'évaluation avec un autre jeu de données de test
- Toutes les évaluations: affichez un historique de vos évaluations pour comprendre comment vos résultats évoluent au fil du temps.
- Configurer les moniteurs: configurez les seuils d'évaluation et les tailles d'échantillon.
- Afficher les informations sur le modèle: affichez les détails de votre modèle pour comprendre comment votre environnement de déploiement est configuré.
Si vous suivez les modèles d'invite, vous pouvez passer en revue les résultats d'évaluation pour obtenir des informations sur les performances de votre modèle tout au long du cycle de vie de l'IA.
Sujet parent : Évaluation des modèles d'IA.