Avec Evaluation Studio, vous pouvez évaluer et comparer vos actifs d'IA générative à l'aide de mesures quantitatives et de critères personnalisables adaptés à vos cas d'utilisation. Évaluez les performances de plusieurs actifs simultanément et consultez les analyses comparatives des résultats pour identifier les meilleures solutions.
Vous pouvez utiliser Evaluation Studio pour rationaliser votre processus de développement d'IA générative en automatisant le processus d'évaluation de plusieurs ressources d'IA pour différents types de tâches. Au lieu d'examiner individuellement chaque modèle d'invite et de comparer manuellement leurs performances, vous pouvez configurer une seule expérience pour évaluer simultanément plusieurs modèles d'invite, ce qui permet de gagner du temps lors du développement.
Les fonctionnalités suivantes sont incluses dans Evaluation Studio pour vous aider à évaluer et à comparer les modèles d'invite afin d'identifier les actifs les plus performants pour vos besoins :
Configuration d'expérience personnalisable
- Choisissez parmi différents types de tâches pour répondre à vos besoins spécifiques.
- Téléchargez les données de test en sélectionnant les ressources du projet.
- Sélectionnez jusqu'à cinq modèles d'invite pour les évaluer et les comparer.
- Choisissez des dimensions d'évaluation pour configurer des mesures spécifiques à une tâche.
Analyse flexible des résultats
- Visualisez les résultats sous forme de tableaux ou de graphiques pour faciliter la compréhension.
- Sélectionner des modèles de référence pour faciliter les comparaisons
- Filtrer ou trier les résultats en fonction de paramètres ou de valeurs spécifiques.
- Recherche dans les résultats d'évaluation avec des fourchettes de valeurs.
- Comparez plusieurs modèles d'invite côte à côte à l'aide de graphiques.
- Saisir automatiquement les détails de l'évaluation dans les AI Factsheets pour suivre les performances dans les cas d'utilisation de l'IA.
- Créez des classements personnalisés pour hiérarchiser les résultats les plus importants pour votre cas d'utilisation.
- Ajoutez ou supprimez les modèles d'invite des expériences et relancez les évaluations pour effectuer de nouvelles comparaisons.
Exigences
Vous pouvez comparer des ressources d'IA dans Evaluation Studio si vous remplissez les conditions suivantes :
Rôles obligatoires
Vous devez avoir le rôle Service access : Reader dans watsonx.governance pour utiliser Evaluation Studio. Vous devez également avoir le rôle d' administrateur ou d' éditeur pour votre projet et le rôle de rédacteur pour le seau de Cloud Object Storage que vous utilisez pour votre projet.
Plans de service
Evaluation Studio est limité à certains plans de service et centres de données. Pour plus de détails, consultez les plans de service de watsonx.ai Studio et la disponibilité régionale des services et des fonctionnalités.
Modèles d'invite
Les restrictions suivantes s'appliquent actuellement lorsque vous évaluez et comparez des modèles d'invite dans Evaluation Studio :
- Les évaluations de modèles d'invite ne peuvent être exécutées que dans le cadre de projets.
- Les résultats de l'évaluation du modèle d'invite affichent toujours les détails de la dernière évaluation exécutée.
- Vous ne pouvez pas lancer l'évaluation d'un modèle d'invite si une évaluation est toujours en cours pour le même modèle d'invite.
- Vous devez évaluer au moins deux modèles d'invite.
- Les modèles d'invite détachés ne peuvent pas être évalués.
- Les modèles d'invite doivent se trouver dans le même projet.
- Les modèles d'invite doivent avoir le même nombre et le même nom de variables.
- Les modèles d'invite doivent être associés au même nom de colonne dans les données de test.
- Les modèles d'invite ne peuvent être importés ou exportés pour aucun type de modèle.
- Le même type de tâche doit être associé à chaque modèle d'invite.
- Les types de tâches suivants sont pris en charge pour les modèles d'invite :
- Classification
- Récapitulation
- Génération
- Réponse aux questions
- Extraction d'entités
- Récupération-Génération augmentée
Chaque modèle d'invite peut être associé au même modèle de fondation ou à des modèles différents.
Données de test
Les données de test que vous téléchargez doivent contenir des colonnes de sortie et d'entrée de référence pour chaque variable d'invite. Les colonnes de sortie de référence sont utilisées pour calculer les mesures basées sur la référence telles que ROUGE et BLEU. Pour plus d'informations, voir Gestion des données de retour d'information.
Utilisation des ressources
Les ressources nécessaires à l'utilisation d'Evaluation Studio sont calculées par expérience. Chaque évaluation que vous effectuez est calculée comme une expérience. Un plus grand nombre de modèles de messages, de dossiers d'évaluation et de dimensions de suivi nécessite davantage de ressources par expérience.
La section suivante explique comment évaluer et comparer les ressources d'IA avec Evaluation Studio :
Comparer et évaluer plusieurs actifs d'IA
Vous pouvez suivre les étapes suivantes pour évaluer et comparer les actifs avec Evaluation Studio :
- Sélectionnez la tâche d'évaluation.
- Dans l'onglet Assets de votre projet watsonx.governance, sélectionnez New asset.
- Dans la fenêtre Que voulez-vous faire, sélectionnez la tuile de tâche Évaluer et comparer les invites.
- Mettre en place l'évaluation. Lorsque l'assistant Évaluation et comparaison des invites s'ouvre et affiche les types de tâches disponibles pour les évaluations, indiquez un nom d'évaluation et sélectionnez le type de tâche associé aux modèles d'invites que vous souhaitez évaluer.
- Sélectionnez les modèles d'invite de votre projet que vous souhaitez évaluer et comparer.
- Sélectionner des métriques.
Watsonx.governance sélectionne automatiquement les indicateurs disponibles pour le type de tâche des modèles d'invite et configure les paramètres par défaut pour chaque indicateur. Vous pouvez modifier les sélections métriques ou sélectionner Configurer pour configurer vos évaluations avec des paramètres personnalisés. - Sélectionnez les données de test en choisissant un élément de votre projet.
Lorsque vous sélectionnez des données de test, watsonx.governance détecte automatiquement les colonnes qui sont associées à vos variables promptes. - Examiner et exécuter l'évaluation.
- Avant d'exécuter l'évaluation du modèle d'invite, vous pouvez passer en revue les sélections relatives au type de tâche, aux données de test téléchargées, aux métriques et au type d'évaluation qui s'exécute.
- Après avoir exécuté votre évaluation, vous pouvez sélectionner Afficher les travaux pour consulter une liste indiquant le statut de l'évaluation en cours et les évaluations précédentes que vous avez effectuées.
- Examiner la comparaison des mesures.
- Une fois l'évaluation terminée, vous pouvez afficher des visualisations de données qui comparent les résultats pour chaque modèle d'invite que vous avez sélectionné. Les visualisations indiquent si les scores dépassent les seuils pour chaque mesure. Les résultats sont également affichés dans un tableau que vous pouvez utiliser pour analyser les résultats en sélectionnant, en filtrant ou en classant les mesures que vous souhaitez visualiser pour vos actifs.
- Pour effectuer des comparaisons, sélectionnez un actif de référence afin de mettre en évidence les colonnes du tableau qui indiquent si d'autres actifs affichent des performances supérieures ou inférieures à celles de l'actif que vous sélectionnez.
- Pour analyser les résultats, vous pouvez également créer un classement personnalisé des mesures dans différents groupes en spécifiant des facteurs de pondération et une formule de classement afin de déterminer les modèles d'invite les plus performants.
- Si vous souhaitez réexécuter les évaluations, cliquez sur Ajuster les paramètres dans le volet Détails de l'évaluation pour mettre à jour les données de test ou reconfigurer les métriques.
- Si vous souhaitez modifier l'expérience, cliquez sur Edit Assets pour supprimer ou ajouter des actifs à votre évaluation afin de modifier votre comparaison.
Etapes suivantes
Vous venez de créer un nouveau poste d'évaluation de l'IA dans votre projet. Vous pouvez rouvrir la ressource dans votre projet pour la modifier ou réaliser de nouvelles expériences.
En savoir plus
Sujet parent : Évaluation des modèles d'IA.