Suivez ce didacticiel pour apprendre à comparer plusieurs invites dans le Studio d'évaluation. Avec Evaluation Studio, vous pouvez évaluer et comparer vos actifs d'IA générative à l'aide de mesures quantitatives et de critères personnalisables adaptés à vos cas d'utilisation. Évaluez les performances de plusieurs actifs simultanément et consultez les analyses comparatives des résultats pour identifier les meilleures solutions.
- Services requis
- watsonx.ai
- watsonx.governance
- watsonx.ai Runtime
- Rôles requis
- Accès au niveau de service de Watsonx.governance Rôle du lecteur
- Pour votre projet : Rôles d'administrateur ou de rédacteur
- Panier de Cloud Object Storage utilisé pour votre projet : Rôle de rédacteur
Votre flux de travaux de base inclut les tâches suivantes :
- Ouvrez un projet contenant les modèles d'invite à évaluer. Les projets sont l'endroit où vous pouvez collaborer avec d'autres personnes pour travailler avec des actifs.
- Créez une expérience dans le Studio d'évaluation.
- Examinez les résultats.
En savoir plus sur Evaluation Studio
Vous pouvez utiliser Evaluation Studio pour rationaliser votre développement d'IA générative en automatisant le processus d'évaluation de plusieurs ressources d'IA pour différents types de tâches. Au lieu d'examiner individuellement chaque modèle d'invite et de comparer manuellement leurs performances, vous pouvez configurer une seule expérience pour évaluer simultanément plusieurs modèles d'invite, ce qui permet de gagner du temps lors du développement.
Les fonctionnalités suivantes sont incluses dans Evaluation Studio pour vous aider à évaluer et à comparer les modèles d'invite afin d'identifier les actifs les plus performants pour vos besoins :
- Configuration d'expérience personnalisable
- Analyse flexible des résultats
Regarder une vidéo sur Evaluation Studio
Regardez cette vidéo pour prévisualiser les étapes de ce tutoriel. Il peut y avoir de légères différences dans l'interface utilisateur présentée dans la vidéo. La vidéo est destinée à accompagner le tutoriel écrit.
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Essayez un didacticiel avec Evaluation Studio
Dans ce tutoriel, vous exécutez les tâches suivantes :
- Tâche 1 : Créer l'exemple de projet
- Tâche 2 : Créer l'expérience du studio d'évaluation
- Tâche 3 : Examiner les résultats dans Evaluation Studio
Conseils pour compléter ce tutoriel
Voici quelques conseils pour réussir ce tutoriel.
Utiliser l'image dans l'image vidéo
L'image animée suivante montre comment utiliser les fonctions d'image dans l'image et de table des matières :
Obtenir de l'aide dans la communauté
Si vous avez besoin d'aide avec ce tutoriel, vous pouvez poser une question ou trouver une réponse dans le forum de discussion de la Communauté watsonx.
Configurez les fenêtres de votre navigateur
Pour une expérience optimale de ce tutoriel, ouvrez Cloud Pak for Data dans une fenêtre de navigateur, et gardez cette page de tutoriel ouverte dans une autre fenêtre de navigateur pour passer facilement d'une application à l'autre. Envisagez de placer les deux fenêtres du navigateur côte à côte pour faciliter le suivi.
Tâche 1 : Créer l'exemple de projet
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 00:16.
Le centre de ressources comprend un exemple de projet qui contient des modèles d'invite que vous pouvez comparer dans le studio d'évaluation. Suivez les étapes suivantes pour créer un projet basé sur un échantillon :
Dans l'écran d'accueil, cliquez sur l'icône Créer un nouveau projet
.
Sélectionner l' échantillon.
Recherchez
Getting started with watsonx.governance
, sélectionnez cet exemple de projet et cliquez sur Next.Choisissez une instance de service object storage existante ou crée en une nouvelle.
Cliquez sur Créer.
Attendez que l'importation du projet soit terminée, puis cliquez sur Afficher le nouveau projet.
Associer un service d'exécution watsonx.ai au projet. Pour plus d'informations, voir watsonx.ai Runtime.
Lorsque le projet s'ouvre, cliquez sur l'onglet Gérer et sélectionnez la page Services et intégrations.
Dans l'onglet Services IBM, cliquez sur Associer un service.
Sélectionnez votre instance d'exécution watsonx.ai Si vous n'avez pas encore provisionné d'instance de service watsonx.ai Runtime, suivez ces étapes :
Cliquez sur Nouveau service.
Sélectionnez watsonx.ai Runtime.
Cliquez sur Créer.
Sélectionnez la nouvelle instance de service dans la liste.
Cliquez sur Associer un service.
Si nécessaire, cliquez sur Annuler pour revenir à la page Services et intégrations.
Cliquez sur l'onglet Actifs dans le projet pour voir les exemples d'actifs.
Pour plus d'informations ou pour regarder une vidéo, voir Création d'un projet. Pour plus d'informations sur les services associés, voir Ajout de services associés.
Vérifiez vos progrès
L'image suivante montre l'onglet Actifs du projet. Vous êtes maintenant prêt à créer l'expérience.
Tâche 2 : Créer l'expérience du studio d'évaluation
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 01:11.
Pour comparer les performances des aides, vous devez créer une expérience dans Evaluation Studio. Suivez les étapes suivantes pour créer l'expérience :
Dans l'onglet Actifs, cliquez sur Nouvel actif > Évaluer et comparer les invites.
Sur la page de configuration, tapez
Summarization Evaluation experiment
pour le nom.Sélectionnez un type de tâche. Dans ce cas, vous souhaitez comparer les modèles d'invite de compression ; sélectionnez donc Compression.
Cliquez sur Next (Suivant) pour passer à la page Prompt templates (Modèles d'invite).
Sélectionnez les modèles d'invite Résumé de la demande d'assurance, 2 Résumé de la demande d'assurance et 3 Résumé de la demande d'assurance.
Notez que ces trois modèles d'invite incluent des variables d' entrée, ce qui est une exigence du studio d'évaluation.
Cliquez sur Next (Suivant) pour continuer à accéder à la page Metrics (Mesures).
Développez les sections Qualité de l'IA générative et Santé du modèle pour passer en revue les paramètres qui seront utilisés dans l'évaluation.
Cliquez sur Next (Suivant) pour passer à la page Test data (Données de test).
Sélectionnez les données de test :
Cliquez sur Sélectionner les données du projet.
Sélectionnez Project file > Insurance claim summarization test data.csv.
Les données de test que vous téléchargez doivent contenir des colonnes de sortie et d'entrée de référence pour chaque variable d'invite. Les colonnes de sortie de référence sont utilisées pour calculer les mesures basées sur la référence telles que ROUGE et BLEU.
Cliquez sur Sélectionner.
Dans la colonne Entrée, sélectionnez Insurance_Claim.
Pour la colonne de sortie Référence, sélectionnez Synthèse.
Cliquez sur Suivant pour passer à la page Révision et exécution.
Examinez la configuration et cliquez sur Exécuter l'évaluation. Les évaluations peuvent prendre quelques minutes.
Vérifiez vos progrès
L'image suivante montre les résultats de l'évaluation. Vous pouvez maintenant examiner les résultats.
Tâche 3 : Examiner les résultats dans Evaluation Studio
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 02:26.
Vous êtes maintenant prêt à évaluer et à comparer les actifs de l'IA. Suivez les étapes suivantes pour examiner les résultats dans Evaluation Studio :
Une fois l'évaluation terminée, vous pouvez visualiser les comparaisons de métriques.
Les graphiques comparent les résultats pour chaque modèle d'invite que vous avez sélectionné. La visualisation indique si les scores dépassent les seuils pour chaque mesure.
Cliquez sur la liste des enregistrements pour sélectionner une autre mesure. Par exemple, sélectionnez Analyse du contenu pour voir les mises à jour du graphique en fonction de l'indicateur sélectionné.
Survolez une barre du graphique pour en voir les détails.
Examinez le tableau situé sous la visualisation, qui présente les trois modèles d'invite. Remarquez que chacune des invites utilise un foundation model différent.
Pour effectuer des comparaisons, cliquez sur l'icône Définir comme référence
à côté d'un modèle d'invite.
La définition du modèle de référence met en évidence les colonnes du tableau pour indiquer si d'autres actifs affichent des performances supérieures ou inférieures à celles de l'actif que vous sélectionnez.
Cliquez sur l'icône de classement personnalisé
.
Pour analyser les résultats, vous pouvez également créer un classement personnalisé des mesures dans différents groupes en spécifiant des facteurs de pondération et une formule de classement afin de déterminer les modèles d'invite les plus performants. Lorsque vous créez un classement personnalisé, vous pouvez sélectionner des indicateurs pertinents pour votre classement et leur attribuer un facteur de pondération. Cliquez sur Annuler.
Pour relancer les évaluations, cliquez sur l'icône Ajuster les paramètres
. Utilisez le volet Détails de l'évaluation pour mettre à jour les données du test ou reconfigurer les métriques.
Pour modifier l'expérience, cliquez sur l'icône Actifs
pour supprimer ou ajouter des actifs à votre évaluation afin de modifier votre comparaison.
Dans le tableau, cliquez sur le menu Débordement
en regard d'un modèle d'invite, puis choisissez Afficher la fiche d'information AI. Les fiches d'information contiennent des détails sur le bien à chaque étape du cycle de vie de l'IA afin de vous aider à atteindre vos objectifs de gouvernance et de conformité.
Fermez la page de la fiche d'information sur l'IA pour revenir au studio d'évaluation.
À partir de là, vous pouvez commencer à suivre un modèle d'invite dans un cas d'utilisation de l'IA. Dans le tableau, cliquez sur le menu Débordement
en regard d'un modèle d'invite et choisissez Suivre dans le cas d'utilisation AI.
Vérifiez vos progrès
L'image suivante montre les résultats de l'évaluation.
En savoir plus
Pour plus d'informations, reportez-vous aux rubriques suivantes :
Etapes suivantes
Essayez l'un des autres tutoriels :
- Évaluer et suivre un modèle d'invite
- Promouvoir un foundation model à l'aide de Prompt Lab
- Promouvoir un foundation model à l'aide du tutoriel sur les modèles de génération augmentés par la recherche
- Mise au point d'un foundation model
- Évaluer un modèle d'apprentissage automatique
- Autres tutoriels sur les cas d'utilisation de watsonx.ai
Ressources supplémentaires
Afficher plus de vidéos.
Vous trouverez des exemples d'ensembles de données, de projets, de modèles, de messages-guides et de carnets de notes dans le centre de ressources pour acquérir une expérience pratique :
Notebooks que vous pouvez ajouter à votre projet pour commencer à analyser des données et à construire des modèles.
Projets que vous pouvez importer et qui contiennent des carnets de notes, des ensembles de données, des invites et d'autres ressources.
Ensembles de données que vous pouvez ajouter à votre projet pour affiner, analyser et construire des modèles.
Invitations que vous pouvez utiliser dans le Prompt Lab pour inviter un foundation model.
Modèles de fondation que vous pouvez utiliser dans le Prompt Lab
Sujet parent : Tutoriels de démarrage rapide