Evaluation des modèles d'invite détachés dans les projets
Dernière mise à jour : 03 déc. 2024
Evaluation des modèles d'invite détachés dans les projets
Vous pouvez évaluer les modèles d'invite détachés dans les projets pour mesurer les performances des modèles de base qui ne sont pas créés ou hébergés par IBM.
Lorsque vous évaluez des modèles d'invite détachés dans des projets, vous pouvez évaluer l'efficacité avec laquelle votre modèle externe génère des réponses pour les types de tâche suivants:
Synthèse de texte
Classification de texte
Réponse aux questions
Extraction d'entités
Génération de contenu
Génération augmentée de récupération
Avant de commencer
Copy link to section
Droits d'accès requis Vous devez disposer des rôles suivants pour évaluer les modèles d'invite: rôle Admin ou Editeur dans un projet
Avant d'évaluer les modèles d'invite détachés dans votre projet, vous devez créer un modèle d'invite détaché qui connecte votre modèle externe à watsonx.governance. Vous devez spécifier des variables et fournir des détails de connexion tels que le nom de votre modèle externe et son URL lorsque vous créez le modèle d'invite détaché. L'exemple suivant montre comment créer un modèle d'invite détaché avec l'API:
Copy to clipboardCopié dans le presse-papiersShow more
Exécution d'évaluations
Copy link to section
Pour exécuter des évaluations de modèle d'invite détaché dans votre projet, vous pouvez ouvrir un modèle d'invite détaché sauvegardé dans l'onglet Actifs et sélectionner Evaluer dans l'onglet Evaluations de watsonx.governance pour ouvrir l'assistant Evaluer le modèle d'invite . Vous pouvez exécuter des évaluations uniquement si vous disposez des rôles Admin ou Editeur pour votre projet.
Sélectionner des dimensions
Copy link to section
L'assistant Evaluer le modèle d'invite affiche les dimensions disponibles pour l'évaluation du type de tâche associé à votre invite. Vous pouvez développer les dimensions pour afficher la liste des métriques utilisées pour évaluer les dimensions que vous sélectionnez.
Watsonx.governance configure automatiquement les évaluations pour chaque dimension avec les paramètres par défaut. Pour configurer des évaluations avec des paramètres différents, vous pouvez sélectionner Paramètres avancés afin de définir des tailles d'échantillon et des valeurs de seuil minimales pour chaque métrique, comme illustré dans l'exemple suivant:
Sélectionner les données de test
Copy link to section
Vous devez télécharger un fichier CSV contenant des données de test avec des colonnes de référence qui incluent l'entrée et la sortie de modèle attendue. Les données de test que vous téléchargez doivent contenir la sortie de modèle pour activer les évaluations de déploiement détachées. Lorsque le téléchargement est terminé, vous devez également faire correspondre les variables d'invite aux colonnes associées de vos données de test.
Réviser et évaluer
Copy link to section
Vous pouvez passer en revue les sélections pour le type de tâche d'invite, les données de test téléchargées et le type d'évaluation qui s'exécute. Vous devez sélectionner Evaluer pour exécuter l'évaluation.
Examen des résultats de l'évaluation
Copy link to section
Une fois votre évaluation terminée, vous pouvez consulter un récapitulatif de vos résultats d'évaluation dans l'onglet Evaluations de watsonx.governance pour obtenir des informations sur les performances de votre modèle. Le récapitulatif fournit une vue d'ensemble des scores d'indicateur et des violations des seuils de score par défaut pour vos évaluations de modèle d'invite.
Si vous disposez du rôle Afficheur pour votre projet, vous pouvez sélectionner Evaluer dans la liste des actifs de l'onglet Actifs pour afficher les résultats de l'évaluation.
Pour analyser les résultats, vous pouvez cliquer sur la flèche en regard de l'évaluation de votre modèle d'invite pour afficher les visualisations de données de vos résultats dans le temps. Vous pouvez également analyser les résultats de l'évaluation de la santé du modèle qui est exécutée par défaut lors des évaluations de modèle d'invite afin de comprendre l'efficacité avec laquelle votre modèle traite vos données.
Le menu Actions fournit également les options suivantes pour vous aider à analyser vos résultats:
Evaluer maintenant: Exécuter l'évaluation avec un autre jeu de données de test
Toutes les évaluations: affichez un historique de vos évaluations pour comprendre comment vos résultats évoluent au fil du temps.
Configurer les moniteurs: configurez les seuils d'évaluation et les tailles d'échantillon.
Afficher les informations sur le modèle: affichez les détails de votre modèle pour comprendre comment votre environnement de déploiement est configuré.
Etapes suivantes
Copy link to section
Vous pouvez promouvoir vos modèles d'invite dans des espaces de déploiement pour évaluer les modèles d'invite détachés dans les espaces afin d'obtenir des informations sur les performances de votre modèle tout au long du cycle de vie de l'IA.