Vous pouvez évaluer les modèles d'invite détachés dans les projets pour mesurer les performances des modèles de base qui ne sont pas créés ou hébergés par IBM.
Lorsque vous évaluez des modèles d'invite détachés dans des projets, vous pouvez évaluer l'efficacité avec laquelle votre modèle externe génère des réponses pour les types de tâche suivants:
- Synthèse de texte
- Classification de texte
- Réponse aux questions
- Extraction d'entités
- Génération de contenu
- Génération augmentée de récupération
Avant de commencer
Droits d'accès requis
Vous devez disposer des rôles suivants pour évaluer les modèles d'invite: rôle
Admin ou Editeur dans un projet
Avant d'évaluer les modèles d'invite détachés dans votre projet, vous devez créer un modèle d'invite détaché qui connecte votre modèle externe à watsonx.governance. Vous devez spécifier des variables et fournir des détails de connexion tels que le nom de votre modèle externe et son URL lorsque vous créez le modèle d'invite détaché. L'exemple suivant montre comment créer un modèle d'invite détaché avec l'API:
{
"name": "prompt name",
"description": "prompt description",
"model_version": {
"number": "2.0.0-rc.7",
"tag": "my prompt tag",
"description": "my description"
},
"prompt_variables": {
"var1": {},
"var2": {}
},
"task_ids": [
"retrieval_augmented_generation"
],
"input_mode": "detached",
"prompt": {
"model_id": "",
"input": [
[
"Some input",
""
]
],
"data": {},
"external_information": {
"external_prompt_id": "external prompt",
"external_model_id": "external model",
"external_model_provider": "external provider",
"external_prompt": {
"url": "https://asdfasdf.com?asd=a&32=1",
"additional_information": [
{
"additional_key": "additional settings"
}
]
},
"external_model": {
"name": "An external model",
"url": "https://asdfasdf.com?asd=a&32=1"
}
}
}
}
Exécution d'évaluations
Pour exécuter des évaluations de modèle d'invite détaché dans votre projet, vous pouvez ouvrir un modèle d'invite détaché sauvegardé dans l'onglet Actifs et sélectionner Evaluer dans l'onglet Evaluations de watsonx.governance pour ouvrir l'assistant Evaluer le modèle d'invite . Vous pouvez exécuter des évaluations uniquement si vous disposez des rôles Admin ou Editeur pour votre projet.
Sélectionner des dimensions
L'assistant Evaluer le modèle d'invite affiche les dimensions disponibles pour l'évaluation du type de tâche associé à votre invite. Vous pouvez développer les dimensions pour afficher la liste des métriques utilisées pour évaluer les dimensions que vous sélectionnez.
Watsonx.governance configure automatiquement les évaluations pour chaque dimension avec les paramètres par défaut. Pour configurer des évaluations avec des paramètres différents, vous pouvez sélectionner Paramètres avancés afin de définir des tailles d'échantillon et des valeurs de seuil minimales pour chaque métrique, comme illustré dans l'exemple suivant:
Sélectionner les données de test
Vous devez télécharger un fichier CSV contenant des données de test avec des colonnes de référence qui incluent l'entrée et la sortie de modèle attendue. Les données de test que vous téléchargez doivent contenir la sortie de modèle pour activer les évaluations de déploiement détachées. Lorsque le téléchargement est terminé, vous devez également faire correspondre les variables d'invite aux colonnes associées de vos données de test.
Réviser et évaluer
Vous pouvez passer en revue les sélections pour le type de tâche d'invite, les données de test téléchargées et le type d'évaluation qui s'exécute. Vous devez sélectionner Evaluer pour exécuter l'évaluation.
Examen des résultats de l'évaluation
Une fois votre évaluation terminée, vous pouvez consulter un récapitulatif de vos résultats d'évaluation dans l'onglet Evaluations de watsonx.governance pour obtenir des informations sur les performances de votre modèle. Le récapitulatif fournit une vue d'ensemble des scores d'indicateur et des violations des seuils de score par défaut pour vos évaluations de modèle d'invite.
Si vous disposez du rôle Afficheur pour votre projet, vous pouvez sélectionner Evaluer dans la liste des actifs de l'onglet Actifs pour afficher les résultats de l'évaluation.
Pour analyser les résultats, vous pouvez cliquer sur la flèche en regard de l'évaluation de votre modèle d'invite pour afficher les visualisations de données de vos résultats dans le temps. Vous pouvez également analyser les résultats de l'évaluation de la santé du modèle qui est exécutée par défaut lors des évaluations de modèle d'invite afin de comprendre l'efficacité avec laquelle votre modèle traite vos données.
Le menu Actions fournit également les options suivantes pour vous aider à analyser vos résultats:
- Evaluer maintenant: Exécuter l'évaluation avec un autre jeu de données de test
- Toutes les évaluations: affichez un historique de vos évaluations pour comprendre comment vos résultats évoluent au fil du temps.
- Configurer les moniteurs: configurez les seuils d'évaluation et les tailles d'échantillon.
- Afficher les informations sur le modèle: affichez les détails de votre modèle pour comprendre comment votre environnement de déploiement est configuré.
Etapes suivantes
Vous pouvez promouvoir vos modèles d'invite dans des espaces de déploiement pour évaluer les modèles d'invite détachés dans les espaces afin d'obtenir des informations sur les performances de votre modèle tout au long du cycle de vie de l'IA.
En savoir plus
Si vous suivez le déploiement détaché dans un cas d'utilisation de l'IA, les détails du modèle et les résultats de l'évaluation sont consignés dans une fiche d'information.