0 / 0
Retourner à la version anglaise de la documentation
Evaluation des modèles d'invite dans les espaces de déploiement
Dernière mise à jour : 16 janv. 2025
Evaluation des modèles d'invite dans les espaces de déploiement

Vous pouvez évaluer les modèles d'invite dans les espaces de déploiement avec le service watsonx.governance pour mesurer les performances des tâches du foundation model et comprendre comment votre modèle génère des réponses.

Avec watsonx.governance, vous pouvez évaluer les modèles d'invite dans les espaces de déploiement afin de mesurer l'efficacité avec laquelle vos modèles de base génèrent des réponses pour les types de tâche suivants:

  • Classification
  • Récapitulation
  • Génération
  • Réponse aux questions
  • Extraction d'entités
  • Récupération-Génération augmentée

Les modèles d'invite sont des entrées d'invite enregistrées pour les modèles de base. Vous pouvez évaluer les déploiements de modèle d'invite dans les espaces de préproduction et de production.

Vous pouvez évaluer les modèles d'invite pour mesurer les performances des modèles de fondation personnalisésBringYourOwnModel) ou adaptés.

Avant de commencer

Droits requis
Vous devez disposer des rôles suivants pour évaluer les modèles d'invite: rôle
Admin ou Editeur dans un espace de déploiement

Dans votre projet, vous devez également créer et enregistrer un modèle d'invite et promouvoir un modèle d'invite dans un espace de déploiement. Vous devez spécifier au moins une variable lorsque vous créez des modèles d'invite pour activer les évaluations.

Évaluation des modèles d'invite à l'aide de modèles personnalisés ou adaptés

Vous pouvez évaluer les modèles d'invite qui utilisent des déploiements de foundation model personnalisés ou adaptés dans un espace de déploiement. Vous pouvez également gérer et déployer ces modèles lorsque vous les déplacez entre différents espaces. Pour plus d'informations, voir Déploiement programmé d'un modèle d'invite.

Les sections suivantes décrivent comment évaluer les modèles d'invite dans les espaces de déploiement et passer en revue vos résultats d'évaluation:

Evaluation des modèles d'invite dans les espaces de préproduction

Exécuter une évaluation

Pour exécuter des évaluations de modèle d'invite, vous pouvez cliquer sur Evaluer dans l'onglet Evaluations lorsque vous ouvrez un déploiement pour ouvrir l'assistant Evaluer le modèle d'invite . Vous pouvez exécuter des évaluations uniquement si vous disposez des rôles Admin ou Editeur pour votre espace de déploiement.

Exécuter l'évaluation du modèle d'invite

Si vous ne disposez pas d'une base de données associée à votre instance watsonx.governance , vous devez également associer une base de données pour pouvoir exécuter des évaluations. Pour associer une base de données, vous devez également cliquer sur Associer une base de données dans la boîte de dialogue Base de données requise pour vous connecter à une base de données. Vous devez disposer du rôle Admin pour votre espace de déploiement et l'instance watsonx.governance pour associer des bases de données.

Association de la base de données watsonx.governance à l'espace de déploiement

Sélectionner des dimensions

L'assistant Evaluer le modèle d'invite affiche les dimensions disponibles pour l'évaluation du type de tâche associé à votre invite. Vous pouvez développer les dimensions pour afficher la liste des métriques utilisées pour évaluer les dimensions que vous sélectionnez.

Sélectionner les dimensions à évaluer

Watsonx.governance configure automatiquement les évaluations pour chaque dimension avec les paramètres par défaut. Pour configurer les évaluations avec différents paramètres, vous pouvez sélectionner Paramètres avancés pour définir la taille des échantillons et sélectionner les paramètres que vous souhaitez utiliser pour évaluer votre modèle d'invite :

Sélectionner les indicateurs à évaluer

Vous pouvez également définir des valeurs seuils pour chaque mesure que vous sélectionnez pour vos évaluations :

Configurer les évaluations

Sélectionner les données de test

Pour sélectionner des données de test, vous pouvez naviguer pour télécharger un fichier CSV ou sélectionner un bien dans votre espace de déploiement. Les données de test que vous sélectionnez doivent contenir des colonnes de référence et des colonnes pour chaque variable d'invite.

Sélectionner les données de test

Mapper les variables

Vous devez faire correspondre les variables d'invite aux colonnes associées de vos données de test.

Cartographier les données de test

Réviser et évaluer

Vous pouvez passer en revue les sélections pour le type de tâche d'invite, les données de test téléchargées et le type d'évaluation qui s'exécute. Vous devez sélectionner Evaluer pour exécuter l'évaluation.

Réviser et évaluer les paramètres d'évaluation du modèle d'invite

Examen des résultats de l'évaluation

Une fois votre évaluation terminée, vous pouvez consulter un récapitulatif de vos résultats d'évaluation dans l'onglet Evaluations de watsonx.governance pour obtenir des informations sur les performances de votre modèle. Le récapitulatif fournit une vue d'ensemble des scores d'indicateur et des violations des seuils de score par défaut pour vos évaluations de modèle d'invite.

Pour analyser les résultats, vous pouvez cliquer sur la flèche flèche de navigation à côté de l'évaluation de votre modèle d'invite pour afficher des visualisations de données de vos résultats dans le temps. Vous pouvez également analyser les résultats de l'évaluation de la santé du modèle qui est exécutée par défaut lors des évaluations de modèle d'invite afin de comprendre l'efficacité avec laquelle votre modèle traite vos données.

Le menu Actions fournit également les options suivantes pour vous aider à analyser vos résultats:

  • Evaluer maintenant: Exécuter l'évaluation avec un autre jeu de données de test
  • Toutes les évaluations: affichez un historique de vos évaluations pour comprendre comment vos résultats évoluent au fil du temps.
  • Configurer les moniteurs: configurez les seuils d'évaluation et les tailles d'échantillon.
  • Afficher les informations sur le modèle: affichez les détails de votre modèle pour comprendre comment votre environnement de déploiement est configuré.

Analyser les résultats de l'évaluation du modèle d'invite

Si vous suivez vos modèles d'invite, vous pouvez passer en revue les résultats de l'évaluation pour obtenir des informations sur les performances de votre modèle tout au long du cycle de vie de l'IA.

Evaluation des modèles d'invite dans les espaces de production

Activer l'évaluation

Pour exécuter des évaluations de modèle d'invite, vous pouvez cliquer sur Activer dans l'onglet Evaluations lorsque vous ouvrez un déploiement pour ouvrir l'assistant Evaluer le modèle d'invite .

Exécuter l'évaluation du modèle d'invite

Si vous ne disposez pas d'une instance watsonx.governance associée à votre espace de déploiement, vous devez sélectionner Associer une instance de service dans la boîte de dialogue Associer une instance de service pour pouvoir exécuter des évaluations. Dans la fenêtre Associer une instance pour l'évaluation , vous devez choisir l'instance watsonx.governance que vous souhaitez utiliser et sélectionner Associer une instance de service pour associer une instance à votre espace de déploiement. Vous devez disposer du rôle Admin pour que votre espace de déploiement puisse associer des instances.

Association d'une instance watsonx.governance

Si vous ne disposez pas d'une base de données associée à votre instance watsonx.governance , vous devez également associer une base de données pour pouvoir exécuter des évaluations. Pour associer une base de données, vous devez également cliquer sur Associer une base de données dans la boîte de dialogue Base de données requise pour vous connecter à une base de données. Vous devez disposer du rôle Admin pour votre espace de déploiement et l'instance watsonx.governance pour associer des bases de données.

Associez la base de données watsonx.governance au projet

Sélectionner des dimensions

L'assistant Evaluer le modèle d'invite affiche les dimensions disponibles pour l'évaluation du type de tâche associé à votre invite. Vous pouvez indiquer un nom de colonne de libellé pour la sortie de référence que vous spécifiez dans vos données de retour. Vous pouvez également développer les dimensions pour afficher la liste des métriques utilisées pour évaluer les dimensions que vous sélectionnez.

Sélectionner les dimensions à évaluer

Watsonx.governance configure automatiquement les évaluations pour chaque dimension avec les paramètres par défaut. Pour configurer les évaluations avec différents paramètres, vous pouvez sélectionner Paramètres avancés pour définir la taille des échantillons et sélectionner les paramètres que vous souhaitez utiliser pour évaluer votre modèle d'invite :

Sélectionner les indicateurs à évaluer

Vous pouvez également définir des valeurs seuils pour chaque mesure que vous sélectionnez pour vos évaluations :

Configurer les évaluations

Réviser et évaluer

Vous pouvez passer en revue les sélections pour le type de tâche d'invite et le type d'évaluation qui s'exécute. Vous pouvez également sélectionner Afficher le schéma de contenu ou Afficher le schéma de commentaires en retour pour vérifier que les noms de colonne correspondent aux noms de variable d'invite dans le modèle d'invite. Vous devez sélectionner Activer pour exécuter l'évaluation.

Réviser et évaluer les sélections

Pour générer des résultats d'évaluation, sélectionnez Evaluer maintenant dans le menu Actions pour ouvrir la fenêtre Importer les données de test lorsque la page récapitulative de l'évaluation s'affiche.

Sélectionner l'évaluation maintenant

Importer des données de test

Dans la fenêtre Importer les données de test , vous pouvez sélectionner Télécharger les données de contenu ou Télécharger les données de retour pour télécharger un fichier CSV contenant des colonnes libellées qui correspondent aux colonnes de votre contenu et de vos schémas de retour.

Importer des données de test

Une fois le téléchargement terminé, vous pouvez sélectionner Evaluer maintenant pour exécuter votre évaluation.

Examen des résultats de l'évaluation

Une fois votre évaluation terminée, vous pouvez consulter un récapitulatif de vos résultats d'évaluation dans l'onglet Evaluations de watsonx.governance pour obtenir des informations sur les performances de votre modèle. Le récapitulatif fournit une vue d'ensemble des scores d'indicateur et des violations des seuils de score par défaut pour vos évaluations de modèle d'invite.

Pour analyser les résultats, vous pouvez cliquer sur la flèche flèche de navigation à côté de l'évaluation de votre modèle d'invite pour afficher des visualisations de données de vos résultats dans le temps. Vous pouvez également analyser les résultats de l'évaluation de la santé du modèle qui est exécutée par défaut lors des évaluations de modèle d'invite afin de comprendre l'efficacité avec laquelle votre modèle traite vos données.

Le menu Actions fournit également les options suivantes pour vous aider à analyser vos résultats:

  • Evaluer maintenant: Exécuter l'évaluation avec un autre jeu de données de test
  • Configurer les moniteurs: configurez les seuils d'évaluation et les tailles d'échantillon.
  • Afficher les informations sur le modèle: affichez les détails de votre modèle pour comprendre comment votre environnement de déploiement est configuré.

Analyser les résultats de l'évaluation du modèle d'invite

Si vous suivez vos modèles d'invite, vous pouvez examiner les résultats de l'évaluation pour obtenir des informations sur les performances de votre modèle tout au long du cycle de vie de l'IA.