0 / 0
Retourner à la version anglaise de la documentation
Evaluation des modèles d'invite détachés dans les projets
Dernière mise à jour : 03 déc. 2024
Evaluation des modèles d'invite détachés dans les projets

Vous pouvez évaluer les modèles d'invite détachés dans les projets pour mesurer les performances des modèles de base qui ne sont pas créés ou hébergés par IBM.

Lorsque vous évaluez des modèles d'invite détachés dans des projets, vous pouvez évaluer l'efficacité avec laquelle votre modèle externe génère des réponses pour les types de tâche suivants:

  • Synthèse de texte
  • Classification de texte
  • Réponse aux questions
  • Extraction d'entités
  • Génération de contenu
  • Génération augmentée de récupération

Avant de commencer

Droits d'accès requis
Vous devez disposer des rôles suivants pour évaluer les modèles d'invite: rôle
Admin ou Editeur dans un projet

Avant d'évaluer les modèles d'invite détachés dans votre projet, vous devez créer un modèle d'invite détaché qui connecte votre modèle externe à watsonx.governance. Vous devez spécifier des variables et fournir des détails de connexion tels que le nom de votre modèle externe et son URL lorsque vous créez le modèle d'invite détaché. L'exemple suivant montre comment créer un modèle d'invite détaché avec l'API:

{
    "name": "prompt name",
    "description": "prompt description",
    "model_version": {
        "number": "2.0.0-rc.7",
        "tag": "my prompt tag",
        "description": "my description"
    },
    "prompt_variables": {
        "var1": {},
        "var2": {}
    },
    "task_ids": [
        "retrieval_augmented_generation"
    ],
    "input_mode": "detached",
    "prompt": {
        "model_id": "",
        "input": [
            [
                "Some input",
                ""
            ]
        ],
        "data": {},
        "external_information": {
            "external_prompt_id": "external prompt",
            "external_model_id": "external model",
            "external_model_provider": "external provider",
            "external_prompt": {
                "url": "https://asdfasdf.com?asd=a&32=1",
                "additional_information": [
                    {
                        "additional_key": "additional settings"
                    }
                ]
            },
            "external_model": {
                "name": "An external model",
                "url": "https://asdfasdf.com?asd=a&32=1"
            }
        }
    }
}

Exécution d'évaluations

Pour exécuter des évaluations de modèle d'invite détaché dans votre projet, vous pouvez ouvrir un modèle d'invite détaché sauvegardé dans l'onglet Actifs et sélectionner Evaluer dans l'onglet Evaluations de watsonx.governance pour ouvrir l'assistant Evaluer le modèle d'invite . Vous pouvez exécuter des évaluations uniquement si vous disposez des rôles Admin ou Editeur pour votre projet.

Exécuter l'évaluation du modèle d'invite externe

Sélectionner des dimensions

L'assistant Evaluer le modèle d'invite affiche les dimensions disponibles pour l'évaluation du type de tâche associé à votre invite. Vous pouvez développer les dimensions pour afficher la liste des métriques utilisées pour évaluer les dimensions que vous sélectionnez.

Sélectionner les dimensions llm externes à évaluer

Watsonx.governance configure automatiquement les évaluations pour chaque dimension avec les paramètres par défaut. Pour configurer des évaluations avec des paramètres différents, vous pouvez sélectionner Paramètres avancés afin de définir des tailles d'échantillon et des valeurs de seuil minimales pour chaque métrique, comme illustré dans l'exemple suivant:

Configurer les évaluations llm externes

Sélectionner les données de test

Vous devez télécharger un fichier CSV contenant des données de test avec des colonnes de référence qui incluent l'entrée et la sortie de modèle attendue. Les données de test que vous téléchargez doivent contenir la sortie de modèle pour activer les évaluations de déploiement détachées. Lorsque le téléchargement est terminé, vous devez également faire correspondre les variables d'invite aux colonnes associées de vos données de test. Sélectionner les données de test LLM externes à télécharger

Réviser et évaluer

Vous pouvez passer en revue les sélections pour le type de tâche d'invite, les données de test téléchargées et le type d'évaluation qui s'exécute. Vous devez sélectionner Evaluer pour exécuter l'évaluation.

Examiner et évaluer les paramètres d'évaluation du modèle d'invite détaché

Examen des résultats de l'évaluation

Une fois votre évaluation terminée, vous pouvez consulter un récapitulatif de vos résultats d'évaluation dans l'onglet Evaluations de watsonx.governance pour obtenir des informations sur les performances de votre modèle. Le récapitulatif fournit une vue d'ensemble des scores d'indicateur et des violations des seuils de score par défaut pour vos évaluations de modèle d'invite.

Si vous disposez du rôle Afficheur pour votre projet, vous pouvez sélectionner Evaluer dans la liste des actifs de l'onglet Actifs pour afficher les résultats de l'évaluation.

Pour analyser les résultats, vous pouvez cliquer sur la flèche flèche de navigation en regard de l'évaluation de votre modèle d'invite pour afficher les visualisations de données de vos résultats dans le temps. Vous pouvez également analyser les résultats de l'évaluation de la santé du modèle qui est exécutée par défaut lors des évaluations de modèle d'invite afin de comprendre l'efficacité avec laquelle votre modèle traite vos données.

Le menu Actions fournit également les options suivantes pour vous aider à analyser vos résultats:

  • Evaluer maintenant: Exécuter l'évaluation avec un autre jeu de données de test
  • Toutes les évaluations: affichez un historique de vos évaluations pour comprendre comment vos résultats évoluent au fil du temps.
  • Configurer les moniteurs: configurez les seuils d'évaluation et les tailles d'échantillon.
  • Afficher les informations sur le modèle: affichez les détails de votre modèle pour comprendre comment votre environnement de déploiement est configuré.

Analyser les résultats de l'évaluation du modèle d'invite détaché

Etapes suivantes

Vous pouvez promouvoir vos modèles d'invite dans des espaces de déploiement pour évaluer les modèles d'invite détachés dans les espaces afin d'obtenir des informations sur les performances de votre modèle tout au long du cycle de vie de l'IA.

En savoir plus

Si vous suivez le déploiement détaché dans un cas d'utilisation de l'IA, les détails du modèle et les résultats de l'évaluation sont consignés dans une fiche d'information.

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus