0 / 0
Retourner à la version anglaise de la documentation
Évaluer les modèles d'IA
Dernière mise à jour : 10 févr. 2025
Évaluer les modèles d'IA

Vous pouvez suivre et mesurer les résultats de vos actifs d'IA pour vous assurer qu'ils sont conformes aux processus métier, quel que soit l'endroit où vos modèles sont construits ou en cours d'exécution.

Vous pouvez utiliser les évaluations de modèles dans le cadre de vos stratégies de gouvernance de l'IA pour vous assurer que les modèles dans les environnements de déploiement respectent les normes de conformité établies, quels que soient les outils et les cadres utilisés pour construire et exécuter les modèles. Cette approche garantit que les modèles ne sont pas biaisés, qu'ils peuvent être facilement expliqués et compris par les utilisateurs professionnels et qu'ils sont vérifiables dans les transactions commerciales.

service requis
watsonx.ai Runtime
Format des données d'apprentissage
Relationnel : tables dans des sources de données relationnelles
Tabulaire : Fichiers Excel (.xls ou .xlsx), fichiers CSV
Textuel : dans les tables ou fichiers relationnels pris en charge
Données connectées
Cloud Object Storage (infrastructure)
Db2
Taille des données
Tous

Avec Watsonx.governance, vous pouvez évaluer les actifs d'IA générative et les modèles d'apprentissage automatique pour obtenir des informations sur les performances du modèle tout au long du cycle de vie de l'IA.

Vous pouvez effectuer les types d'analyses suivants avec watsonx.governance:

  • Qualité
    Évalue dans quelle mesure votre modèle prédit des résultats corrects correspondant à des données de test étiquetées.
  • Équité
    Évalue si votre modèle produit des résultats biaisés qui favorisent un groupe par rapport à un autre.
  • Dérive
    Évalue l'évolution de la précision et de la cohérence des données de votre modèle en comparant les transactions récentes à vos données de formation.
  • Dérive v2
    Évalue les changements dans la sortie de votre modèle, la précision de vos prédictions et la distribution de vos données d'entrée.
  • Santé du modèle
    Évalue l'efficacité avec laquelle le déploiement de votre modèle traite vos transactions.
  • Qualité de l'IA générative
    Mesure l'efficacité avec laquelle votre foundation model exécute les tâches

Lorsque vous activez les évaluations, vous pouvez choisir de les exécuter en continu selon les intervalles programmés par défaut suivants :

Évaluation Calendrier par défaut de l'abonnement en ligne Calendrier par défaut de l'abonnement par lot
Qualité 1 heure 1 semaine
Equité 1 heure 1 semaine
Dérive 3 heures 1 semaine
Dérive v2 1 journée ND
Etat de santé du modèle 1 heure ND
Qualité de l'IA générative 1 heure ND

Les évaluations de l'état des modèles sont activées par défaut lorsque vous fournissez des données utiles pour évaluer les ressources d'IA générative et les modèles d'apprentissage automatique.

Évaluer les actifs de l'IA générative

Vous pouvez évaluer les ressources d'IA générative afin de déterminer dans quelle mesure votre modèle exécute les tâches suivantes :

Classification de texte
Catégoriser le texte en classes ou étiquettes prédéfinies.
Synthèse de texte
Résumer un texte de manière précise et concise.
Génération de contenu
Produire des textes ou d'autres formes de contenu pertinents et cohérents sur la base de vos données.
Réponse aux questions
Fournir des réponses précises et contextuelles à vos questions.
Extraction d'entités
Identifier et catégoriser des segments spécifiques d'information dans un texte.
Récupération-Génération augmentée
Récupérer et intégrer des connaissances externes dans les résultats de vos modèles.

Le type d'évaluation que vous pouvez effectuer est déterminé par le type de tâche que vous voulez que votre modèle exécute. Les évaluations d'IA générative calculent des mesures qui fournissent des informations sur les performances de votre modèle pour ces tâches. Les évaluations de l'équité et de la qualité ne peuvent mesurer la performance que pour les tâches de classification de textes. La dérive v2 et les évaluations génératives de la qualité de l'IA peuvent mesurer les performances pour n'importe quel type de tâche.

Vous pouvez évaluer les actifs des modèles d'invite pour mesurer les performances des modèles construits par IBM ou évaluer les modèles d'invite détachés pour les modèles qui ne sont pas créés ou hébergés par IBM. Vous pouvez effectuer ces évaluations dans des projets et des espaces de déploiement afin d'obtenir des informations sur des actifs individuels dans votre environnement de développement.

Si vous souhaitez évaluer et comparer plusieurs actifs simultanément, vous pouvez réaliser des expériences avec Evaluation Studio pour vous aider à identifier les actifs les plus performants.

Pour effectuer des évaluations, vous devez gérer les données pour les évaluations de modèles en fournissant des données de test qui contiennent des colonnes de référence comprenant les données d'entrée et les résultats attendus du modèle pour chaque actif. Le type de données de test que vous fournissez peut déterminer le type d'évaluation que vous pouvez effectuer. Vous pouvez fournir un retour d'information ou des données utiles pour permettre l'évaluation des ressources d'IA générative. Pour effectuer des évaluations de qualité, vous devez fournir des données de retour afin de mesurer les performances des tâches de classification de texte. Équité et dérive v2 Les évaluations utilisent les données de la charge utile pour mesurer les performances de votre modèle. Les évaluations de la qualité de l'IA générative utilisent des données de retour d'information pour mesurer la performance des tâches d'extraction d'entités.

Les évaluations de la qualité de l'IA générative peuvent utiliser les données de la charge utile et du retour d'information pour calculer les métriques des types de tâches suivants :

  • Synthèse du texte
  • Génération de contenu
  • Réponse aux questions
  • Récupération-Génération augmentée

Les données de la charge utile sont nécessaires pour les tâches de génération augmentées par la recherche.

Évaluer les modèles d'apprentissage automatique

Vous pouvez évaluer les modèles d'apprentissage automatique pour mesurer leur capacité à prédire les résultats. Watsonx.governance prend en charge les évaluations pour les types de modèles d'apprentissage automatique suivants :

Modèles de classification

Prédire des résultats catégoriques sur la base des caractéristiques saisies

  • Classification binaire : Prédire l'un des deux résultats possibles
  • Classification multi-classe : Prédire un résultat parmi plusieurs
modèles de régression

Prévoir des résultats numériques continus

Avec watsonx.governance, vous pouvez évaluer des modèles d'apprentissage automatique dans des espaces de déploiement. Pour effectuer des évaluations, vous devez vous préparer à évaluer les modèles en fournissant des détails sur les données d'apprentissage et les résultats du modèle.

Vous devez également gérer les données pour les évaluations de modèles afin de déterminer le type d'évaluation que vous pouvez exécuter pour générer des informations métriques. Pour effectuer des évaluations de qualité, vous devez fournir des données de retour qui contiennent la même structure et les mêmes colonnes de prédiction que vos données d'apprentissage avec le résultat connu du modèle. Pour effectuer les évaluations de l'équité, de la dérive et de la dérive v2, vous devez fournir des données de charge utile dont la structure correspond à celle des données d'apprentissage.

Watsonx.governance enregistre ces types de données pour calculer les métriques de vos résultats d'évaluation. Vous devez envoyer des transactions modèles pour générer en permanence des résultats précis.

Vous pouvez également créer des évaluations et des mesures personnalisées pour obtenir une plus grande variété d'informations sur les performances de votre modèle. Pour savoir comment votre modèle prédit les résultats, vous pouvez configurer l'explicabilité.

En savoir plus

Rubrique parent: Gouvernance des actifs d'IA