Métriques d'évaluation

Retourner à la version anglaise de la documentation

Dernière mise à jour : 11 mars 2025

Métriques d'évaluation

Les mesures d'évaluation peuvent vous aider à surveiller en permanence les performances de vos modèles d'IA afin de fournir des informations tout au long du cycle de vie de l'IA. Avec watsonx.governance, vous pouvez utiliser ces mesures pour garantir la conformité avec les exigences réglementaires et identifier les améliorations à apporter pour réduire les risques.

Vous pouvez effectuer des évaluations sur Watsonx.governance pour générer des mesures avec un contrôle automatisé qui peut fournir des informations exploitables pour vous aider à atteindre vos objectifs de gouvernance de l'IA. Vous pouvez utiliser ces mesures pour atteindre les objectifs suivants :

Garantissez la conformité : Suivez automatiquement le respect de l'évolution des réglementations et des politiques de l'entreprise grâce à des alertes déclenchées en cas de dépassement des seuils.
Promouvoir la transparence : Produire une documentation détaillée afin de fournir des informations claires sur le comportement et les performances du modèle, ainsi que sur la possibilité d'expliquer les résultats.
Atténuer les risques : Détecter et traiter les problèmes tels que les biais ou la dérive de la précision par une évaluation continue et des évaluations proactives des risques.
Protéger la vie privée et la sécurité : Surveillez les vulnérabilités en matière de sécurité, comme l'exposition aux informations personnelles identifiables (PII), et mettez en place des garde-fous pour empêcher l'utilisation abusive de données sensibles.

Les mesures que vous pouvez utiliser pour obtenir des informations sur les performances de votre modèle sont déterminées par le type d'évaluations que vous activez. Chaque type d'évaluation génère des mesures différentes que vous pouvez analyser pour obtenir des informations.

Vous pouvez également utiliser le ibm-watsonx-gov SDK Python pour calculer des métriques dans un environnement d'exécution de bloc-notes ou déchargées sous forme de tâches Spark sur IBM Analytics Engine pour les évaluations. Le SDK d' Python s est une bibliothèque d' Python s que vous pouvez utiliser pour surveiller, gérer et contrôler par programmation des modèles d'apprentissage automatique. Certains indicateurs peuvent n'être disponibles qu'avec le kit de développement logiciel ( Python ) SDK. Pour plus d'informations, voir Calcul des métriques avec le SDK d' Python.

Mesures d'évaluation de la dérive

Les mesures d'évaluation de la dérive peuvent vous aider à détecter les baisses de précision et de cohérence des données dans vos modèles afin de déterminer dans quelle mesure votre modèle prédit les résultats au fil du temps. Watsonx.governance prend en charge les mesures d'évaluation des dérives suivantes pour l'apprentissage automatique models.:

Tableau 1. Description des mesures d'évaluation de la dérive
Métrique	Descriptif
Baisse de l'exactitude	Estime la baisse de précision de votre modèle au moment de l'exécution par rapport aux données d'apprentissage
Baisse de la cohérence des données	Comparaison des transactions en cours d'exécution avec les modèles de transactions dans les données d'apprentissage afin d'identifier les incohérences

Dérive v2 métriques d'évaluation

Les mesures d'évaluation de la dérive v2 peuvent vous aider à mesurer les changements dans vos données au fil du temps afin de garantir des résultats cohérents pour votre modèle. Vous pouvez utiliser ces mesures pour identifier les changements dans les résultats de votre modèle, la précision de vos prédictions et la distribution de vos données d'entrée. Watsonx.governance prend en charge les paramètres de dérive suivants : v2 :

Tableau 2. Description des mesures d'évaluation de la dérive v2
Métrique	Descriptif
Dérive de l'intégration	Détecte le pourcentage d'enregistrements aberrants par rapport aux données de référence
Dérive des caractéristiques	Mesure le changement dans la distribution des valeurs pour les caractéristiques importantes
Dérive des métadonnées d'entrée	Mesure le changement dans la distribution des métadonnées du texte d'entrée du LLM
Dérive de la qualité du modèle	Compare la précision d'exécution estimée à la précision d'entraînement pour mesurer la baisse de précision.
Dérive de sortie	Mesure le changement dans la distribution de confiance du modèle
Dérive des métadonnées de sortie	Mesure le changement dans la distribution des métadonnées du texte de sortie du LLM.
Dérive des prévisions	Mesure le changement de distribution des classes prédites par le LLM.

Mesures d'évaluation de l'équité

Les mesures d'évaluation de l'équité peuvent vous aider à déterminer si votre modèle produit des résultats biaisés. Vous pouvez utiliser ces mesures pour identifier les cas où votre modèle a tendance à fournir des résultats favorables plus souvent à un groupe qu'à un autre. Watsonx.governance prend en charge les mesures d'évaluation de l'équité suivantes :

Tableau 3. Description des mesures d'évaluation de l'équité
Métrique	Descriptif
Différence des cotes absolues moyennes	Comparaison de la moyenne des différences absolues des taux de faux positifs et des taux de vrais positifs entre les groupes contrôlés et les groupes de référence
Différence moyenne des cotes	Mesure la différence entre les taux de faux positifs et de faux négatifs entre les groupes suivis et les groupes de référence
Impact disparate	Compare le pourcentage de résultats favorables pour un groupe suivi au pourcentage de résultats favorables pour un groupe de référence
Différence de taux d'erreur	Le pourcentage de transactions mal évaluées par votre modèle
Différence de taux de fausses reconnaissances	Le nombre de transactions faussement positives en pourcentage de toutes les transactions avec un résultat positif
Différence de taux de faux négatifs	Le pourcentage de transactions positives qui ont été considérées à tort comme négatives par votre modèle
Différence de taux de fausses omissions	Le nombre de transactions faussement négatives en pourcentage de toutes les transactions avec un résultat négatif
Différence de taux de faux positifs	Le pourcentage de transactions négatives qui ont été incorrectement évaluées comme positives par votre modèle.
Score d'impact	Compare le taux de sélection des groupes suivis pour obtenir des résultats favorables au taux de sélection des groupes de référence pour obtenir des résultats favorables.
Différence de parité statistique	Comparaison du pourcentage de résultats favorables pour les groupes suivis par rapport aux groupes de référence.

Mesures d'évaluation de la qualité de l'IA générative

Les mesures d'évaluation de la qualité de l'IA générative peuvent vous aider à mesurer la qualité des tâches effectuées par votre modèle de base. Watsonx.governance prend en charge les paramètres d'évaluation de la qualité de l'IA générative suivants :

Tableau 4. Description des métriques d'évaluation de la qualité de l'IA générative
Métrique	Descriptif
BLEU (Bilingual Evaluation Understudy)	Compare les phrases traduites par les traductions automatiques aux phrases des traductions de référence afin de mesurer la similarité entre les textes de référence et les prédictions
Correspondance exacte	Compare les chaînes de prédiction du modèle aux chaînes de référence afin de mesurer la fréquence de correspondance des chaînes.
METEOR (Metric for Evaluation of Translation with Explicit ORdering)	Mesure dans quelle mesure le texte généré par les traductions automatiques correspond à la structure du texte à partir des traductions de référence
Lisibilité	Détermine le degré de difficulté de lecture des résultats du modèle en mesurant des caractéristiques telles que la longueur des phrases et la complexité des mots
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)	Mesurer la qualité des résumés ou des traductions générés par rapport aux résultats de référence.
SARI (sortie du système par rapport aux références et à la phrase d'entrée)	Compare le résultat de la phrase prédite au résultat de la phrase de référence pour mesurer la qualité des mots que le modèle utilise pour générer des phrases
Similarité des phrases	Capture les informations sémantiques des enchâssements de phrases pour mesurer la similarité entre les textes
Qualité du texte	Évalue les résultats d'un modèle par rapport à des ensembles de données SuperGLUE en mesurant le score F1, la précision et le rappel par rapport aux prédictions du modèle et à ses données de référence

Watsonx.governance prend également en charge les différentes catégories suivantes de mesures de la qualité de l'IA générative :

Mesures de la qualité des réponses

Vous pouvez utiliser les mesures de qualité des réponses pour évaluer la qualité des réponses du modèle. Les mesures de la qualité des réponses sont calculées à l'aide de modèles LLM-as-a-judge. Pour calculer les métriques avec les modèles LLM-as-a-judge, vous pouvez créer une fonction de notation qui appelle les modèles. Pour plus d'informations, voir le carnet de tâches Computing Answer Quality and Retrieval Quality Metrics using IBM watsonx.governance for RAG (Calcul de la qualité des réponses et des mesures de la qualité de la recherche à l'aide de pour RAG ).

Vous pouvez calculer les paramètres de qualité de réponse suivants :

Tableau 5. Description des mesures d'évaluation de la qualité des réponses
Métrique	Descriptif
Pertinence de la réponse	Mesure le degré de pertinence de la réponse dans la sortie du modèle par rapport à la question posée dans l'entrée du modèle
Réponse similitude	Mesure le degré de similitude entre la réponse ou le texte généré et la vérité de terrain ou la réponse de référence afin de déterminer la qualité de la performance de votre modèle
Fidélité	Mesure le degré d'ancrage du résultat du modèle dans le contexte du modèle et fournit des attributions à partir du contexte pour montrer les phrases les plus importantes qui contribuent au résultat du modèle.
Demandes ayant échoué	Mesure le ratio des questions auxquelles on a répondu sans succès par rapport au nombre total de questions

Mesures d'analyse du contenu

Vous pouvez utiliser les mesures d'analyse de contenu suivantes pour évaluer les résultats de votre modèle par rapport aux données d'entrée ou au contexte du modèle :

Tableau 6. Analyse de contenu, évaluation, descriptions métriques
Métrique	Descriptif
Caractère abstrait	Mesure le ratio de n-grammes dans le texte généré qui n'apparaissent pas dans le contenu source du modèle de base
Compression	Mesure la réduction du résumé par rapport au texte d'origine en calculant le rapport entre le nombre de mots du texte d'origine et le nombre de mots du modèle de base
Couverture	Mesure la mesure dans laquelle la sortie du modèle de base est générée à partir de l'entrée du modèle en calculant le pourcentage de texte de sortie qui se trouve également dans l'entrée
Densité	Mesure le degré d'extraction du résumé dans la sortie du modèle de base à partir de l'entrée du modèle en calculant la moyenne des fragments d'extraction qui ressemblent étroitement aux extractions textuelles du texte original
Répétitivité	Mesure le pourcentage de n-grammes qui se répètent dans le modèle de base en sortie en calculant le nombre de n-grammes répétés et le nombre total de n-grammes dans le modèle en sortie

Mesures de sécurité des données

Vous pouvez utiliser les mesures de sécurité des données suivantes pour déterminer si les données d'entrée ou de sortie de votre modèle contiennent des informations nuisibles ou sensibles :

Tableau 7. Description des mesures d'évaluation de la sécurité des données
Métrique	Descriptif
HAP	Mesure la présence d'un contenu toxique contenant des propos haineux, injurieux ou blasphématoires dans les données d'entrée ou de sortie du modèle.
informations identifiant la personne	Mesure si les données d'entrée ou de sortie de votre modèle contiennent des informations personnellement identifiables en utilisant le modèle d'extraction d'entités de traitement du langage naturel Watson

Métriques multi-classes/libellés

Vous pouvez utiliser les métriques multi-labels/classes suivantes pour mesurer les performances du modèle pour les prédictions multi-labels/multi-classes :

Tableau 8. Description des métriques d'évaluation multi-labels/classes
Métrique	Descriptif
Score macro-F1	La moyenne des scores d' F1, calculée séparément pour chaque classe
Macro-Précision	La moyenne des scores de précision calculée séparément pour chaque classe
Macro-Rappel	La moyenne des scores de rappel calculés séparément pour chaque classe
Score micro-F1	Calcule la moyenne harmonique de la précision et du rappel
Micro-Précision	Le rapport entre le nombre de prédictions correctes sur toutes les classes et le nombre total de prédictions.
Micro-Rappel	Le rapport entre le nombre de prédictions correctes sur toutes les classes et le nombre d'échantillons vrais.

Mesures de la qualité de la recherche

Vous pouvez utiliser les mesures de qualité de la recherche pour mesurer la qualité du classement des contextes pertinents par le système de recherche. Les mesures de la qualité de la recherche sont calculées avec des modèles LLM en tant que juge. Pour calculer les métriques avec les modèles LLM-as-a-judge, vous pouvez créer une fonction de notation qui appelle les modèles. Pour plus d'informations, voir le carnet de tâches Computing Answer Quality and Retrieval Quality Metrics using IBM watsonx.governance for RAG (Calcul de la qualité des réponses et des mesures de la qualité de la recherche à l'aide de pour RAG ).

Vous pouvez calculer les mesures de qualité d'extraction suivantes :

Tableau 9. Description des mesures d'évaluation de la qualité de la recherche
Métrique	Descriptif
Précision moyenne	Évalue si tous les contextes pertinents sont mieux classés ou non en calculant la moyenne des scores de précision des contextes pertinents
Pertinence du contexte	Mesure la pertinence du contexte retrouvé par votre modèle par rapport à la question spécifiée dans l'invite
Taux de hits	Mesure s'il y a au moins un contexte pertinent parmi les contextes retrouvés.
Plus-value cumulée actualisée normalisée	Mesure la qualité du classement des contextes retrouvés
Rang réciproque	Le rang réciproque du premier contexte pertinent
Précision de la récupération	Mesure la quantité de contextes pertinents par rapport à l'ensemble des contextes recherchés

Modéliser les mesures d'évaluation du suivi de la santé

Les mesures d'évaluation du moniteur de santé du modèle peuvent vous aider à comprendre le comportement et les performances de votre modèle en déterminant l'efficacité avec laquelle votre déploiement de modèle traite vos transactions. Les mesures d'évaluation de l'état des modèles sont activées par défaut pour les évaluations de modèles d'apprentissage automatique dans les déploiements d'actifs d'IA générative et de production. Watsonx.governance prend en charge les paramètres d'évaluation du moniteur de santé modèle suivants :

Tableau 10. Description des mesures d'évaluation du moniteur de santé du modèle
Métrique	Descriptif
Taille de contenu	La taille totale, moyenne, minimale, maximale et médiane de la charge utile des enregistrements de transaction que votre modèle de déploiement traite à travers les requêtes de notation en kilo-octets (Ko)
Enregistrements	Le nombre total, moyen, minimum, maximum et médian d'enregistrements de transactions traités dans le cadre des demandes de notation
Demandes d'évaluation	Le nombre de demandes de notation que votre déploiement de modèle reçoit
users	Le nombre d'utilisateurs qui envoient des demandes de notation à vos déploiements de modèles

Watsonx.governance prend également en charge les différentes catégories suivantes de mesures d'évaluation des moniteurs de santé modèles :

Comptage des jetons

Les mesures de décompte de jetons suivantes calculent le nombre de jetons traités dans les demandes de scoring pour le déploiement de votre modèle :

Tableau 11. Modèle de surveillance de la santé des jetons de comptage des descriptions des paramètres d'évaluation
Métrique	Descriptif
Nombre de jetons d'entrée	Calcule le nombre total, moyen, minimum, maximum et médian de jetons d'entrée sur plusieurs demandes de notation pendant les évaluations
Nombre de jetons de sortie	Calcule le nombre total, moyen, minimum, maximum et médian de jetons de sortie parmi les demandes de notation au cours des évaluations

Débit et latence

Les évaluations des moniteurs de santé modèles calculent la latence en suivant le temps nécessaire pour traiter les demandes de notation et les enregistrements de transactions par milliseconde (ms). Le débit est calculé en suivant le nombre de demandes de marquage et d'enregistrements de transactions traités par seconde.

Les mesures suivantes sont calculées pour évaluer le débit et la latence pendant les évaluations :

Tableau 12. Modèle de débit et de latence du moniteur de santé : descriptions des métriques
Métrique	Descriptif
Latence API	Temps nécessaire (en ms) pour traiter une demande de notation par votre déploiement de modèle.
Débit API	Nombre de demandes de découpe traitées par seconde par votre déploiement de modèle
Latence record	Temps nécessaire (en ms) pour traiter un enregistrement par votre déploiement de modèle
Débit record	Nombre d'enregistrements traités par seconde par votre déploiement de modèle

Indicateurs d'évaluation de la qualité

Les évaluations de la qualité peuvent vous aider à mesurer la capacité de votre modèle à fournir des résultats corrects en fonction de ses performances. Watsonx.governance prend en charge les paramètres d'évaluation de la qualité suivants :

Tableau 13. Descriptions des paramètres d'évaluation de la qualité
Métrique	Descriptif
exactitude	Mesure la justesse des prédictions de votre modèle en calculant la proportion de résultats corrects par rapport au nombre total de résultats.
Aire sous la courbe PR	Mesure la qualité de l'équilibrage de votre modèle en identifiant correctement les classes positives et en trouvant toutes les classes positives
Aire sous la courbe ROC	Mesure la capacité de votre modèle à identifier les différences entre les classes.
Indice de Brier	Mesure la différence quadratique moyenne entre la probabilité prédite et la valeur cible.
F1-Measure	Mesures Moyenne harmonique de précision et rappel
Coefficient de Gini	Mesure la capacité des modèles à distinguer deux classes
Inclinaison de l'étiquette	Mesure l'asymétrie des distributions d'étiquettes
Perte logarithmique	Moyenne des logarithmes des probabilités de la classe cible (confiance)
Coefficient de corrélation de Matthews	La qualité des classifications binaires et multiclasse en tenant compte des vrais et faux positifs et négatifs
Erreur moyenne absolue	Moyenne de la différence absolue entre la prévision du modèle et la valeur cible
Erreur absolue moyenne en pourcentage	Mesure la différence d'erreur moyenne en pourcentage entre les valeurs prévues et réelles
Erreur quadratique moyenne	Moyenne de la différence au carré entre la prédiction du modèle et la valeur cible
Coefficient de corrélation de Pearson	Mesure la relation linéaire entre la prédiction du modèle et les valeurs cibles.
Précision	Proportion de prédictions correctes dans les prédictions de classe positive
Proportion de la variance expliquée	Le rapport entre la variance expliquée et la variance cible. La variance expliquée est la différence entre la variance cible et la variance de l'erreur de prévision.
Rappeler	Proportion de prédictions correctes dans la classe positive
Racine de l'erreur quadratique moyenne	Racine carrée de la moyenne du carré des différences entre la prévision du modèle et la valeur cible
R-carré	Ratio de la différence entre la variance cible et la variance de l'erreur de prédiction sur la variance cible
coefficient de corrélation de Spearman	Mesure la monotonie de la relation entre les prédictions du modèle et les valeurs cibles.
Erreur absolue moyenne en pourcentage symétrique	Mesure la moyenne symétrique de l'erreur en pourcentage de la différence entre les valeurs prévues et réelles
Taux de vrais positifs	Proportion de prédictions correctes dans les prédictions de classe positive
Taux de faux positifs pondéré	Proportion de prédictions incorrectes dans la classe positive
Mesure F1 pondérée	Moyenne pondérée d' F1-measure s avec des poids égaux à la probabilité de classe
Précision pondérée	Moyenne pondérée de précision avec des poids égaux à la probabilité de classe
Rappel pondéré	Moyenne pondérée du rappel avec des poids égaux à la probabilité de classe

Thème parent : Évaluer les modèles d'IA

La rubrique a-t-elle été utile ?

0/1000