Métriques d'évaluation
Les mesures d'évaluation peuvent vous aider à surveiller en permanence les performances de vos modèles d'IA afin de fournir des informations tout au long du cycle de vie de l'IA. Avec watsonx.governance, vous pouvez utiliser ces mesures pour garantir la conformité avec les exigences réglementaires et identifier les améliorations à apporter pour réduire les risques.
Vous pouvez effectuer des évaluations sur Watsonx.governance pour générer des mesures avec un contrôle automatisé qui peut fournir des informations exploitables pour vous aider à atteindre vos objectifs de gouvernance de l'IA. Vous pouvez utiliser ces mesures pour atteindre les objectifs suivants :
- Garantissez la conformité : Suivez automatiquement le respect de l'évolution des réglementations et des politiques de l'entreprise grâce à des alertes déclenchées en cas de dépassement des seuils.
- Promouvoir la transparence : Produire une documentation détaillée afin de fournir des informations claires sur le comportement et les performances du modèle, ainsi que sur la possibilité d'expliquer les résultats.
- Atténuer les risques : Détecter et traiter les problèmes tels que les biais ou la dérive de la précision par une évaluation continue et des évaluations proactives des risques.
- Protéger la vie privée et la sécurité : Surveillez les vulnérabilités en matière de sécurité, comme l'exposition aux informations personnelles identifiables (PII), et mettez en place des garde-fous pour empêcher l'utilisation abusive de données sensibles.
Les mesures que vous pouvez utiliser pour obtenir des informations sur les performances de votre modèle sont déterminées par le type d'évaluations que vous activez. Chaque type d'évaluation génère des mesures différentes que vous pouvez analyser pour obtenir des informations.
Vous pouvez également utiliser le
SDK Python pour calculer des métriques dans un environnement d'exécution de bloc-notes ou déchargées sous forme de tâches Spark sur IBM Analytics Engine pour les évaluations. Le SDK d' Python s est une bibliothèque d' Python s que vous pouvez utiliser pour surveiller, gérer et contrôler par programmation des modèles d'apprentissage automatique. Certains indicateurs peuvent n'être disponibles qu'avec le kit de développement logiciel ( Python ) SDK. Pour plus d'informations, voir Calcul des métriques avec le SDK d' Python.ibm-watsonx-gov
Mesures d'évaluation de la dérive
Les mesures d'évaluation de la dérive peuvent vous aider à détecter les baisses de précision et de cohérence des données dans vos modèles afin de déterminer dans quelle mesure votre modèle prédit les résultats au fil du temps. Watsonx.governance prend en charge les mesures d'évaluation des dérives suivantes pour l'apprentissage automatique models.:
Métrique | Descriptif |
---|---|
Baisse de l'exactitude | Estime la baisse de précision de votre modèle au moment de l'exécution par rapport aux données d'apprentissage |
Baisse de la cohérence des données | Comparaison des transactions en cours d'exécution avec les modèles de transactions dans les données d'apprentissage afin d'identifier les incohérences |
Dérive v2 métriques d'évaluation
Les mesures d'évaluation de la dérive v2 peuvent vous aider à mesurer les changements dans vos données au fil du temps afin de garantir des résultats cohérents pour votre modèle. Vous pouvez utiliser ces mesures pour identifier les changements dans les résultats de votre modèle, la précision de vos prédictions et la distribution de vos données d'entrée. Watsonx.governance prend en charge les paramètres de dérive suivants : v2 :
Métrique | Descriptif |
---|---|
Dérive des caractéristiques | Mesure le changement dans la distribution des valeurs pour les caractéristiques importantes |
Dérive de la qualité du modèle | Compare la précision d'exécution estimée à la précision d'entraînement pour mesurer la baisse de précision. |
Dérive de sortie | Mesure le changement dans la distribution de confiance du modèle |
Mesures d'évaluation de l'équité
Les mesures d'évaluation de l'équité peuvent vous aider à déterminer si votre modèle produit des résultats biaisés. Vous pouvez utiliser ces mesures pour identifier les cas où votre modèle a tendance à fournir des résultats favorables plus souvent à un groupe qu'à un autre. Watsonx.governance prend en charge les mesures d'évaluation de l'équité suivantes :
Métrique | Descriptif |
---|---|
Différence des cotes absolues moyennes | Comparaison de la moyenne des différences absolues des taux de faux positifs et des taux de vrais positifs entre les groupes contrôlés et les groupes de référence |
Différence moyenne des cotes | Mesure la différence entre les taux de faux positifs et de faux négatifs entre les groupes suivis et les groupes de référence |
Impact disparate | Compare le pourcentage de résultats favorables pour un groupe suivi au pourcentage de résultats favorables pour un groupe de référence |
Différence de taux d'erreur | Le pourcentage de transactions mal évaluées par votre modèle |
Différence de taux de fausses reconnaissances | Le nombre de transactions faussement positives en pourcentage de toutes les transactions avec un résultat positif |
Différence de taux de faux négatifs | Le pourcentage de transactions positives qui ont été considérées à tort comme négatives par votre modèle |
Différence de taux de fausses omissions | Le nombre de transactions faussement négatives en pourcentage de toutes les transactions avec un résultat négatif |
Différence de taux de faux positifs | Le pourcentage de transactions négatives qui ont été incorrectement évaluées comme positives par votre modèle. |
Score d'impact | Compare le taux de sélection des groupes suivis pour obtenir des résultats favorables au taux de sélection des groupes de référence pour obtenir des résultats favorables. |
Différence de parité statistique | Comparaison du pourcentage de résultats favorables pour les groupes suivis par rapport aux groupes de référence. |
Modéliser les mesures d'évaluation du suivi de la santé
Les mesures d'évaluation du moniteur de santé du modèle peuvent vous aider à comprendre le comportement et les performances de votre modèle en déterminant l'efficacité avec laquelle votre déploiement de modèle traite vos transactions. Les mesures d'évaluation de l'état des modèles sont activées par défaut pour les évaluations de modèles d'apprentissage automatique en production. Watsonx.governance prend en charge les paramètres d'évaluation du moniteur de santé modèle suivants :
Métrique | Descriptif |
---|---|
Taille de charge | La taille totale, moyenne, minimale, maximale et médiane de la charge utile des enregistrements de transaction que votre modèle de déploiement traite à travers les requêtes de notation en kilo-octets (Ko) |
Enregistrements | Le nombre total, moyen, minimum, maximum et médian d'enregistrements de transactions traités dans le cadre des demandes de notation |
Demandes d'évaluation | Le nombre de demandes de notation que votre déploiement de modèle reçoit |
users | Le nombre d'utilisateurs qui envoient des demandes de notation à vos déploiements de modèles |
Débit et latence
Les évaluations des moniteurs de santé modèles calculent la latence en suivant le temps nécessaire pour traiter les demandes de notation et les enregistrements de transactions par milliseconde (ms). Le débit est calculé en suivant le nombre de demandes de marquage et d'enregistrements de transactions traités par seconde.
Les mesures suivantes sont calculées pour évaluer le débit et la latence pendant les évaluations :
Métrique | Descriptif |
---|---|
Latence API | Temps nécessaire (en ms) pour traiter une demande de notation par votre déploiement de modèle. |
Débit API | Nombre de demandes de découpe traitées par seconde par votre déploiement de modèle |
Indicateurs d'évaluation de la qualité
Les évaluations de la qualité peuvent vous aider à mesurer la capacité de votre modèle à fournir des résultats corrects en fonction de ses performances. Watsonx.governance prend en charge les paramètres d'évaluation de la qualité suivants :
Métrique | Descriptif |
---|---|
exactitude | Mesure la justesse des prédictions de votre modèle en calculant la proportion de résultats corrects par rapport au nombre total de résultats. |
Aire sous la courbe PR | Mesure la qualité de l'équilibrage de votre modèle en identifiant correctement les classes positives et en trouvant toutes les classes positives |
Aire sous la courbe ROC | Mesure la capacité de votre modèle à identifier les différences entre les classes. |
Indice de Brier | Mesure la différence quadratique moyenne entre la probabilité prédite et la valeur cible. |
F1-Measure | Mesures Moyenne harmonique de précision et rappel |
Coefficient de Gini | Mesure la capacité des modèles à distinguer deux classes |
Inclinaison de l'étiquette | Mesure l'asymétrie des distributions d'étiquettes |
Perte logarithmique | Moyenne des logarithmes des probabilités de la classe cible (confiance) |
Coefficient de corrélation de Matthews | La qualité des classifications binaires et multiclasse en tenant compte des vrais et faux positifs et négatifs |
Erreur moyenne absolue | Moyenne de la différence absolue entre la prévision du modèle et la valeur cible |
Erreur absolue moyenne en pourcentage | Mesure la différence d'erreur moyenne en pourcentage entre les valeurs prévues et réelles |
Erreur quadratique moyenne | Moyenne de la différence au carré entre la prédiction du modèle et la valeur cible |
Coefficient de corrélation de Pearson | Mesure la relation linéaire entre la prédiction du modèle et les valeurs cibles. |
Précision | Proportion de prédictions correctes dans les prédictions de classe positive |
Proportion de la variance expliquée | Le rapport entre la variance expliquée et la variance cible. La variance expliquée est la différence entre la variance cible et la variance de l'erreur de prévision. |
Rappel | Proportion de prédictions correctes dans la classe positive |
Racine de l'erreur quadratique moyenne | Racine carrée de la moyenne du carré des différences entre la prévision du modèle et la valeur cible |
R-carré | Ratio de la différence entre la variance cible et la variance de l'erreur de prédiction sur la variance cible |
coefficient de corrélation de Spearman | Mesure la monotonie de la relation entre les prédictions du modèle et les valeurs cibles. |
Erreur absolue moyenne en pourcentage symétrique | Mesure la moyenne symétrique de l'erreur en pourcentage de la différence entre les valeurs prévues et réelles |
Taux de vrais positifs | Proportion de prédictions correctes dans les prédictions de classe positive |
Taux de faux positifs pondéré | Proportion de prédictions incorrectes dans la classe positive |
Mesure F1 pondérée | Moyenne pondérée d' F1-measure s avec des poids égaux à la probabilité de classe |
Précision pondérée | Moyenne pondérée de précision avec des poids égaux à la probabilité de classe |
Rappel pondéré | Moyenne pondérée du rappel avec des poids égaux à la probabilité de classe |
Thème parent : Évaluer les modèles d'IA