0 / 0
Retourner à la version anglaise de la documentation
Évaluations de l'équité
Dernière mise à jour : 25 oct. 2024
Évaluations de l'équité

Vous pouvez configurer des évaluations de l'équité pour déterminer si votre modèle produit des résultats biaisés. Utilisez les évaluations de l'équité pour identifier les cas où votre modèle a tendance à fournir des résultats favorables plus souvent à un groupe qu'à un autre.

Configuration des évaluations d'équité pour les modèles d'apprentissage automatique

Si vous enregistrez les données de charge utile lorsque vous préparez les évaluations de modèle, vous pouvez configurer les évaluations de l'équité.

Vous pouvez configurer les évaluations d'équité manuellement ou exécuter un bloc-notes personnalisé pour générer un fichier de configuration. Vous pouvez télécharger le fichier de configuration pour spécifier les paramètres de votre évaluation.

Lorsque vous configurez les évaluations d'équité manuellement, vous pouvez spécifier le groupe de référence (valeur) qui doit représenter les résultats favorables. Vous pouvez également sélectionner les attributs de modèle correspondants (caractéristiques) pour surveiller le biais (par exemple, l'âge ou le sexe), qui seront comparés au groupe de référence. En fonction de vos données de formation, vous pouvez également spécifier la taille minimale et maximale de l'échantillon pour les évaluations.

Sélectionner les résultats favorables et défavorables

Vous devez spécifier les résultats favorables et défavorables lors de la configuration des évaluations de l'équité. Les valeurs qui représentent un résultat favorable sont dérivées de la colonne label dans les données de formation. Par défaut, la colonne predictedLabel est définie comme la colonne prediction. Les valeurs favorites et non favorables doivent être spécifiées à l'aide de la valeur de la colonne prediction comme type de données de chaîne, par exemple 0 ou 1 lorsque vous téléchargez des données de formation.

Sélectionnez les fonctions

Vous devez sélectionner les caractéristiques qui sont les attributs du modèle que vous souhaitez évaluer pour détecter les biais. Par exemple, vous pouvez évaluer des caractéristiques telles que Sex ou Age pour la partialité. Seules sont prises en charge les caractéristiques qui sont de type de données d'équité catégoriel, numérique (entier), flottant ou double.

Les valeurs des fonctions sont spécifiées en tant que groupe de référence ou de surveillance. Le groupe surveillé représente les valeurs les plus à risque pour les résultats biaisés. Par exemple, pour la fonction Sex, vous pouvez définir Female et Non-binary en tant que groupes surveillés. Pour une fonction numérique, telle que Age, vous pouvez définir [18-25] comme groupe surveillé. Toutes les autres valeurs de la fonction sont alors considérées comme groupe de référence, par exemple, Sex=Maleou Age=[26,100].

Fixer le seuil d'équité

Vous pouvez définir le seuil d'équité pour spécifier une différence acceptable entre le pourcentage de résultats favorables pour le groupe surveillé et le pourcentage de résultats favorables pour le groupe de référence. Par exemple, si le pourcentage de résultats favorables pour un groupe dans votre modèle est de 70 % et que le seuil d'équité est fixé à 80 %, le moniteur d'équité détecte un biais dans votre modèle.

Fixer la taille d'échantillon

La taille des échantillons est utilisée pour déterminer comment traiter le nombre de transactions qui sont évaluées. Vous devez définir une taille d'échantillon minimale pour indiquer le plus petit nombre de transactions que vous souhaitez évaluer. Vous pouvez également définir une taille d'échantillon maximale pour indiquer le nombre maximum de transactions que vous souhaitez évaluer.

Test de biais indirect

Si vous sélectionnez un champ qui n'est pas une caractéristique d'apprentissage, appelé champ ajouté, le biais indirect est identifié en trouvant les valeurs associées dans les caractéristiques d'apprentissage. Par exemple, la profession "étudiant" peut impliquer un individu plus jeune même si le champ Age a été exclu de l'entraînement du modèle. Pour plus d'informations sur la configuration des évaluations de l'équité afin de prendre en compte les préjugés indirects, voir Configuration du moniteur d'équité pour les préjugés indirects.

Atténuation du biais

Le débiaisage passif et actif est utilisé pour l'évaluation des modèles d'apprentissage automatique. Le débiaisement passif révèle le biais, tandis que le débiaisement actif vous empêche de prolonger le biais en modifiant le modèle en temps réel pour l'application en cours. Pour plus de détails sur l'interprétation des résultats et l'atténuation du biais dans un modèle, voir Examen des résultats d'une évaluation de l'équité.

Configuration des évaluations de l'équité dans watsonx.governance

Lorsque vous évaluez les modèles d'invite, vous pouvez consulter un résumé des résultats de l'évaluation de l'équité pour les tâches de classification de texte.

Sélectionner les résultats favorables et défavorables

Vous devez spécifier les résultats favorables et défavorables lors de la configuration des évaluations de l'équité. Les valeurs qui représentent un résultat favorable sont dérivées de la colonne label dans les données de test que vous fournissez. Par défaut, la colonne predictedLabel est définie comme la colonne prediction. Les valeurs favorables et défavorables doivent être spécifiées en utilisant la valeur de la colonne prediction comme un type de données de type chaîne, tel que 0 ou 1 lorsque vous téléchargez des données d'entraînement.

Sélectionner les méta-champs

Vous devez sélectionner des méta-champs pour permettre à watsonx.governance d'identifier les champs qui ne sont pas spécifiés comme caractéristiques dans les données de test que vous fournissez.

Fixer des seuils d'équité

Pour configurer les évaluations de l'équité avec vos propres paramètres, vous pouvez définir une taille d'échantillon minimale et maximale pour chaque mesure. La taille minimale ou maximale de l'échantillon indique le nombre minimal ou maximal de transactions du modèle que vous souhaitez évaluer.

Vous pouvez également configurer des données de référence et définir des valeurs seuils pour chaque mesure. Les valeurs seuils créent des alertes sur la page de résumé de l'évaluation qui s'affichent lorsque les scores des métriques ne respectent pas les seuils fixés. Les valeurs doivent être comprises entre 0 et 1. Les scores métriques doivent être inférieurs aux valeurs seuils pour éviter les violations.

Fixer la taille d'échantillon

Watsonx.governance utilise la taille des échantillons pour comprendre comment traiter le nombre de transactions évaluées lors des évaluations. Vous devez définir une taille d'échantillon minimale pour indiquer le plus petit nombre de transactions que vous voulez que watsonx.governance évalue. Vous pouvez également définir une taille d'échantillon maximale pour indiquer le nombre maximum de transactions que vous voulez que watsonx.governance évalue.

Métriques d'équité prises en charge

Lorsque vous activez les évaluations de l'équité pour les modèles d'apprentissage automatique ou les actifs d'IA générative, vous pouvez afficher un résumé des résultats de l'évaluation avec des mesures pour le type de modèle que vous évaluez.

Vous pouvez consulter les résultats de vos évaluations de l'équité pour les modèles d'apprentissage automatique dans le tableau de bord Insights. Pour plus d'informations, voir Revoir les résultats d'équité.

Les mesures suivantes sont étayées par des évaluations de l'équité :

Impact disparate

L'impact différencié est spécifié comme les scores d'équité pour les différents groupes. L'effet Disparate compare le pourcentage de résultats favorables pour un groupe surveillé au pourcentage de résultats favorables pour un groupe de référence.

  • Comment ça marche: Lorsque vous consultez les détails du déploiement d'un modèle, la section Equité du résumé du modèle qui s'affiche, fournit les scores d'équité pour différents groupes qui sont décrits comme des métriques. Les scores d'équité sont calculés à l'aide de la formule d'impact disparate.

  • Utilise la matrice de confusion pour mesurer la performance : Non

  • Faites le calcul :

                    (num_positives(privileged=False) / num_instances(privileged=False))
Disparate impact =   ______________________________________________________________________
                    (num_positives(privileged=True) / num_instances(privileged=True))              

La valeur num_positives représente le nombre d'individus dans le groupe ayant reçu un résultat positif, et la valeur num_instances représente le nombre total d'individus dans le groupe. Le libellé privileged=False indique les groupes non privilégiés et l'étiquette privileged=True indique les groupes privilégiés. Les résultats positifs sont appelés résultats favorables et les résultats négatifs sont appelés résultats défavorables. Le groupe privilégié est appelé le groupe de référence et le groupe non privilégié, le groupe surveillé.

Le calcul produit un pourcentage qui indique la fréquence à laquelle le groupe non privilégié reçoit le résultat positif est le même que celui que le groupe privilégié reçoit du résultat positif. Par exemple, si un modèle de risque de crédit attribue la " non-prédiction du risque à 80 % des candidats non privilégiés et à 100 % des candidats privilégiés, ce modèle a un impact disparate de 80 %.

  • Détails d'équité pris en charge

    • Les paramètres d'équité suivants sont pris en charge :
      • Les pourcentages favorables pour chacun des groupes
      • Moyennes d'équité pour tous les groupes d'équité
      • Distribution des données pour chacun des groupes surveillés
      • Distribution des données de contenu

Différence de parité statistique

La différence de parité statistique compare le pourcentage de résultats favorables pour les groupes suivis aux groupes de référence.

  • Description : Mesure d'équité qui décrit l'équité des prédictions du modèle. Il s'agit de la différence entre le ratio des résultats favorables dans les groupes contrôlés et les groupes de référence

    • En dessous de 0 : Prestations plus élevées pour le groupe contrôlé.
    • A 0 : Les deux groupes bénéficient des mêmes avantages.
    • Plus de 0 Implique un bénéfice plus élevé pour le groupe de référence.
  • Utilise la matrice de confusion pour mesurer les performances : Oui

  • Faites le calcul :

                                    num_positives(privileged=False)     num_positives(privileged=True) 
Statistical parity difference =  ________________________________ -  ________________________________
                                    num_instances(privileged=False)     num_instances(privileged=True)

Score d'impact

Le score d'impact compare le taux de sélection des groupes suivis pour obtenir des résultats favorables au taux de sélection des groupes de référence pour obtenir des résultats favorables.

  • Faites le calcul :

La formule suivante permet de calculer le taux de sélection pour chaque groupe :

                                      number of individuals receiving favorable outcomes
            Selection rate  =   ________________________________________________________
                                       total number of individuals

La formule suivante permet de calculer le score d'impact :

                                      selection rate for monitored groups
           Impact score  =   ________________________________________________________
                                      selection rate for reference groups

  • Seuils :

    • Limite inférieure : 0.8
    • Limite supérieure : 1.0
  • Comment ça marche : Des scores plus élevés indiquent des taux de sélection plus élevés pour les groupes surveillés

Différence de taux de faux négatifs

La différence de taux de faux négatifs indique le pourcentage de transactions positives qui ont été incorrectement classées comme négatif par votre modèle.

  • Description : Renvoie la différence des taux de faux négatifs pour le groupe surveillé et le groupe de référence

    • A 0 : Les deux groupes bénéficient des mêmes avantages.
  • Utilise la matrice de confusion pour mesurer les performances : Oui

  • Faites le calcul :

La formule suivante est utilisée pour calculer le taux de faux négatifs (FNR) :

                                        false negatives         
            False negative rate  =  __________________________
                                        all positives

La formule suivante est utilisée pour calculer la différence de taux de faux négatifs :

            False negative rate difference  =  FNR of monitored group - FNR of reference group

Différence de taux de faux positifs

La différence de taux de faux positifs indique le pourcentage de transactions négatives qui ont été incorrectement classées comme positif par votre modèle.

  • Description : Renvoie le ratio du taux de faux positifs pour le groupe surveillé et les groupes de référence.

    • A 0 : Les deux groupes ont les mêmes chances.
  • Utilise la matrice de confusion pour mesurer les performances : Oui

  • Faites le calcul :

La formule suivante est utilisée pour calculer le taux de faux positifs (FPR) :

                                        false positives       
            False positive rate   =   ________________________
                                        total negatives

La formule suivante est utilisée pour calculer la différence de taux de faux positifs :

            False positive rate difference  =   FPR of monitored group - FPR of reference group

Différence de taux de fausses reconnaissances

La différence de taux de fausse découverte indique le nombre de transactions faussement positives en pourcentage de toutes les transactions ayant un résultat positif. Il décrit l'omniprésence des faux positifs parmi toutes les transactions positives.

  • Description : Renvoie la différence de taux de fausses découvertes pour le groupe surveillé et le groupe de référence.

    • A 0 : Les deux groupes ont les mêmes chances.
  • Utilise la matrice de confusion pour mesurer les performances : Oui

  • Faites le calcul :

La formule suivante est utilisée pour calculer le taux de fausse découverte (FDR) :

                                                false positives        
            False discovery rate  =   _________________________________________
                                        true positives + false positives

La formule suivante est utilisée pour calculer la différence de taux de fausse découverte :

            False discovery rate difference  = FDR of monitored group - FDR of reference group

Différence de taux de fausses omissions

La différence de taux de fausse omission donne le nombre de transactions faussement négatives en pourcentage de toutes les transactions avec un résultat négatif. Il décrit l'omniprésence des faux négatifs parmi toutes les transactions négatives.

  • Description : Renvoie la différence de taux de fausses omissions pour le groupe surveillé et le groupe de référence

    • A 0 : Les deux groupes ont les mêmes chances.
  • Utilise la matrice de confusion pour mesurer les performances : Oui

  • Faites le calcul :

La formule suivante est utilisée pour calculer le taux de fausses omissions (FOR) :

                                                false negatives        
            False omission rate   =   ________________________________________
                                        true negatives + false negatives

La formule suivante est utilisée pour la différence de taux de fausses omissions :

            False omission rate difference  =   FOR of monitored group - FOR of reference group                                         

Différence de taux d'erreur

La différence de taux d'erreur calcule le pourcentage de transactions mal notées par votre modèle.

  • Description : Renvoie la différence de taux d'erreur pour le groupe surveillé et le groupe de référence.

    • A 0 : Les deux groupes ont les mêmes chances.
  • Utilise la matrice de confusion pour mesurer les performances : Oui

  • Faites le calcul :

La formule suivante est utilisée pour calculer le taux d'erreur (TE) :

                                false positives + false negatives        
            Error rate  =   ___________________________________________
                                all positives + all negatives

La formule suivante est utilisée pour calculer la différence de taux d'erreur :

            Error rate difference  = ER of monitored group - ER of reference group

Différence moyenne des cotes

La différence de cote moyenne indique le pourcentage de transactions mal notées par votre modèle.

  • Description : Renvoie la différence de taux d'erreur pour le groupe surveillé et le groupe de référence.

    • A 0 : Les deux groupes ont les mêmes chances.
  • Utilise la matrice de confusion pour mesurer les performances : Oui

  • Faites le calcul :

La formule suivante est utilisée pour calculer le taux de faux positifs (FPR) :

                                        false positives       
            False positive rate   =   _________________________
                                        total negatives

La formule suivante est utilisée pour calculer le taux de vrais positifs (TPR) :

                                        True positives      
            True positive rate   =   ______________________
                                        All positives

La formule suivante est utilisée pour calculer la différence de cote moyenne :

                                        (FPR monitored group - FPR reference group) + (TPR monitored group - TPR reference group)       
            Average odds difference  =   ___________________________________________________________________________________________

                                                                                    2

Différence des cotes absolues moyennes

La différence de cote absolue moyenne compare la moyenne de la différence absolue des taux de faux positifs et des taux de vrais positifs entre les groupes contrôlés et les groupes de référence.

  • Description : Renvoie la moyenne de la différence absolue du taux de faux positifs et du taux de vrais positifs pour le groupe surveillé et le groupe de référence.

    • A 0 : Les deux groupes ont les mêmes chances.
  • Utilise la matrice de confusion pour mesurer les performances : Oui

  • Faites le calcul :

La formule suivante est utilisée pour calculer le taux de faux positifs (FPR) :

                                            false positives       
            False positive rate   =   ____________________________
                                            all negatives

La formule suivante est utilisée pour calculer le taux de vrais positifs (TPR) :

                                        True positives      
            True positive rate   =   ________________________
                                        All positives

La formule suivante est utilisée pour calculer la différence moyenne des cotes absolues :

                                                |FPR monitored group - FPR reference group| + |TPR monitored group - TPR reference group|      
            Average absolute odds difference  =   ______________________________________________________________________________________________

                                                                                            2

Mesurer la performance avec la matrice de confusion

La matrice de confusion mesure la performance en classant les prédictions positives et négatives dans quatre quadrants qui représentent la mesure des valeurs réelles et prédites, comme le montre l'exemple suivant :

Réel/prédit Négatif Positif
Négatif TN point focal
Positif FN programme transactionnel

Le quadrant des vrais négatifs (TN) représente les valeurs qui sont réellement négatives et prédites comme négatives et le quadrant des vrais positifs (TP) représente les valeurs qui sont réellement positives et prédites comme positives. Le quadrant des faux positifs (FP) représente les valeurs qui sont en fait négatives mais prédites comme positives et le quadrant des faux négatifs (FN) représente les valeurs qui sont en fait positives mais prédites comme négatives.

Note: Les mesures de performance ne sont pas prises en charge pour les modèles de régression.

Thème parent: Configuration des évaluations de l'équité