Comprendre les concepts utilisés pour calculer les évaluations d'équité
- Comment le biais est calculé
- Données équilibrées et égalité parfaite
- Calcul de l'égalité parfaite
- Conversion du type de données d'une colonne de prévision
- Interprétation d'un score d'équité supérieur à 100%
Mode de calcul du biais
L'algorithme du moniteur d'équité calcule le biais sur une base horaire en utilisant les derniers enregistrements N
présents dans la table de journalisation des charges utiles et la valeur N
est spécifiée lorsque vous configurez le moniteur d'équité. L'algorithme applique une méthode appelée perturbation pour évaluer les différences dans les résultats attendus dans les données.
La perturbation modifie les valeurs de la fonction du groupe de référence vers le groupe surveillé, ou vice-versa. Les données perturbées sont ensuite envoyées au modèle pour évaluer son comportement. L'algorithme examine les N
derniers enregistrements de la table de contenu utile, ainsi que le comportement du modèle sur les données perturbées, pour décider si les résultats du modèle indiquent la présence de biais.
Un modèle est biaisé si le pourcentage de résultats favorables pour le groupe surveillé est inférieur au pourcentage de résultats favorables pour le groupe de référence, d'une valeur de seuil que vous spécifiez lorsque vous configurez le moniteur d'équité.
Notez que les valeurs d'équité peuvent être supérieures à 100%. Ce calcul signifie que le groupe surveillé a reçu des résultats plus favorables que le groupe de référence. De plus, si aucune nouvelle demande de notation n'est envoyée, la valeur d'équité reste constante.
Données équilibrées et égalité parfaite
Pour les ensembles de données équilibrés, les concepts suivants s'appliquent :
- Pour déterminer la valeur d'égalité parfaite, les transactions de groupe de référence sont synthétisées en changeant la valeur de caractéristique surveillée de chaque transaction de groupe surveillé par toutes les valeurs de groupe de référence. Ces nouvelles transactions synthétisées sont ajoutées à l'ensemble des transactions de groupe de référence et évaluées par le modèle.
Par exemple, si la fonction surveillée est SEX
et que le groupe surveillé est FEMALE
, toutes les transactions FEMALE
sont dupliquées en tant que transactions MALE
. Les autres valeurs de caractéristique restent inchangées. Ces nouvelles transactions MALE
synthétisées sont ajoutées à l'ensemble des transactions de groupe de référence MALE
d'origine.
- Le pourcentage de résultats favorables est déterminé par le nouveau groupe de référence. Ce pourcentage représente l'équité parfaite pour le groupe surveillé.
- Les transactions du groupe surveillé sont également synthétisées en changeant la valeur de la caractéristique de référence de chaque transaction de groupe de référence par la valeur du groupe surveillé. Ces nouvelles transactions synthétisées sont ajoutées à l'ensemble des transactions de groupe surveillé et évaluées par le modèle.
Si la fonction surveillée est SEX
et que le groupe surveillé est FEMALE
, toutes les transactions MALE
sont dupliquées en tant que transactions FEMALE
. Les autres valeurs de caractéristique restent inchangées. Ces nouvelles transactions FEMALE
synthétisées sont ajoutées à l'ensemble des transactions de groupe surveillées FEMALE
d'origine.
Calcul de l'égalité parfaite
La formule mathématique suivante est utilisée pour calculer l'égalité parfaite :
Perfect equality = Percentage of favorable outcomes for all reference transactions,
including the synthesized transactions from the monitored group
Par exemple, si la fonction surveillée est SEX
et que le groupe surveillé est FEMALE
, la formule suivante montre l'équation pour une égalité parfaite :
Perfect equality for `SEX` = Percentage of favorable outcomes for `MALE` transactions,
including the synthesized transactions that were initially `FEMALE` but changed to `MALE`
Lorsque vous configurez les évaluations d'équité, vous pouvez générer un ensemble de mesures pour évaluer l'équité de votre modèle. Vous pouvez utiliser les mesures d'équité pour déterminer si votre modèle produit des résultats biaisés.
Conversion du type de données d'une colonne de prévision
Lors de la configuration de la surveillance de l'équité d'un modèle, la colonne de prédiction n'autorise qu'une valeur numérique sous forme d'entier même si le libellé de prédiction est catégoriel. La conversion du type de données de la colonne de prévision est possible.
Par exemple, les données d'apprentissage peuvent avoir des libellés de classe tels que "Prêt refusé", "Prêt accordé". La valeur de prédiction renvoyée par le point final de notation IBM watsonx.ai Runtime a des valeurs telles que "0.0", "1.0". Le point d'extrémité d'évaluation inclut également une colonne optionnelle qui contient la représentation textuelle de la prédiction. Par exemple, si prediction=1.0, la colonne predictionLabel peut avoir la valeur "Prêt accordé". Si cette colonne est disponible, lorsque vous configurez le résultat favorable et défavorable pour le modèle, spécifiez les valeurs de chaîne "Prêt accordé" et "Prêt refusé". Si cette colonne n'est pas disponible, vous devez spécifier les valeurs entières et doubles de 1.0, 0.0 pour les classes favorables et défavorables.
IBM watsonx.ai Runtime a un concept de schéma de sortie qui définit le schéma de la sortie d'IBM watsonx.ai Runtime, le point final de notation et le rôle des différentes colonnes. Les rôles sont utilisés pour identifier la colonne qui contient la valeur de prévision, la colonne contenant la probabilité de prévision et la valeur du libellé de classe, etc. Le schéma de sortie est automatiquement défini pour les modèles créés à l'aide du générateur de modèles. Il peut également être défini à l'aide du client IBM watsonx.ai Runtime Python. Les utilisateurs peuvent utiliser le schéma de sortie pour définir une colonne contenant la représentation chaîne de la prédiction. Affectant à la colonne modeling_role
la valeur'décoded-target'. La documentation du client IBM watsonx.ai Runtime Python est disponible à l'adresse https://ibm.github.io/watsonx-ai-python-sdk/core_api.html#repository Recherchez "OUTPUT_DATA_SCHEMA" pour comprendre le schéma de sortie. L'appel API à utiliser est store_model
; il admet OUTPUT_DATA_SCHEMA comme paramètre.
Interprétation d'un score d'équité supérieur à 100%
En fonction de la configuration de l'équité, votre score d'équité peut être supérieur à 100 pour cent. En d'autres termes, votre groupe surveillé obtient des résultats relativement plus équitables comparé au groupe de référence. Cela signifie techniquement que le modèle est inéquitable dans le sens inverse.
En savoir plus
Configuration du moniteur d'équité pour le biais indirect
Examiner les résultats du modèle
Rubrique parent: Configuration du moniteur d'équité