您可以配置公平性评估,以确定您的模型是否会产生有偏差的结果。 使用公平性评估来确定您的模型何时显示出更倾向于为一个群体而不是另一个群体提供有利的结果。
公平性评估的配置
如果在准备模型评估时记录有效载荷数据,则可以配置公平性评估。
您可以手动配置公平性评估,也可以运行 定制 Notebook 以生成配置文件。 您可以上载配置文件以指定评估的设置。
手动配置公平性评估时,可以指定期望表示有利结果的参考组 (值)。 您还可以选择相应的模型属性 (功能部件) 以监视将与参考组进行比较的偏差 (例如,年龄或性别)。 根据训练数据,您还可以指定最小和最大评估样本量。
选择有利和不利的结果
在配置公平性评价时,您必须指定有利和不利的结果。 表示有利结果的值派生自 训练数据中的 label
列。 缺省情况下,predictedLabel
列设置为 prediction
列。 上载训练数据时,必须使用 prediction
列的值作为字符串数据类型 (例如 0
或 1
) 来指定有利值和不利值。
选择功能部件
您必须选择要评估的模型属性特征,以检测偏差。 例如,您可以评估 Sex
或 Age
等特征的偏差。 仅支持分类、数字(整数)、浮点数或双精度公平性数据类型的特征。
这些功能部件的值指定为引用组或受监视组。 受监视组表示具有偏差结果风险最大的值。 例如,对于 Sex
功能部件,可以将 Female
和 Non-binary
设置为受监视组。 对于数字功能部件 (例如 Age
) ,可以将 [18-25]
设置为受监视组。 然后,将该功能部件的所有其他值视为参考组,例如 Sex=Male
或 Age=[26,100]
。
设置公平阈值
您可以设置公平性阈值,以指定受监控组的有利结果百分比与参照组的有利结果百分比之间可接受的差异。 例如,如果模型中某个组的有利结果百分比为 70% ,并且公平性阈值设置为 80% ,那么公平性监视器会检测模型中的偏差。
设置样本大小
样本量用于加快处理评估交易数量的速度。 您必须设置最小样本量,以表示您要评估的最低交易数量。 您还可以设置最大样本量,以表示要评估的最大事务数量。
间接偏差检验
如果您选择的字段不是训练特征(称为添加字段),则会通过在训练特征中查找相关值来识别间接偏差。 例如,“学生”这一职业可能暗指年轻人,尽管“年龄”字段被排除在模型培训之外。 有关配置公平性评估以考虑间接偏差的详细信息,请参阅为间接偏差配置公平性监控器。
缓解偏差
机器学习模型评估采用被动和主动去除法。 被动除偏会揭示偏见,而主动除偏通过为当前应用程序实时更改模型,从而阻止您继续保持该偏见。 有关解释模型中的结果和缓解偏差的详细信息,请参阅 查看公平性评估的结果。
受支持的公平性指标
当您为机器学习模型或生成式人工智能资产启用公平性评估时,您可以查看评估结果的摘要,其中包含您正在评估的模型类型的指标。
您可以在“洞察”仪表板上查看机器学习模型的公平性评估结果。 更多信息,请参阅 “审查公平结果 ”。
公平性评估支持以下指标:
差异性影响
不同影响是指不同群体的公平得分。 差异影响(Disparate impact)是指将受监测群体获得有利结果的百分比与参考群体获得有利结果的百分比进行比较。
工作原理 :当您查看模型部署的详细信息时,模型摘要中的公平性部分会显示不同群体的公平性得分,这些得分以指标的形式描述。 公平性得分通过不同影响公式计算得出。
使用混淆矩阵来衡量性能 :否
算算看:
(num_positives(privileged=False) / num_instances(privileged=False))
Disparate impact = ______________________________________________________________________
(num_positives(privileged=True) / num_instances(privileged=True))
num_positives
值表示组中取得积极结果的人数, num_instances
值表示组中总人数。 privileged=False
标签表示非特权群体, privileged=True
标签表示特权群体。 积极的结果称为有利结果,消极的结果称为不利结果。 特权组指定为参考组,无特权组指定为受监视组。
计算结果是一个百分比,该百分比表明弱势群体获得积极结果的比例与优势群体获得积极结果的比例相同。 例如,如果信用风险模型对80%的无特权申请者和100%的特权申请者做出“无风险”的预测,那么该模型对80%的申请者的影响截然不同。
受支持的公平性详细信息
- 以下公平度指标详细信息均得到支持:
- 各组别的有利百分比
- 所有公平性组的公平性平均值
- 每个受监视组的数据分布
- 有效内容数据的分布
- 以下公平度指标详细信息均得到支持:
统计奇偶差异
统计均值差异用于比较受监测组和参考组中有利结果的百分比。
描述 :公平度指标,用于描述模型预测的公平度。 这是受监测群体和参考群体中有利结果比率之间的差异
- 0以下: 受监测群体获得更高收益。
- 在0时 :两组收益相同。
- 超过0 意味着参考组获得更高收益。
使用混淆矩阵来衡量性能 :是
算算看:
num_positives(privileged=False) num_positives(privileged=True)
Statistical parity difference = ________________________________ - ________________________________
num_instances(privileged=False) num_instances(privileged=True)
影响力分数
影响评分比较了监测组被选中获得有利结果的比例与参考组被选中获得有利结果的比例。
- 算算看:
以下公式用于计算各组的入选率:
number of individuals receiving favorable outcomes
Selection rate = ________________________________________________________
total number of individuals
以下公式用于计算撞击得分:
selection rate for monitored groups
Impact score = ________________________________________________________
selection rate for reference groups
门槛:
- 下限: 0.8
- 上限: 1.0
工作原理 :分数越高,受监测人群的入选率越高
误否定率差异
误判率差值给出了模型错误判定为负面的交易中正面交易的百分比。
描述 :返回被监测组和参考组的假阴性率差异
- 在0时 :两组收益相同。
使用混淆矩阵来衡量性能 :是
算算看:
以下公式用于计算假阴性率(FNR):
false negatives
False negative rate = __________________________
all positives
以下公式用于计算假阴性率差值:
False negative rate difference = FNR of monitored group - FNR of reference group
误肯定率差异
误报率差异给出了您的模型错误地将负面交易评分为正面的百分比。
描述 :返回被监测组和参考组的假阳性率之比。
- 在0点 :两组几率相同。
使用混淆矩阵来衡量性能 :是
算算看:
以下公式用于计算假阳性率(FPR):
false positives
False positive rate = ________________________
total negatives
以下公式用于计算假阳性率差值:
False positive rate difference = FPR of monitored group - FPR of reference group
误发现率差异
假发现率差异给出了假阳性交易占所有阳性结果交易的百分比。 它描述了误肯定在所有肯定事务中的普遍性。
描述 :返回受监控组和参考组的假发现率差异。
- 在0点 :两组几率相同。
使用混淆矩阵来衡量性能 :是
算算看:
以下公式用于计算错误发现率(FDR):
false positives
False discovery rate = _________________________________________
true positives + false positives
以下公式用于计算假发现率差值:
False discovery rate difference = FDR of monitored group - FDR of reference group
误遗漏率差异
虚假遗漏率差异给出了虚假负面交易占所有负面结果交易的百分比。 它描述了误否定在所有否定事务中的普遍性。
描述 :返回被监测组和参考组的错误遗漏率之差
- 在0点 :两组几率相同。
使用混淆矩阵来衡量性能 :是
算算看:
以下公式用于计算错误遗漏率(FOR):
false negatives
False omission rate = ________________________________________
true negatives + false negatives
以下公式用于计算错误漏报率差值:
False omission rate difference = FOR of monitored group - FOR of reference group
错误率差异
错误率差异计算您的模型错误评分的交易百分比。
描述 :返回被监控组和参考组的错误率差异。
- 在0点 :两组几率相同。
使用混淆矩阵来衡量性能 :是
算算看:
以下公式用于计算错误率(ER):
false positives + false negatives
Error rate = ___________________________________________
all positives + all negatives
以下公式用于计算误差率差:
Error rate difference = ER of monitored group - ER of reference group
平均几率差
平均赔率差给出了您的模型错误评分的交易百分比。
描述 :返回被监控组和参考组的错误率差异。
- 在0点 :两组几率相同。
使用混淆矩阵来衡量性能 :是
算算看:
以下公式用于计算假阳性率(FPR):
false positives
False positive rate = _________________________
total negatives
以下公式用于计算真阳性率(TPR):
True positives
True positive rate = ______________________
All positives
以下公式用于计算平均赔率差:
(FPR monitored group - FPR reference group) + (TPR monitored group - TPR reference group)
Average odds difference = ___________________________________________________________________________________________
2
平均绝对几率差
平均绝对差异率比较了受监测组和参考组之间的假阳性率和真阳性率的平均绝对差异率。
描述 :返回受监测组和参考组的假阳性率和真阳性率绝对差值的平均值。
- 在0点 :两组几率相同。
使用混淆矩阵来衡量性能 :是
算算看:
以下公式用于计算假阳性率(FPR):
false positives
False positive rate = ____________________________
all negatives
以下公式用于计算真阳性率(TPR):
True positives
True positive rate = ________________________
All positives
以下公式用于计算平均绝对赔率差:
|FPR monitored group - FPR reference group| + |TPR monitored group - TPR reference group|
Average absolute odds difference = ______________________________________________________________________________________________
2
用混淆矩阵衡量性能
如以下示例所示,混淆矩阵测量性能将正预测和负预测分为四个象限,分别代表实际值和预测值的测量结果:
实际/预测 | 负 | 正 |
---|---|---|
负 | TN | FP |
正 | FN | TP |
真负值 (TN) 象限代表实际为负值且预测为负值的数值,真正值 (TP) 象限代表实际为正值且预测为正值的数值。 假阳性 (FP) 象限代表实际为负值但预测为阳性的数值,假阴性 (FN) 象限代表实际为阳性但预测为阴性的数值。
母题: 配置公平性评价