余弦距离
余弦距离测量嵌入向量之间的差异。 下面的公式用于测量余弦距离:
余弦距离介于 0 和 1 之间,0 表示矢量完全相同,1 表示矢量之间没有相关性,2 表示矢量相反。
Euclidean 距离
欧氏距离是欧氏空间中嵌入向量之间的最短距离。 以下公式用于测量欧氏距离:
欧氏距离的范围从 0(表示完全相同的向量)到无穷大。 但是,对于归一化为单位长度的矢量,最大欧氏距离是 。
您可以配置漂移 v2 评估,以测量一段时间内数据中的更改,从而确保模型的结果一致。 使用漂移 v2 评估来识别模型输出中的更改,预测的准确性以及输入数据的分布。
以下部分描述了如何配置漂移 v2 评估:
配置漂移 v2 评估
如果您在 "准备模型评估时 "日志有效载荷数据,您可以配置漂移 "v2评估,以帮助您了解数据变化如何影响模型结果。
计算漂移归档
您必须选择用于分析训练数据的方法,以确定模型特征的数据分布。 如果连接的训练数据小于 500 MB,可以选择计算漂移v2存档。
如果没有连接训练数据,或者数据大小超过 500 MB,则必须选择在笔记本中计算漂移v2存档。 如果要评估图像或文本模型,还必须在笔记本中计算漂移v2存档。
您可以通过设置用于评分和计算漂移v2存档的训练数据量的最大样本大小,来指定训练数据的大小限制。 对于non-watsonx.aiRuntime 部署,计算漂移v2存档的成本与根据模型的评分终点对训练数据进行评分有关。
设置漂移阈值
您必须为每个指标设置阈值,以确定评估结果中存在的问题。 您设置的值将在 "洞察" 仪表板 上创建在度量标准得分违反阈值时显示的警报。 必须将 0 范围内的值设置为 1。 度量标准得分必须低于阈值才能避免违例。
选择重要特征
仅对表格模型而言,计算特征重要性是为了确定特征漂移对模型的影响。 要计算特征重要性,可以从模型中选择对模型结果影响最大的重要特征和最重要特征。
配置 SHAP 说明时,重要功能会通过全局说明自动检测出来。
您还可以通过上载 JSON 文件来上载重要功能部件的列表。 提供了可用于上传 JSON 文件的示例片段。 有关更多信息,请参阅 功能部件重要性片段。
设置样本大小
提供样本量是为了处理评估期间所评估的交易数量。 您必须设置最小样本量,以表示您要评估的最低交易数量。 您还可以设置最大样本量,以表示要评估的最大事务数量。
受支持的漂移 v2 度量
启用漂移v2评估后,您可以查看评估结果摘要,其中包含评估模型类型的指标。
您可以在Insights 面板上查看漂移v2评估的结果。 更多信息,请参阅审核漂移v2结果。
漂移 v2 求值支持以下度量值:
输出漂移
输出漂移测量模型置信度分布的变化。
工作原理
测量模型输出与训练模型时的变化量。 对于回归模型,输出漂移是通过测量训练数据和有效载荷数据的预测分布变化来计算的。 对于分类模型,通过测量训练数据和有效载荷数据中类别概率分布的变化,计算每个类别概率的输出漂移。 对于多分类模型,输出漂移是通过测量加权平均值来汇总每个类别的概率。计算
以下公式用于计算输出漂移:
模型质量漂移
模型质量漂移将运行时的估计准确度与训练时的准确度进行比较,以衡量准确度的下降。
- 工作方式:
在配置漂移v2评估时,会建立一个漂移检测模型来处理有效载荷数据,以预测模型是否能在没有地面实况的情况下生成准确的预测结果。 漂移检测模型使用模型中的输入特征和类概率来创建其自己的输入特征。
- 执行数学:
以下公式用于计算模型质量漂移:
通过测量训练数据中正确预测交易的比例,计算出模型的准确性base_accuracy
。 在评估期间,将针对漂移检测模型对事务进行评分,以度量模型可能正确预测的事务量。 将这些交易与所处理的交易总数进行比较,以计算predicted_accuracy
。 如果predicted_accuracy
小于base_accuracy
,则生成模型质量漂移分数。
特征漂移
特征漂移测量重要特征值分布的变化。
- 工作方式:
漂移是通过测量连续值和离散值的概率分布来计算分类和数字特征的。 为了识别数字特征的离散值,使用二进制对数来比较每个特征的独特值数量和每个特征的总值数量。 下面的二元对数公式用于识别离散数字特征:
如果 distinct_values_count
小于 total_count
的二进制对数,那么该特征标识为离散。
- 执行数学:
以下公式用于计算特征漂移:
以下公式用于计算漂移 v2 评估指标:
总变异距离
总变异距离测量两个概率分布 (基线 (B) 和生产 (P)) 分配给同一事务的概率之间的最大差异,如以下公式所示:
如果两个分布相等,那么它们之间的总变异距离将变为 0。
以下公式用于计算总变异距离:
𝑥是一系列跨 域的等距样本,范围从基线数据和生产数据的最小值之和到基线数据和生产数据的最大值之和。
是连续两个 𝑥 样本之间的差值。
是生产数据在 𝑥 样本处的密度函数值。
是基线数据在 𝑥 样本处的密度函数值。
分母表示生产和基线数据密度函数图下的总面积。 这些求和是基于域空间的集成的近似值,这两个项都应该是 1 ,总计应该是 2。
重叠系数
通过测量两个概率分布之间的交集的总面积来计算重叠系数。 为了测量分布之间的不相似性,将从 1 中减去交集或重叠区域,以计算漂移量。 以下公式用于计算重叠系数:
𝑥是一系列跨 域的等距样本,范围从基线数据和生产数据的最小值之和到基线数据和生产数据的最大值之和。
是连续两个 𝑥 样本之间的差值。
是生产数据在 𝑥 样本处的密度函数值。
是基线数据在 𝑥 样本处的密度函数值。
Jensen Shannon 距离
延森香农距离是 Kullback-Leibler (KL) Divergence 的归一化形式,用于测量一个概率分布与第二概率分布的差异。 詹森-香农距离是一个对称的分数,总是有一个有限的值。
以下公式用于计算两个概率分布 (基线 (B) 和生产 (P)) 的 Jensen Shannon 距离:
是 KL Divergence。
父主题: 配置模型评估