了解用于评估机器学习模型的术语和概念。
可接受的公平性
受监视组为满足公平性阈值而必须接收的有利结果的百分比。 它通过将完美等同性乘以公平性阈值来计算。
警报
性能指标超出配置的监视器指定的可接受范围的通知。
API 密钥
IBM Cloud 发出的用于连接到资源的唯一标识。 要获取,请打开 https://cloud.ibm.com/resources,查找并展开资源 (例如存储服务) ,然后复制资源标识的值 (不带引号)。
均衡数据集
一个数据集,其中包含模型针对所选小时和扰动记录接收的评分请求。
基线数据
在干预或修改之前收集的先前数据。 此数据可作为将来收集的数据进行比较的基础。
批处理部署
处理来自存储区中的文件,数据连接或已连接数据的输入数据,并将输出写入所选目标。 一种部署模型的方法,它会处理来自文件的输入数据,然后将输出写入文件。
批处理
如果需要使用 OpenScale 来监视涉及大量有效内容/反馈数据的部署,那么建议进行批处理。
偏差
当机器学习模型为受监视人员,组或事物生成与参考结果相比被视为不公平的结果时。 可能是由于模型的训练数据存在问题所致。 "公平性" 监视器可以检测属于您设置的阈值以下的偏差。 相关术语: 除偏。
Cloud Object Storage
IBM 提供的用于存储和访问数据的服务。 如果 Cloud Object Storage 是机器学习资产的存储库,那么必须使用关联的服务凭证从 OpenScale连接到这些资产。
另请参阅: 资源标识, API 密钥。
置信度分数
机器学习模型的预测正确的概率。 分数越高表示预测结果与实际结果匹配的概率越高。
对比解释
指示为更改模型预测而更改的最少一组特征列值的解释。 这是针对单个数据点计算的。
数据集市
保存所有 OpenScale 相关元数据的工作空间。 在后台,它连接到保存元数据的数据库持久性层。
除偏事务
为其生成除偏结果的事务。
除偏
当公平性监视器检测到偏差时。 当受监视组接收到有偏差的结果时,请采取步骤自动或手动缓解偏差。
部署
部署模型以使端点可用,以便可以向模型输入新数据 (请求) 并获取分数或响应。 模型部署可以在生产前环境中进行测试,也可以在生产环境中进行实际使用。
漂移
当模型准确性随时间推移而下降时。 可能是由于模型输入数据的更改导致模型性能下降。 要监视草稿,可以在模型准确性低于指定的可接受阈值时创建警报。
评估
使用度量来评估机器学习模型并测量模型执行情况 (在公平性和准确性等方面) 的过程。 监视器可以评估对目标重要的区域的模型。
解释
对模型的特定测量的评估的洞察。 在OpenScale,中,解释有助于理解结果,还可以进行假设情景实验,帮助解决问题。
公平性
确定模型是否生成偏向受监视组而不是参考组的结果。 当模型显示一种倾向时,公平性评估会检查是否更频繁地为一个组而不是另一个组提供有利/可取的结果。 要监视的典型类别包括年龄,性别和种族。
特征
用于训练机器学习模型的数据集列名 (特征列) 的列表。
示例: 在预测人员是否有资格获得贷款的模型中,就业状态和信用历史记录的特征可能比邮政编码具有更大的权重。
反馈数据
与用于训练机器学习模型 (包括目标) 但未用于训练的数据的模式和结构相匹配的标签数据。 此数据是质量监视器用于度量已部署模型的准确性的已知数据或实际数据。 确定根据已知结果进行度量时预测是否准确。
全局解释
说明模型对数据样本的预测。
无头预订
具有后台实时部署的预订。 通过无头订阅,用户可以使用提供给部署的数据(有效载荷/反馈)来监控部署,而无需提供任何评分 URL。
标记数据
以统一方式标记的数据,供机器学习算法在模型训练期间识别。
示例: 带有标签列的数据表是典型的受监督机器学习。 还可以标记图像以用于机器学习问题。
局部解释
通过使用特定个别示例来解释模型的预测。
元字段
产品之间唯一的专用数据。
监视器
OpenScale 提供的每个功能称为监视器。
示例: 公平性,漂移,质量和可解释性。
受监视组
评估公平性时,受监视组表示存在偏差的结果风险最大的值。
示例: 在性别特征中,可以将 "女性" 和 "非二元" 设置为受监视组。
联机部署
通过提供新数据的实时评分或解决方案的 API 端点访问部署的方法。
有效内容数据
提供给模型的任何实时数据。 由对模型的请求 (输入) 和来自模型的响应 (输出) 组成。
有效内容日志记录
持久存储有效内容数据。
完美等同性
传递给所有参考组的有利结果的百分比。 对于均衡数据集和去偏数据集,计算包括已更改为参考组事务的受监视组事务。
扰动
在计算与监视器关联的不同度量 (例如公平性和可解释性) 时模拟的实际数据点周围的数据点。
生产前空间
用于轻松测试数据以进行模型验证的环境。
预测列
受监督机器学习模型 (使用标记数据训练) 在显示新数据时预测的变量。
另请参阅: 目标。
概率
模型用于预测输出的置信度。 适用于分类模型。
生产空间
用于操作机器学习模型的部署空间。 将对来自生产空间的部署进行评估,以便将实际性能与指定的度量进行比较。
质量
这是一个监视器,用于根据反馈数据的评估来评估模型预测准确结果的情况。 它使用一组标准数据科学指标来评估模型预测的结果与标记数据集中的实际结果匹配的程度。
记录
对其进行监视器求值的事务。
参考组
评估公平性时,参考组表示有偏差结果的风险最小的值。
示例: 对于 "年龄" 功能部件,可以将 30-55 设置为参考组,并将其他组的结果与该组进行比较。
相对权重
特征在预测目标变量时具有的相对权重。 权重越高表示越重要。 了解相对权重有助于解释模型结果。
资源标识
存储在 Cloud Object Storage中的资源的唯一标识。 要获取:
- 打开 https://cloud.ibm.com/resources
- 查找并扩展资源 (例如存储服务)
- 复制不带引号的资源标识值
响应时间
模型部署处理评分请求所花费的时间
运行时数据
从运行模型的生命周期中获取的数据。
评分端点
用户可调用以接收已部署模型的评分输出的 HTTPS 端点。
评分请求
部署的输入。
另请参阅: 有效内容。
评分
在模型推断中,将请求发送到模型并获取响应的操作。
自我管理
模型事务存储在您自己的数据仓库中,并由您自己的 Spark 分析引擎进行评估。
服务凭证
连接到 IBM Cloud 资源所需的访问标识。
服务提供商
托管部署的机器学习提供商(通常是模型引擎:WML、AWS、Azure、自定义)。
预订
在 OpenScale 级别受监视的部署。 部署与预订之间存在 1-1 映射。
系统管理的
模型事务存储在 OpenScale 数据库中,并使用 OpenScale 计算资源进行评估。
目标
已训练模型预测的数据集的特征或列。 通过使用预先存在的数据来训练模型,以学习模式并发现数据集的特征与目标之间的关系。
另请参阅: 预测列。
阈值
当监视器配置为评估机器学习模型时。 确定了可接受的一系列成果的基准。 当结果低于配置的阈值时,将触发警报以评估并补救此情况。
训练数据
用于教授和训练模型的学习算法的数据。
事务
存储在有效内容日志记录表中的机器学习模型评估的记录。
未标记的数据
未与标识特征,分类和属性的标签关联的数据。 未以统一方式标注的非结构化数据。
示例: 电子邮件或未标记的图像是典型的未标记数据。 未标记的数据可以在无监督的机器学习中使用。
用户标识
与评分请求关联的用户的标识