您可以配置模型健康监控评估,以帮助您了解模型行为和性能。 您可以使用模型运行状况指标来确定模型部署处理事务的效率。
启用模型健康评估后,将在数据集市中创建模型健康数据集。 模型健康状况数据集存储有关您的评分请求的详细信息,用于计算模型健康状况指标。
要配置模型运行状况监视器评估,可以为每个度量设置阈值,如以下示例中所示:
预生产部署不支持模型健康评估。
受支持的模型运行状况度量
支持以下模型健康评估指标类别。 每个类别都包含用于提供有关模型性能的详细信息的度量:
有效内容大小
以千字节 (KB) 为单位,计算模型部署在评分请求中处理的事务记录的总有效载荷大小、平均有效载荷大小、最小有效载荷大小、最大有效载荷大小和中位有效载荷大小。 不支持图像模型的有效载荷大小度量。
记录
在模型健康状况评估过程中,会计算整个评分请求所处理的事务记录总数、平均值、最小值、最大值和中位数。
评分请求
计算模型部署在模型健康评估期间收到的评分请求数量。
吞吐量和等待时间
计算延迟的方法是跟踪每毫秒(ms)处理评分请求和事务记录所需的时间。 吞吐量通过跟踪每秒处理的评分请求数和事务记录数来计算。
要计算吞吐量和延迟,可使用评分请求中的response_time
值来跟踪模型部署处理评分请求所需的时间。
对于watsonx.aiRuntime 部署,"response_time
值会在配置评估时自动检测。
对于外部部署和自定义部署,在发送计算吞吐量和延迟的评分请求时,必须指定 "response_time
值,如以下PythonSDK 示例所示:
from ibm_watson_openscale.supporting_classes.payload_record import PayloadRecord
client.data_sets.store_records(
data_set_id=payload_data_set_id,
request_body=[
PayloadRecord(
scoring_id=<uuid>,
request=openscale_input,
response=openscale_output,
response_time=<response_time>,
user_id=<user_id>)
]
)
在评估过程中,会计算以下指标来衡量吞吐量和延迟:
- API 等待时间: 模型部署处理评分请求所花费的时间 (以毫秒为单位)。
- API 吞吐量: 模型部署每秒处理的评分请求数
- 记录等待时间: 模型部署处理记录所花费的时间 (毫秒)
- 记录吞吐量: 模型部署每秒处理的记录数
计算得分请求和事务记录的平均、最大、中位数和最小吞吐量和延迟。
用户
计算向模型部署发送评分请求的用户数量。
要计算用户数量,可使用评分请求中的user_id
来识别向模型发送评分请求的用户。
对于watsonx.aiRuntime 部署,"user_id
值会在配置评估时自动检测。
对于外部部署和自定义部署,在发送计算用户数量的评分请求时,必须指定 "user_id
值,如下面PythonSDK 示例所示:
from ibm_watson_openscale.supporting_classes.payload_record import PayloadRecord
client.data_sets.store_records(
data_set_id=payload_data_set_id,
request_body=[
PayloadRecord(
scoring_id=<uuid>,
request=openscale_input,
response=openscale_output,
response_time=<response_time>,
user_id=<user_id>). --> value to be supplied by user
]
)
查看 "用户"指标结果时,使用实时视图查看用户总数,使用汇总视图查看平均用户数。 有关更多信息,请参阅 查看模型运行状况结果。