資料の 英語版 に戻る

APIレイテンシ評価指標

最終更新: 2025年3月07日
APIレイテンシ評価指標

API レイテンシの測定基準は、お客様のデプロイメントスコアリングリクエストの処理に要した時間(ミリ秒単位)を測定します。

メトリックの詳細

API レイテンシは、モデルの健全性モニタ評価のためのスループットとレイテンシの指標であり、スコアリングリクエストの処理にかかる時間をミリ秒(ms)単位で追跡することでレイテンシを計算します。

範囲

APIレイテンシメトリックは、生成型AI 資産と機械学習モデルを評価します。

  • 生成型AIのタスク
    • テキストの要約
    • テキストの分類
    • コンテンツの生成
    • エンティティー抽出
    • 質問への回答
    • 検索支援強化型生成(RAG)
  • 機械学習の問題タイプ
    • 二項分類
    • マルチクラス分類
    • 回帰
  • 対応言語 :英語

評価プロセス

スコアリングリクエストとトランザクションレコードの平均、最大、中央値、最小のAPIレイテンシは、モデルヘルスモニター評価中に計算されます。

APIレイテンシの指標を計算するには、スコアリングリクエストの response_time 値を使用して、 デプロイメントがスコアリングリクエストの処理に要した時間を追跡します。

watsonx.ai ランタイムデプロイメントの場合、評価版の設定時に response_time の値が自動的に検出されます。

外部およびカスタムデプロイメント、 Python SDK の次の例のように、スループットとレイテンシを計算するためのスコアリングリクエストを送信する際に、 response_time の値を指定する必要があります

    from ibm_watson_openscale.supporting_classes.payload_record import PayloadRecord            
        client.data_sets.store_records(
        data_set_id=payload_data_set_id, 
        request_body=[
        PayloadRecord(
            scoring_id=<uuid>,
            request=openscale_input,
            response=openscale_output,
            response_time=<response_time>,  
            user_id=<user_id>)
                    ]
        ) 

親トピック: 評価基準