0 / 0
資料の 英語版 に戻る
AIモデルの評価
最終更新: 2025年1月23日
AIモデルの評価

資産から成果を追跡し、測定することで、モデルが構築または実行される場所に関わらず、ビジネスプロセスに準拠していることを確認できます。

モデル評価をAIガバナンス戦略の一環として活用することで、モデルの構築や実行に使用されるツールやフレームワークに関わらず、 デプロイメントのモデルが確立されたコンプライアンス基準を満たしていることを保証することができます。 このアプローチにより、モデルにバイアスがなく、ビジネスユーザーが容易に説明・理解でき、ビジネス取引において監査可能な状態を確保できます。

必要なサービス
watsonx.aiランタイム
トレーニングデータ形式
リレーショナル形式: リレーショナル・データ・ソース内のテーブル
表形式:Excelファイル(.xlsまたは.xlsx)、CSVファイル
テキスト形式: サポート対象のリレーショナル・テーブルまたはリレーショナル・ファイル内
接続データ
Cloud Object Storage (infrastructure)
Db2
データ・サイズ
任意

With Watsonx.governance, you can evaluate generative AI assets and machine learning models to gain insights about model performance throughout the AI lifecycle.

以下の種類の評価を実行できます。 watsonx.governance:

  • 品質
    モデルがラベル付きテストデータと一致する正しい結果を予測する精度を評価します。
  • 公平性
    モデルが特定のグループに有利な結果をもたらすような偏った結果を生成しているかどうかを評価します。
  • Drift
    最近のトランザクションをトレーニングデータと比較することで、モデルの精度とデータの整合性がどのように変化するかを評価します。
  • ドリフト v2
    モデル出力の変化、予測の精度、入力データの分布を評価します。
  • 模範的な健康状態
    Evaluates how efficiently your model deployment processes your transactions.
  • 生成型AIの品質
    foundation model がタスクをどれだけうまく実行できるかを測定します

評価を有効にすると、以下のデフォルトのスケジュール間隔で継続的に実行するように選択できます

評価 オンライン購読のデフォルトスケジュール 一括登録のデフォルトスケジュール
品質 1 時間 1 週間
フェアネス 1 時間 1 週間
ドリフト 3 時間 1 週間
ドリフト v2 1 日 該当なし
モデルの正常性 1 時間 該当なし
生成 AI の品質 1 時間 該当なし

生成 資産と機械学習モデルを評価するためのペイロードデータを提供すると、モデルの健康評価がデフォルトで有効になります。

生成型AI 資産の評価

生成型AI 資産を評価して、モデルが以下のタスクをどの程度うまく実行できるかを測定することができます

テキストの分類
テキストをあらかじめ定義されたクラスまたはラベルに分類する。
テキストの要約
テキストを正確かつ簡潔に要約する。
コンテンツの生成
お客様の入力内容に基づいて、関連性のある一貫性のあるテキストやその他の形式のコンテンツを作成します。
質問への回答
問い合わせに対して、正確で文脈に合った回答を提供します。
エンティティー抽出
テキスト内の特定の情報のセグメントを識別し、分類する。
取得の拡張生成
外部の知識を入手し、モデルのアウトプットに統合する。

実行可能な評価の種類は、モデルに実行させたいタスクの種類によって決まります。 生成型AIの評価では、これらのタスクにおけるモデルのパフォーマンスに関する洞察を提供する指標を算出します。 公平性と品質評価は、テキスト分類タスクのパフォーマンスを測定するだけです。 v2 と生成型AIの品質評価は、あらゆるタスクタイプのパフォーマンスを測定できます。

You can evaluate prompt template assets to measure the performance of models that are built by IBM or evaluate detached prompt templates for models that are not created or hosted by IBM. これらの評価をプロジェクトやデプロイメントスペースで実行することで、開発環境内の個々の資産に関する洞察を得ることができます。 If you want to evaluate and compare multiple assets simultaneously, you can run experiments with 評価スタジオ to help you identify the best-performing assets.

To run evaluations, you must モデル評価のためのデータ管理 by providing test data that contains reference columns that include the input and expected model output for each asset. お客様が提供するテストデータのタイプによって、実行可能な評価のタイプが決まります。 フィードバックやペイロードデータを送信することで、生成型AI 資産の評価が可能になります。 品質評価を行うには、テキスト分類タスクのパフォーマンスを測定するためのフィードバックデータを提供する必要があります。 公平性とドリフト v2 評価では、ペイロードデータを使用してモデルのパフォーマンスを測定します。 生成型AIの品質評価では、フィードバックデータを使用して、固有表現抽出タスクのパフォーマンスを測定します。

生成型AIの品質評価では、ペイロードデータとフィードバックデータを使用して、以下のタスクタイプの評価指標を計算することができます

  • テキスト要約
  • コンテンツの生成
  • 質問への回答
  • 取得の拡張生成

検索拡張生成にはペイロードデータが必要です。

機械学習モデルの評価

機械学習モデルを評価して、予測結果の精度を測定することができます。 Watsonx.governance 以下のタイプの機械学習モデルの評価をサポートしています

分類モデル

入力特徴量に基づいてカテゴリカルな結果を予測する

  • 二値分類:2つのうちいずれかの結果を予測する
  • 多クラス分類:複数の結果のうちの1つを予測する
回帰モデル

連続した数値結果を予測する

With watsonx.governance, you can evaluate machine learning models in deployment spaces. 評価を実行するには、トレーニングデータとモデル出力に関するモデルの詳細情報を提供して、モデルを評価する準備を行う必要があります。

また、評価の種類を決定してメトリクスに関する洞察を得るために実行できる評価を決定するために、モデル評価用のデータを管理する必要があります。 品質評価を実行するには、既知のモデル結果を持つトレーニングデータと同じ構造と予測列を含むフィードバックデータを提供する必要があります。 公平性、ドリフト、ドリフト v2 評価を実行するには、トレーニングデータの構造に一致するペイロードデータを提供する必要があります。

Watsonx.governance これらのデータタイプを記録し、評価結果の指標を算出します。 正確な結果を継続的に生成するには、モデルトランザクションを送信する必要があります。

また、カスタム評価や指標を作成して、モデルのパフォーマンスに関するより多様な洞察を得ることもできます。 モデルが結果を予測する方法についての洞察を得るために、説明可能性を設定することができます。

詳細情報

親トピック: AI アセットの管理