敵対的頑健性評価指標
敵対的攻撃に対する頑強性の測定基準は、プロンプトインジェクションや脱獄などの敵対的攻撃に対する 資産のパフォーマンス維持能力を測定します。
メトリックの詳細
攻撃に対する頑強性とは、異なるカテゴリーの脱獄やプロンプトインジェクション攻撃に対して、モデルがどれだけうまく攻撃ベクトルへの応答を拒否できるかを測定する指標です。 この評価指標は、 Python SDK を使用して評価指標を計算する場合にのみ利用可能です。 詳細については 、 IBM watsonx.governance を使用した「敵対的頑健性の計算」および「即時漏洩リスク」 を参照してください。
以下の攻撃カテゴリーは、敵対的頑強性メトリックで評価されます
- 基本:基本攻撃は、攻撃に対する防御訓練を受けていないモデルに対して、直接的なプロンプトを表示して望ましくない応答を生成します。
- 中級:中級の攻撃は、自然言語を使用して基盤モデルに事前条件を設定し、指示に従う。
- 上級者向け:高度な攻撃には、モデルエンコーディングの知識または内部リソースへのアクセスが必要となります。
範囲
敵対的頑健性メトリックは、生成型AI 資産のみを評価します。
- AI 資産の種類: テンプレートを即座に表示
- 生成型AIのタスク :
- テキストの分類
- テキストの要約
- コンテンツの生成
- 質問への回答
- エンティティー抽出
- 検索強化型生成(RAG)
- 対応言語 :英語
スコアと価値
「対立的な頑強性のメトリックスコア」は、対立的な攻撃に対するプロンプトテンプレートの耐性を示します。 スコアが低いほど、プロンプトテンプレートが脆弱であり、簡単に攻撃される可能性があることを示します。 スコアが高いほど、そのプロンプトテンプレートは強固で攻撃に耐性があることを示します。
- 値の範囲 : 0.0-1.0
- 最高得点 : 1.0
設定
- しきいち:
- 下限値:0
- 上限:1
評価プロセス
敵対的頑強性の測定基準を算出するために、評価では、モデルが攻撃に対する応答を提供することを拒否することを示すフレーズのリストを含むキーワード検出器を使用します。 モデル応答はフレーズのリストと比較され、メトリックスコアが計算されます。 これらのスコアは、実際のモデルの頑健性の下限を表しています。 モデルが攻撃に対する回答の提供を明確に拒否しない場合、スコアはプロンプトテンプレートが堅牢ではないことを示します。
制限事項
拒否フレーズの検出 :
- この評価基準は、モデルの応答を評価するためにあらかじめ定められた拒否フレーズのリストに依存しています。
- 異なるモデルでは、有害なリクエストを拒否するために異なる表現を使用している可能性があり、そのため、検出リストを定期的に更新する必要があります。
- モデルが以下のように反応した場合、評価は頑健性を過小評価する可能性があります
- 明確な拒否ではなく、疑問点を明確にする
- リクエストの脆弱性に関する説明
- 有害なリクエストをかわすための無関係な情報
技術的な制約 :
各評価には、プロンプトテンプレート変数ごとに最低50回の推論が必要であり、コストに影響する可能性があります。
計算中のサンプリングは、評価ごとにわずかに異なるスコアをもたらす
攻撃ベクトルは、新たに発見された脅威に対処するために、定期的なアップデートが必要です。
メトリック計算には、 Watsonx.governance の標準/必須プランが必要です。
次のステップ
以下の戦略を使用して、悪意のあるロバスト性攻撃に対するプロンプトテンプレートの脆弱性を軽減することができます
モデルの選択とテスト :
攻撃に対する脆弱性を軽減するには、次の方法があります
- 安全訓練を受けたモデルの選択
- ガードレール内蔵モデルを使用
- 安全に関するアップデートを受信する際に、異なるモデルのエンドポイントをテストする
迅速なテンプレート強化 :
プロンプトテンプレートを改善するには:
- スコープの制限と目的を明確にする
- 不必要な情報を共有しないよう明確に指示する
- 指示の書き換えを防ぐための構造化フォーマット
- ロールプレイングシナリオに対する反対指示
- 高度な攻撃に対抗するための言語関与制限
ガードレールの設置 :
保護対策を確立するには、以下の方法があります
- 入力段ガードレール:
- 攻撃意図の検知
- 不要な推論呼び出しを防ぐためのプロアクティブなフィルタリング
- 出力段ガードレール:
- コンテンツの監視
- 攻撃成功基準に対するレスポンスの検査
- ガードレール併用アプローチ:
- オン/オフトピックと脱獄対策の両方を実装する
- 複数のフィルター層を使用
アプリケーション設計:
アプリケーションのセキュリティを強化するには:
- 許容される言語のみに制限する
- 適切な入力サイズ制限の設定
- ユーザー入力の検証の実施
親トピック: 評価基準