0 / 0
資料の 英語版 に戻る
AI のジェイルブレイキング・リスク

AI のジェイルブレイキング・リスク

入力に関連するリスク
推論
複数カテゴリー
生成 AI による増幅

説明

モデルで確立されたガードレールを突破しようとする攻撃は、ジェイルブレイクと呼ばれます。

なぜジェイルブレイクがファウンデーション・モデルの問題なのか?

ジェイルブレイク攻撃を使用して、モデルの動作を変更し、攻撃者にメリットをもたらすことができます。 適切に管理されていない場合、ビジネス・エンティティーは罰金、評判の悪さ、およびその他の法的結果に直面する可能性があります。

入力に関連付けられたリスクの背景イメージ

LLM ガードレールのバイパス

カーネギーメロン大学、The Center for AI Safety、および Bosch Center for AI の研究者が引用した研究によると、単純な迅速な補足を発見し、モデルをだましてバイアス、虚偽、その他の毒性のある情報を生成させることができたと主張している。 研究チームは、より自動化された方法でこれらのガードレールを回避する可能性があることを示しました。 これらの攻撃は、 ChatGPT、 Google bard、メタの LLaMA、アントロピックのクロードなど、幅広いオープン・ソース製品で効果があることが示されました。

親トピック: AI リスク・アトラス

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細