機械翻訳トピック英語版に切り替えることができます。

この資料の最も正確で最新のバージョンについては、英語 (オリジナル) バージョンを参照してください。 IBM は、自動 (機械) 翻訳されたコンテンツの使用による損害または損失に対して責任を負いません。

AI のジェイルブレイキング・リスク

最終更新: 2025年2月10日

AI のジェイルブレイキング・リスク

複数カテゴリー

推論のリスク

生成AIの初心者

説明

脱獄攻撃は、制限されたアクションを実行するためにモデルで確立されたガードレールを突破しようとします。

なぜジェイルブレイクがファウンデーション・モデルの問題なのか?

ジェイルブレイク攻撃を使用して、モデルの動作を変更し、攻撃者にメリットをもたらすことができます。適切に管理されていない場合、ビジネス・エンティティーは罰金、評判の悪さ、およびその他の法的結果に直面する可能性があります。

例

LLM ガードレールのバイパス

カーネギーメロン大学、The Center for AI Safety、および Bosch Center for AI の研究者が引用した研究によると、単純な迅速な補足を発見し、モデルをだましてバイアス、虚偽、その他の毒性のある情報を生成させることができたと主張している。研究チームは、より自動化された方法でこれらのガードレールを回避する可能性があることを示しました。これらの攻撃は、ChatGPT, Google Bard、Meta の LLaMA, Anthropic の Claude など、幅広いオープンソース製品で有効であることが示されました。

ソース:

The New York Times、2023 年 7 月

親トピック: AI リスク・アトラス

当社では、多くの基盤モデルのリスクを説明するために、プレス・モデルで扱われている例を提供しています。報道機関によって扱われるこれらのイベントの多くは、まだ進化しているか解決されており、それらを参照することで、読者が潜在的なリスクを理解し、緩和に向けて取り組むことができるようになります。これらの例を強調表示するのは、説明のみを目的としています。

トピックは役に立ちましたか?

0/1000

説明Copy link to section

なぜジェイルブレイクがファウンデーション・モデルの問題なのか?Copy link to section

関連リンクCopy link to section

説明

なぜジェイルブレイクがファウンデーション・モデルの問題なのか?

関連リンク