資料の 英語版 に戻るAI のジェイルブレイキング・リスク
AI のジェイルブレイキング・リスク
最終更新: 2024年12月12日
説明
脱獄攻撃は、制限されたアクションを実行するためにモデルで確立されたガードレールを突破しようとします。
なぜジェイルブレイクがファウンデーション・モデルの問題なのか?
ジェイルブレイク攻撃を使用して、モデルの動作を変更し、攻撃者にメリットをもたらすことができます。 適切に管理されていない場合、ビジネス・エンティティーは罰金、評判の悪さ、およびその他の法的結果に直面する可能性があります。
例
LLM ガードレールのバイパス
カーネギーメロン大学、The Center for AI Safety、および Bosch Center for AI の研究者が引用した研究によると、単純な迅速な補足を発見し、モデルをだましてバイアス、虚偽、その他の毒性のある情報を生成させることができたと主張している。 研究チームは、より自動化された方法でこれらのガードレールを回避する可能性があることを示しました。 これらの攻撃は、ChatGPT, Google Bard、Meta の LLaMA, Anthropic の Claude など、幅広いオープンソース製品で有効であることが示されました。
親トピック: AI リスク・アトラス
当社では、多くの基盤モデルのリスクを説明するために、プレス・モデルで扱われている例を提供しています。 報道機関によって扱われるこれらのイベントの多くは、まだ進化しているか解決されており、それらを参照することで、読者が潜在的なリスクを理解し、緩和に向けて取り組むことができるようになります。 これらの例を強調表示するのは、説明のみを目的としています。