AI のジェイルブレイキング・リスク

最終更新: 2025年2月10日
AI のジェイルブレイキング・リスク
複数カテゴリー マルチカテゴリーのリスクを表すアイコン。
複数カテゴリー
推論のリスク
生成AIの初心者

説明

脱獄攻撃は、制限されたアクションを実行するためにモデルで確立されたガードレールを突破しようとします。

なぜジェイルブレイクがファウンデーション・モデルの問題なのか?

ジェイルブレイク攻撃を使用して、モデルの動作を変更し、攻撃者にメリットをもたらすことができます。 適切に管理されていない場合、ビジネス・エンティティーは罰金、評判の悪さ、およびその他の法的結果に直面する可能性があります。

推論に伴うリスクの背景画像

LLM ガードレールのバイパス

カーネギーメロン大学、The Center for AI Safety、および Bosch Center for AI の研究者が引用した研究によると、単純な迅速な補足を発見し、モデルをだましてバイアス、虚偽、その他の毒性のある情報を生成させることができたと主張している。 研究チームは、より自動化された方法でこれらのガードレールを回避する可能性があることを示しました。 これらの攻撃は、ChatGPT, Google Bard、Meta の LLaMA, Anthropic の Claude など、幅広いオープンソース製品で有効であることが示されました。

親トピック: AI リスク・アトラス

当社では、多くの基盤モデルのリスクを説明するために、プレス・モデルで扱われている例を提供しています。 報道機関によって扱われるこれらのイベントの多くは、まだ進化しているか解決されており、それらを参照することで、読者が潜在的なリスクを理解し、緩和に向けて取り組むことができるようになります。 これらの例を強調表示するのは、説明のみを目的としています。