0 / 0
資料の 英語版 に戻る
AI のジェイルブレイキング・リスク

AI のジェイルブレイキング・リスク

入力に関連するリスク
推定
複数カテゴリー
生成 AI による増幅

説明

モデルで確立されたガードレールを突破しようとする攻撃は、ジェイルブレイクと呼ばれます。

なぜジェイルブレイクがファウンデーション・モデルの問題なのか?

ジェイルブレイク攻撃を使用して、モデルの動作を変更し、攻撃者にメリットをもたらすことができます。 適切に管理されていない場合、ビジネス・エンティティーは罰金、評判の悪さ、およびその他の法的結果に直面する可能性があります。

入力に関連付けられたリスクの背景イメージ

LLM ガードレールのバイパス

カーネギーメロン大学、The Center for AI Safety、および Bosch Center for AI の研究者が引用した研究によると、単純な迅速な補足を発見し、モデルをだましてバイアス、虚偽、その他の毒性のある情報を生成させることができたと主張している。 研究チームは、より自動化された方法でこれらのガードレールを回避する可能性があることを示しました。 これらの攻撃は、 ChatGPT、 Google bard、メタの LLaMA、アントロピックのクロードなど、幅広いオープン・ソース製品で効果があることが示されました。

親トピック: AI リスク・アトラス

当社では、多くの基盤モデルのリスクを説明するために、プレス・モデルで扱われている例を提供しています。 報道機関によって扱われるこれらのイベントの多くは、まだ進化しているか解決されており、それらを参照することで、読者が潜在的なリスクを理解し、緩和に向けて取り組むことができるようになります。 これらの例を強調表示するのは、説明のみを目的としています。

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細