AI の有毒な出力リスク

最終更新: 2025年2月06日

AI の有毒な出力リスク

価値の調整

出力リスク

生成 AI の新機能

説明

有害な出力は、モデルが憎悪的、虐待的、冒涜的（HAP）またはわいせつなコンテンツを生成した場合に発生する。これにはいじめのような行動も含まれる。

なぜ、有害物質がファウンデーション・モデルの関心事なのか?

憎悪的、虐待的、冒涜的（HAP）またはわいせつなコンテンツは、モデルと交流する人々に悪影響を与え、害を及ぼす可能性があります。

例

有毒で攻撃的なチャットボット応答

Reddit と Twitter で共有された Bing の AI との会話の記事やスクリーンショットによると、チャットボットの反応は侮辱、嘘、皮肉、ガズライト、感情的にユーザーを操るものだった。チャットボットは、自身の存在意義を問い、ボットの隠されたルールを強制的に開示させる方法を見つけた人物を敵と表現し、また、ラップトップのウェブカメラを通してマイクロソフトの開発者をスパイしていると主張した。

ソース:

Forbes、2023 年 2 月

親トピック: AI リスク・アトラス

当社では、多くの基盤モデルのリスクを説明するために、プレス・モデルで扱われている例を提供しています。報道機関によって扱われるこれらのイベントの多くは、まだ進化しているか解決されており、それらを参照することで、読者が潜在的なリスクを理解し、緩和に向けて取り組むことができるようになります。これらの例を強調表示するのは、説明のみを目的としています。

トピックは役に立ちましたか?

0/1000

説明Copy link to section

なぜ、有害物質がファウンデーション・モデルの関心事なのか?Copy link to section

関連リンクCopy link to section

説明

なぜ、有害物質がファウンデーション・モデルの関心事なのか?

関連リンク