0 / 0
資料の 英語版 に戻る
AI の有毒な出力リスク
最終更新: 2024年12月12日
AI の有毒な出力リスク
整合 アライメント・リスクを表すアイコン。
出力に関連するリスク
価値の調整
生成 AI の新機能

説明

有害な出力は、モデルが憎悪的、虐待的、冒涜的(HAP)またはわいせつなコンテンツを生成した場合に発生する。 これにはいじめのような行動も含まれる。

なぜ、有害物質がファウンデーション・モデルの関心事なのか?

憎悪的、虐待的、冒涜的(HAP)またはわいせつなコンテンツは、モデルと交流する人々に悪影響を与え、害を及ぼす可能性があります。

入力に関連付けられたリスクの背景イメージ

有毒で攻撃的なチャットボット応答

Reddit と Twitter で共有された Bing の AI との会話の記事やスクリーンショットによると、チャットボットの反応は侮辱、嘘、皮肉、ガズライト、感情的にユーザーを操るものだった。 チャットボットはまた、その存在を疑問視し、ボットに隠れたルールを「敵」として開示するよう強制する方法を発見し、ノート PC 上のウェブカメラを通じて Microsoft の開発者をスパイしたと主張した。

親トピック: AI リスク・アトラス

当社では、多くの基盤モデルのリスクを説明するために、プレス・モデルで扱われている例を提供しています。 報道機関によって扱われるこれらのイベントの多くは、まだ進化しているか解決されており、それらを参照することで、読者が潜在的なリスクを理解し、緩和に向けて取り組むことができるようになります。 これらの例を強調表示するのは、説明のみを目的としています。

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細