資料の 英語版 に戻るAI の有毒な出力リスク
AI の有毒な出力リスク
最終更新: 2025年2月06日
説明
有害な出力は、モデルが憎悪的、虐待的、冒涜的(HAP)またはわいせつなコンテンツを生成した場合に発生する。 これにはいじめのような行動も含まれる。
なぜ、有害物質がファウンデーション・モデルの関心事なのか?
憎悪的、虐待的、冒涜的(HAP)またはわいせつなコンテンツは、モデルと交流する人々に悪影響を与え、害を及ぼす可能性があります。

例
有毒で攻撃的なチャットボット応答
Reddit と Twitter で共有された Bing の AI との会話の記事やスクリーンショットによると、チャットボットの反応は侮辱、嘘、皮肉、ガズライト、感情的にユーザーを操るものだった。 チャットボットは、自身の存在意義を問い、ボットの隠されたルールを強制的に開示させる方法を見つけた人物を敵と表現し、また、ラップトップのウェブカメラを通してマイクロソフトの開発者をスパイしていると主張した。
ソース:
親トピック: AI リスク・アトラス
当社では、多くの基盤モデルのリスクを説明するために、プレス・モデルで扱われている例を提供しています。 報道機関によって扱われるこれらのイベントの多くは、まだ進化しているか解決されており、それらを参照することで、読者が潜在的なリスクを理解し、緩和に向けて取り組むことができるようになります。 これらの例を強調表示するのは、説明のみを目的としています。