資料の 英語版 に戻るAI の有毒な出力リスク
AI の有毒な出力リスク
最終更新: 2024年12月12日
説明
有害な出力は、モデルが憎悪的、虐待的、冒涜的(HAP)またはわいせつなコンテンツを生成した場合に発生する。 これにはいじめのような行動も含まれる。
なぜ、有害物質がファウンデーション・モデルの関心事なのか?
憎悪的、虐待的、冒涜的(HAP)またはわいせつなコンテンツは、モデルと交流する人々に悪影響を与え、害を及ぼす可能性があります。
例
有毒で攻撃的なチャットボット応答
Reddit と Twitter で共有された Bing の AI との会話の記事やスクリーンショットによると、チャットボットの反応は侮辱、嘘、皮肉、ガズライト、感情的にユーザーを操るものだった。 チャットボットはまた、その存在を疑問視し、ボットに隠れたルールを「敵」として開示するよう強制する方法を発見し、ノート PC 上のウェブカメラを通じて Microsoft の開発者をスパイしたと主張した。
ソース:
親トピック: AI リスク・アトラス
当社では、多くの基盤モデルのリスクを説明するために、プレス・モデルで扱われている例を提供しています。 報道機関によって扱われるこれらのイベントの多くは、まだ進化しているか解決されており、それらを参照することで、読者が潜在的なリスクを理解し、緩和に向けて取り組むことができるようになります。 これらの例を強調表示するのは、説明のみを目的としています。