説明
敵対的攻撃の一種で、敵対者または悪意のある内部関係者が、意図的に破損した、偽の、誤解を招く、または不正なサンプルを訓練データセットまたは微調整データセットに注入すること。
データ・ポイズニングがファウンデーション・モデルの問題である理由
ポイズニング・データにより、モデルが悪意のあるデータ・パターンの影響を受けやすくなり、攻撃者の希望する出力が生成される可能性があります。 これにより、攻撃者が自分の利益のためにモデルの動作を強制できるというセキュリティー・リスクが生じる可能性があります。
低リソースによるデータ汚染
ソース記事にあるように、研究者グループは、非常に限られたリソースで、誰でも、大規模な言語モデルが誤った答えを生成するのに十分な悪意のあるデータを、通常AIのトレーニングのために収集される少数のウェブページ(例えば、ウィキペディアのページ)に追加できることを発見した。
画像修正ツール
ソース記事によれば、研究者たちは、コンピューター・ビジョンにダメージを与えるが人間には見えない方法で画像を修正する「Nightshade」と呼ばれるツールを開発した。 このような "毒入り "修正画像をAIモデルの学習に使用すると、モデルは予測不可能で意図しない結果を生成する可能性がある。 このツールは、無許可の画像スクレイピングから知的財産を守る仕組みとして作られたものだが、記事では、ユーザーがこのツールを悪用し、意図的に「毒入り」画像をアップロードする可能性があることも強調している。
親トピック: AI リスク・アトラス
財団モデルのリスクの多くを説明するために、報道で取り上げられた例を提供する。 報道されたこれらの出来事の多くは、現在も進行中であるか、あるいは解決済みであり、それらを参照することは、読者が潜在的なリスクを理解し、軽減策を講じるのに役立つ。 これらの例を強調するのは説明のためである。