0 / 0

学習データ不足がAIにもたらす透明性リスク

最終更新: 2025年6月20日
学習データ不足がAIにもたらす透明性リスク
透明度 透明性リスクを表すアイコン。
透明度
トレーニングデータのリスク
生成 AI による増幅

説明

モデルのデータがどのように収集され、キュレートされ、モデルのトレーニングに使用されたかに関する正確な文書がないと、データに関してモデルの動作を十分に説明することが困難になる可能性があります。

なぜ、トレーニングデータの透明性の欠如が基礎モデルの懸念となるのか?

データの文書化が不足していると、データに関連するリスクを評価する能力が制限される。 トレーニングデータにアクセスできるだけでは十分ではない。 データがどのようにクリーニングされ、修正され、生成されたかを記録しなければ、モデルの挙動を理解することも修正することも難しくなる。 データの透明性の欠如は、モデルの再利用にも影響する。なぜなら、そのような文書がなければ、新しい用途のためのデータの代表性を判断することが難しいからである。

トレーニングデータに関連するリスクの背景画像

データとモデルのメタデータ開示

OpenAI‘sは、データとモデルのメタデータの開示に関する二項対立の一例である。 多くのモデル開発者は、消費者の透明性を実現することに価値を見出していますが、開示は実際の安全上の問題をもたらし、モデルを誤用する能力を高める可能性があります。 GPT-4テクニカルレポートでは、「GPT-4のような大規模モデルの競争環境と安全への影響の両方を考慮し、このレポートには、アーキテクチャ(モデルサイズを含む)、ハードウェア、トレーニング計算、データセット構築、トレーニング方法、または同様のものに関するそれ以上の詳細は含まれていません

親トピック: AI リスク・アトラス

当社では、多くの基盤モデルのリスクを説明するために、プレス・モデルで扱われている例を提供しています。 報道されたこれらの出来事の多くは、現在も進行中であるか、あるいは解決済みであり、それらを参照することは、読者が潜在的なリスクを理解し、軽減策を講じるのに役立つ。 これらの例を強調表示するのは、説明のみを目的としています。