説明
モデルのデータがどのように収集され、キュレートされ、モデルのトレーニングに使用されたかに関する正確な文書がないと、データに関してモデルの動作を十分に説明することが困難になる可能性があります。
なぜ、トレーニングデータの透明性の欠如が基礎モデルの懸念となるのか?
データの文書化が不足していると、データに関連するリスクを評価する能力が制限される。 トレーニングデータにアクセスできるだけでは十分ではない。 データがどのようにクリーニングされ、修正され、生成されたかを記録しなければ、モデルの挙動を理解することも修正することも難しくなる。 データの透明性の欠如は、モデルの再利用にも影響する。なぜなら、そのような文書がなければ、新しい用途のためのデータの代表性を判断することが難しいからである。
データとモデルのメタデータ開示
OpenAI‘sは、データとモデルのメタデータの開示に関する二項対立の一例である。 多くのモデル開発者は、消費者の透明性を実現することに価値を見出していますが、開示は実際の安全上の問題をもたらし、モデルを誤用する能力を高める可能性があります。 GPT-4テクニカルレポートでは、「GPT-4のような大規模モデルの競争環境と安全への影響の両方を考慮し、このレポートには、アーキテクチャ(モデルサイズを含む)、ハードウェア、トレーニング計算、データセット構築、トレーニング方法、または同様のものに関するそれ以上の詳細は含まれていません
親トピック: AI リスク・アトラス
当社では、多くの基盤モデルのリスクを説明するために、プレス・モデルで扱われている例を提供しています。 報道機関によって扱われるこれらのイベントの多くは、まだ進化しているか解決されており、それらを参照することで、読者が潜在的なリスクを理解し、緩和に向けて取り組むことができるようになります。 これらの例を強調表示するのは、説明のみを目的としています。