AI のデータ透過性リスク
説明
モデルのデータがどのように収集され、キュレートされ、モデルのトレーニングに使用されたかに関する正確な文書がないと、データに関してモデルの動作を十分に説明することが困難になる可能性があります。
データ透過性がファウンデーション・モデルの関心事であるのはなぜですか?
データの透明性は、法的なコンプライアンスと AI 倫理にとって重要です。 情報が欠落していると、データに関連するリスクを評価する機能が制限されます。 標準化された要件がないと、企業が企業秘密を保護し、他の企業がモデルをコピーすることを制限しようとするため、開示が制限される可能性があります。
![入力に関連付けられたリスクの背景イメージ](images/background-input-example.jpg)
データとモデルのメタデータ開示
OpenAIのテクニカル・レポートは、データとモデル・メタデータの開示に関する二分法の例です。 多くのモデル開発者は、消費者の透明性を実現することに価値を見出していますが、開示は実際の安全上の問題をもたらし、モデルを誤用する能力を高める可能性があります。 GPT-4 テクニカル・レポートには、「 GPT-4のような大規模なモデルの競合状況と安全上の影響の両方を考慮すると、このレポートには、アーキテクチャー (モデル・サイズを含む)、ハードウェア、トレーニング・コンピュート、データ・セット構築、トレーニング方式などに関する詳細は含まれていません。」と記載されています。
親トピック: AI リスク・アトラス
当社では、多くの基盤モデルのリスクを説明するために、プレス・モデルで扱われている例を提供しています。 報道機関によって扱われるこれらのイベントの多くは、まだ進化しているか解決されており、それらを参照することで、読者が潜在的なリスクを理解し、緩和に向けて取り組むことができるようになります。 これらの例を強調表示するのは、説明のみを目的としています。