0 / 0
資料の 英語版 に戻る
学習データ不足がAIにもたらす透明性リスク
最終更新: 2024年12月12日
学習データ不足がAIにもたらす透明性リスク
透明度 透明性リスクを表すアイコン。
入力に関連するリスク
トレーニングおよびチューニングのフェーズ
透明度
生成 AI による増幅

説明

モデルのデータがどのように収集され、キュレートされ、モデルのトレーニングに使用されたかに関する正確な文書がないと、データに関してモデルの動作を十分に説明することが困難になる可能性があります。

なぜ、トレーニングデータの透明性の欠如が基礎モデルの懸念となるのか?

データの文書化が不足していると、データに関連するリスクを評価する能力が制限される。 トレーニングデータにアクセスできるだけでは十分ではない。 データがどのようにクリーニングされ、修正され、生成されたかを記録しなければ、モデルの挙動を理解することも修正することも難しくなる。 データの透明性の欠如は、モデルの再利用にも影響する。なぜなら、そのような文書がなければ、新しい用途のためのデータの代表性を判断することが難しいからである。

入力に関連付けられたリスクの背景イメージ

データとモデルのメタデータ開示

OpenAI‘sは、データとモデルのメタデータの開示に関する二項対立の一例である。 多くのモデル開発者は、消費者の透明性を実現することに価値を見出していますが、開示は実際の安全上の問題をもたらし、モデルを誤用する能力を高める可能性があります。 GPT-4テクニカルレポートでは、「GPT-4のような大規模モデルの競争環境と安全への影響の両方を考慮し、このレポートには、アーキテクチャ(モデルサイズを含む)、ハードウェア、トレーニング計算、データセット構築、トレーニング方法、または同様のものに関するそれ以上の詳細は含まれていません

親トピック: AI リスク・アトラス

当社では、多くの基盤モデルのリスクを説明するために、プレス・モデルで扱われている例を提供しています。 報道機関によって扱われるこれらのイベントの多くは、まだ進化しているか解決されており、それらを参照することで、読者が潜在的なリスクを理解し、緩和に向けて取り組むことができるようになります。 これらの例を強調表示するのは、説明のみを目的としています。

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細