0 / 0
資料の 英語版 に戻る

合成データの評価

最終更新: 2024年8月22日
合成データの評価

シンセティック・データの有効性は、その品質に依存します。これにより、評価のために適切なメトリックの開発と使用が必要になります。 この点で、合成データ・メトリックは、生成されたデータの精度、多様性、および効用を評価する上で重要な役割を果たします。

データ・サイエンスと機械学習の領域では、正確で堅固なモデルを構築するために、高品質のデータの可用性が最も重要です。 しかし、多くの実世界のシナリオでは、プライバシー上の懸念、データ不足、または高額なデータ収集プロセスなどのさまざまな制約のために、十分な数の多様なデータを取得することが困難な作業になる可能性があります。 これらの課題に対処するために、合成データ生成の概念が採用され、現実世界のデータを人工的に生成されたデータに拡張または置換するための有望なソリューションが提供されています。

Synthetic Data Generator は、品質、プライバシー、およびユーティリティーの各メトリックを使用して、合成データの評価を支援します。

合成データの評価方法

合成データを評価するために、 インポート ・ノードと 生成 ノードの間で 「評価」 ノードを接続できます。 シンセティック・データを評価するための接続方法

Evaluate ノードは、2 つの Import ノード間、または 2 つの Generate ノード間で接続することもできます。

「評価」 ノードに接続したら、 「編集」 ボタンをクリックします。 評価ノードを編集する方法

評価ノードのオプション

以下のサブトピックでは、合成データを評価するためのオプションを選択する方法について説明します。

重要 合成データには重複レコードが発生する可能性があります。 重複レコードの削除]オプションを選択すると、重複レコードがデータセットの5パーセントを超えた場合に削除され、最初に出現したレコードだけが保存されます。
重要: ノードを正しく接続していない場合は、「ベースラインの入力が必要です (Baseline input is required)」というエラーが表示されます。

品質メトリック

精度スコア

列のすべてのペアに関する相関の類似性とともに、個々の列について分布の実データと合成データ間の類似性を反映する複数のメトリックを集約します。

データの識別性

バイナリー分類器が合成データから実データを分離する機能をキャプチャーします。 このような分類器のトレーニングが難しくなるほど、実際のデータの統計的特性を反映する能力に関して、合成データの品質が向上します。

プライバシー・メトリック

漏えいスコア

合成データ内の、実際のデータ内のいくつかの行と同一の行の割合を測定します。

接近性スコア

合成データと実データとポイント間の距離から計算されます。 この距離が短いほど、いくつかの行を実際のデータから分離することが容易になり、プライバシー・リスクが増大します。

ユーティリティー・メトリック

予測ユーティリティー

予測ダウンストリーム・タスクに対する合成データの有用性を測定します。 これは、合成データからトレーニングされた予測モデルのパフォーマンスを評価し、実際のデータをテスト・データとして使用して、選択されたターゲットを正確に予測します。

アセスメント・レベル

シンプル・アセスメント

シンプル・アセスメント・モードでは、メトリックは1つのML (機械学習) モデルで実行されます。

フル・アセスメント

フル・アセスメント・モードでは、メトリックは可能な限り、複数の ML (機械学習) モデルに対して評価および平均化されます。