実動データからの合成データの作成

資料の英語版に戻る

実動データからの合成データの作成

最終更新: 2024年6月24日

実動データからの合成データの作成

Synthetic Data Generator グラフィカル・エディター・フロー・ツールを使用して、実動データに基づいて構造化シンセティック・データ・セットを生成できます。データのインポート、 匿名化、 mimic (合成データの生成)、エクスポート、および確認を行うことができます。

mimic および mask を使用して合成データを作成するには、タスクを作成する必要があります。

1. 「合成表データ・フローの生成」 ウィンドウが開きます。ユース・ケース「 既存のデータを活用」を選択します。 「次へ」をクリックします。「合成表データ・フローの生成」ウィンドウ

2. 「データのインポート」を選択します。データ・ファイルをプロジェクトにドラッグ・アンド・ドロップすることもできます。プロジェクトからデータを選択することもできます。詳しくは、データのインポートを参照してください。

3. データをインポートした後、 Synthetic Data Generator グラフィカル・フロー・エディター・ツールを使用して、実動データを 匿名化 し、データをマスキングできます。ノードのモデル・ダウンストリームに含まれるデータを処理する際に、列名または列値、あるいはその両方を隠すことができます。例えば、銀行の顧客データを使用して、婚姻状況を非表示にすることができます。データの匿名化

4. その後、 Synthetic Data Generator ツールを使用して、実動データを模倣できます。これにより、一連の候補統計分布を使用してデータ内の各列を変更することで、実動データに基づいて合成データが生成されます。模倣データ

5. 合成データをエクスポートして検討することができます。詳しくは、シンセティック・データのエクスポートを参照してください。

差分プライバシーの使用

差分プライバシーは、ユーザー・データが個々のユーザーにトレースバックされないように保護します。関連するパラメーターは、プライバシー予算と呼ばれます。これは、データ・セット内の 1 つの項目の追加または削除に基づくプライバシー損失のメトリックです。

実動データから作成された合成データに差分プライバシーを実装するには、以下のようにします。

1. 「模倣」 ノードを選択します。 「編集」を選択します。模倣ノードで編集を選択

2. スクロールダウンして 「プライバシー」を選択します。 「プライバシー」 セクションで、 「差動プライバシーの有効化」をオンにします。これにより、個人に固有の機密データが合成出力で公開されなくなります。プライバシー保護のレベルは、プライバシー予算 (イプシロン) パラメーターとリーク (デルタ) パラメーターを調整することによって制御できます。

3. プライバシー予算 (イプシロン)を調整します。プライバシー予算では、合成出力に必要なプライバシー保護のレベルを調整できます。値を小さくすると、プライバシー保護が強化され、正確性が多少低下します。値を大きくすると、精度が向上し、プライバシー保護が軽減されます。

4. プライバシー漏えいの可能性 (デルタ)を調整します。デルタは通常、プライバシー漏えいの最大許容確率と呼ばれます。デルタは 1/n*n 以下でなければなりません。ここで、n はサンプル・サイズです。差分が小さいほど、プライバシーが保持されやすくなります。

5. ランダム・シードを生成します。差分プライバシーが有効になっている場合、このランダム・シード値を使用すると、差分プライベート合成出力を再現できます。差分プライバシーが無効になっている場合、 「生成」 ノードでランダム・シード値を調整できます。

6. 「列境界 (オプション) (Column bounds (optional))」を手動で調整します。列の境界は自動的に適用されますが、これらの境界を手動で調整して、適合に使用される値の範囲を制限することができます。数値列のみを選択できます。

7. 「プライバシー」 オプションを更新した後、 「保存」を選択します。プライバシー・オプションの保存

8. 「すべて実行」を選択します。

差分プライバシーが有効になっている、合成的に生成されたデータ・セットに基づくパラメーターは、元のデータ・セットのパラメーターとは異なることに注意してください。

フローの実行後、 「生成」 ノードの結果では、列の境界は、差分プライバシー設定で設定されていても更新されないことに注意してください。これは予期された動作です。実際のデータ列の境界より大きい値または小さい値を入力すると、差分プライバシー値が新しい値に調整されます。ただし、最小/最大列境界は、生成された合成データではなく、実際のデータにのみ適用されます。この利点は、生成ノード中に、指定された最小/最大列境界によって差分プライバシーの結果が中断されることがないことです。最小値と最大値を手動で設定すると、プライバシーの漏えいが発生する可能性があります。

詳細情報

カスタム・データ・スキーマからの合成データの作成