0 / 0
資料の 英語版 に戻る
実動データからの合成データの作成
最終更新: 2024年6月24日
実動データからの合成データの作成

Synthetic Data Generator グラフィカル・エディター・フロー・ツールを使用して、実動データに基づいて構造化シンセティック・データ・セットを生成できます。 データのインポート、 匿名化mimic (合成データの生成)、エクスポート、および確認を行うことができます。

mimic および mask を使用して合成データを作成するには、 タスクを作成する必要があります。

1. 「合成表データ・フローの生成」 ウィンドウが開きます。 ユース・ケース「 既存のデータを活用」を選択します。 「次へ」をクリックします。 「合成表データ・フローの生成」ウィンドウ

2. 「データのインポート」を選択します。 データ・ファイルをプロジェクトにドラッグ・アンド・ドロップすることもできます。 プロジェクトからデータを選択することもできます。 詳しくは、 データのインポートを参照してください。 データのインポート

3. データをインポートした後、 Synthetic Data Generator グラフィカル・フロー・エディター・ツールを使用して、実動データを 匿名化 し、データをマスキングできます。 ノードのモデル・ダウンストリームに含まれるデータを処理する際に、列名または列値、あるいはその両方を隠すことができます。 例えば、銀行の顧客データを使用して、婚姻状況を非表示にすることができます。 データの匿名化

4. その後、 Synthetic Data Generator ツールを使用して、実動データを 模倣 できます。 これにより、一連の候補統計分布を使用してデータ内の各列を変更することで、実動データに基づいて合成データが生成されます。 模倣データ

5. 合成データをエクスポートして検討することができます。 詳しくは、 シンセティック・データのエクスポートを参照してください。 データのエクスポート

差分プライバシーの使用

差分プライバシーは、ユーザー・データが個々のユーザーにトレースバックされないように保護します。 関連するパラメーターは、プライバシー予算と呼ばれます。 これは、データ・セット内の 1 つの項目の追加または削除に基づくプライバシー損失のメトリックです。

実動データから作成された合成データに差分プライバシーを実装するには、以下のようにします。

1. 「模倣」 ノードを選択します。 「編集」を選択します。 模倣ノードで編集を選択

2. スクロールダウンして 「プライバシー」を選択します。 「プライバシー」 セクションで、 「差動プライバシーの有効化」をオンにします。 これにより、個人に固有の機密データが合成出力で公開されなくなります。 プライバシー保護のレベルは、プライバシー予算 (イプシロン) パラメーターとリーク (デルタ) パラメーターを調整することによって制御できます。

3. プライバシー予算 (イプシロン)を調整します。 プライバシー予算では、合成出力に必要なプライバシー保護のレベルを調整できます。 値を小さくすると、プライバシー保護が強化され、正確性が多少低下します。 値を大きくすると、精度が向上し、プライバシー保護が軽減されます。

4. プライバシー漏えいの可能性 (デルタ)を調整します。 デルタは通常、プライバシー漏えいの最大許容確率と呼ばれます。 デルタは 1/n*n 以下でなければなりません。ここで、n はサンプル・サイズです。 差分が小さいほど、プライバシーが保持されやすくなります。

5. ランダム・シードを生成します。 差分プライバシーが有効になっている場合、このランダム・シード値を使用すると、差分プライベート合成出力を再現できます。 差分プライバシーが無効になっている場合、 「生成」 ノードでランダム・シード値を調整できます。

6. 「列境界 (オプション) (Column bounds (optional))」を手動で調整します。 列の境界は自動的に適用されますが、これらの境界を手動で調整して、適合に使用される値の範囲を制限することができます。 数値列のみを選択できます。

7. 「プライバシー」 オプションを更新した後、 「保存」を選択します。 プライバシー・オプションの保存

8. 「すべて実行」を選択します。

差分プライバシーが有効になっている、合成的に生成されたデータ・セットに基づくパラメーターは、元のデータ・セットのパラメーターとは異なることに注意してください。

フローの実行後、 「生成」 ノードの結果では、列の境界は、差分プライバシー設定で設定されていても更新されないことに注意してください。 これは予期された動作です。 実際のデータ列の境界より大きい値または小さい値を入力すると、差分プライバシー値が新しい値に調整されます。 ただし、最小/最大列境界は、生成された合成データではなく、実際のデータにのみ適用されます。 この利点は、 生成 ノード中に、指定された最小/最大列境界によって差分プライバシーの結果が中断されることがないことです。 最小値と最大値を手動で設定すると、プライバシーの漏えいが発生する可能性があります。

詳細情報

カスタム・データ・スキーマからの合成データの作成