Synthetic Data Generator グラフィカル・エディター・フロー・ツールを使用して、実動データに基づいて構造化シンセティック・データ・セットを生成できます。 データのインポート、 匿名化、 mimic (合成データの生成)、エクスポート、および確認を行うことができます。
mimic および mask を使用して合成データを作成するには、 タスクを作成する必要があります。
1. 「合成表データ・フローの生成」 ウィンドウが開きます。 ユース・ケース「 既存のデータを活用」を選択します。 「次へ」をクリックします。
2. 「データのインポート」を選択します。 データ・ファイルをプロジェクトにドラッグ・アンド・ドロップすることもできます。 プロジェクトからデータを選択することもできます。 詳しくは、 データのインポートを参照してください。
3. データをインポートした後、 Synthetic Data Generator グラフィカル・フロー・エディター・ツールを使用して、実動データを 匿名化 し、データをマスキングできます。 ノードのモデル・ダウンストリームに含まれるデータを処理する際に、列名または列値、あるいはその両方を隠すことができます。 例えば、銀行の顧客データを使用して、婚姻状況を非表示にすることができます。
4. その後、 Synthetic Data Generator ツールを使用して、実動データを 模倣 できます。 これにより、一連の候補統計分布を使用してデータ内の各列を変更することで、実動データに基づいて合成データが生成されます。
5. 合成データをエクスポートして検討することができます。 詳しくは、 シンセティック・データのエクスポートを参照してください。
差分プライバシーの使用
差分プライバシーは、ユーザー・データが個々のユーザーにトレースバックされないように保護します。 関連するパラメーターは、プライバシー予算と呼ばれます。 これは、データ・セット内の 1 つの項目の追加または削除に基づくプライバシー損失のメトリックです。
実動データから作成された合成データに差分プライバシーを実装するには、以下のようにします。
1. 「模倣」 ノードを選択します。 「編集」を選択します。
2. スクロールダウンして 「プライバシー」を選択します。 「プライバシー」 セクションで、 「差動プライバシーの有効化」をオンにします。 これにより、個人に固有の機密データが合成出力で公開されなくなります。 プライバシー保護のレベルは、プライバシー予算 (イプシロン) パラメーターとリーク (デルタ) パラメーターを調整することによって制御できます。
3. プライバシー予算 (イプシロン)を調整します。 プライバシー予算では、合成出力に必要なプライバシー保護のレベルを調整できます。 値を小さくすると、プライバシー保護が強化され、正確性が多少低下します。 値を大きくすると、精度が向上し、プライバシー保護が軽減されます。
4. プライバシー漏えいの可能性 (デルタ)を調整します。 デルタは通常、プライバシー漏えいの最大許容確率と呼ばれます。 デルタは 1/n*n 以下でなければなりません。ここで、n はサンプル・サイズです。 差分が小さいほど、プライバシーが保持されやすくなります。
5. ランダム・シードを生成します。 差分プライバシーが有効になっている場合、このランダム・シード値を使用すると、差分プライベート合成出力を再現できます。 差分プライバシーが無効になっている場合、 「生成」 ノードでランダム・シード値を調整できます。
6. 「列境界 (オプション) (Column bounds (optional))」を手動で調整します。 列の境界は自動的に適用されますが、これらの境界を手動で調整して、適合に使用される値の範囲を制限することができます。 数値列のみを選択できます。
7. 「プライバシー」 オプションを更新した後、 「保存」を選択します。
8. 「すべて実行」を選択します。
差分プライバシーが有効になっている、合成的に生成されたデータ・セットに基づくパラメーターは、元のデータ・セットのパラメーターとは異なることに注意してください。
フローの実行後、 「生成」 ノードの結果では、列の境界は、差分プライバシー設定で設定されていても更新されないことに注意してください。 これは予期された動作です。 実際のデータ列の境界より大きい値または小さい値を入力すると、差分プライバシー値が新しい値に調整されます。 ただし、最小/最大列境界は、生成された合成データではなく、実際のデータにのみ適用されます。 この利点は、 生成 ノード中に、指定された最小/最大列境界によって差分プライバシーの結果が中断されることがないことです。 最小値と最大値を手動で設定すると、プライバシーの漏えいが発生する可能性があります。