Utilizzando lo strumento di flusso dell'editor grafico Synthetic Data Generator , è possibile generare un dataset sintetico strutturato basato sui dati di produzione. È possibile importare dati, anonimizzare, simulare (per generare dati sintetici), esportare ed esaminare i propri dati.
Prima di poter utilizzare mimic e mask per creare dati sintetici, è necessario creare un'attività.
1. Si apre la finestra Genera flusso di dati tabulari sintetici . Selezionare il caso di utilizzo Sfruttare i dati esistenti. Fare clic su Avanti .
2. Selezionare Importa dati. È anche possibile trascinare e rilasciare un file di dati nel progetto. È anche possibile selezionare i dati da un progetto. Per ulteriori informazioni, consultare Importazione di dati.
3. Una volta importati i dati, è possibile utilizzare lo strumento dell'editor del flusso grafico Synthetic Data Generator per anonimizzare i dati di produzione, mascherando i dati. È possibile mascherare i nomi delle colonne, i valori delle colonne o entrambi, quando si utilizzano i dati che devono essere inclusi in un modello downstream del nodo. Ad esempio, è possibile utilizzare i dati del cliente della banca e nascondere lo stato civile.
4. È possibile utilizzare lo strumento Synthetic Data Generator per imitare i dati di produzione. Ciò genererà dati sintetici, basati sui dati di produzione, utilizzando una serie di distribuzioni statistiche candidate per modificare ciascuna colonna nei dati.
5. È possibile esportare i dati sintetici ed esaminarli. Per ulteriori informazioni, consultare Esportazione di dati sintetici.
Utilizzo della privacy differenziale
La privacy differenziale protegge i dati utente dall'essere ricondotti a singoli utenti. I parametri coinvolti sono noti come budget per la privacy. Si tratta di una metrica di perdita della privacy basata sull'aggiunta o sulla rimozione di una voce in un dataset.
Per implementare la privacy differenziale nei dati sintetici creati dai dati di produzione:
1. Selezionare il nodo Mimico . Selezionare Modifica .
2. Scorrere verso il basso e selezionare Privacy. Nella sezione Privacy , attivare Abilita riservatezza differenziale. Ciò garantirà che nessun dato sensibile specifico di un individuo sia esposto nell'output sintetico. È possibile controllare il livello di protezione della privacy regolando i parametri di budget della privacy (epsilon) e di perdita (delta).
3. Regolare il budget della privacy (epsilon). Il budget per la privacy ti consente di ottimizzare il livello di protezione della privacy richiesto nel tuo output sintetico. Un valore più piccolo fornisce una maggiore protezione della privacy, con una certa perdita di precisione. Un valore più grande fornisce una maggiore precisione, con una protezione della privacy minore.
4. Regolare la probabilità di perdita della privacy (delta). Delta è di solito indicato come la massima probabilità consentita di una perdita di privacy. Delta deve essere minore o uguale a 1/n*n, dove n = dimensione del campione. Più piccolo è il delta, migliore è la tutela della privacy.
5. Creare un Valore di inizializzazione casuale. Quando la privacy differenziale è abilitata, questo valore di seed casuale consente di riprodurre l'output sintetico privato in modo differenziale. Quando la riservatezza differenziale è disabilitata, il valore seed casuale può essere regolato nel nodo Genera .
6. Regolare manualmente i limiti di colonna (facoltativo). I limiti di colonna vengono applicati automaticamente, ma è possibile regolare manualmente questi limiti per restringere l'intervallo di valori utilizzati per l'adattamento. È possibile selezionare solo colonne numeriche.
7. Dopo aver aggiornato le opzioni Privacy , selezionare Salva.
8. Selezionare Esegui tutto.
Notare che i parametri basati sul dataset generato sinteticamente in cui è stata abilitata la riservatezza differenziale differiranno dai parametri del dataset originale.
Tenere presente che, dopo l'esecuzione di un flusso, nei risultati del nodo Genera , i limiti di colonna non vengono aggiornati, anche se erano impostati nelle impostazioni di riservatezza differenziali. Questo è il funzionamento previsto. Se si immette un valore maggiore o minore dei limiti della colonna di dati reali, i valori di riservatezza differenziali verranno adattati ai nuovi valori. Tuttavia, i limiti di colonna minimo / massimo verranno applicati solo ai dati reali e non ai dati sintetici generati. Il vantaggio è che i risultati della riservatezza differenziale non saranno interrotti da un limite di colonna minimo / massimo specificato durante il nodo Genera . Impostare manualmente il minimo e il massimo potrebbe potenzialmente causare una perdita di privacy.
Ulteriori informazioni
Creazione di dati sintetici da uno schema dati personalizzato