Création de données synthétiques à partir de données de production
A l'aide de l'outil de flux de l'éditeur graphique Synthetic Data Generator , vous pouvez générer un ensemble de données synthétique structuré en fonction de vos données de production. Vous pouvez importer des données, anonymiser, imiter (pour générer des données synthétiques), exporter et réviser vos données.
Avant de pouvoir utiliser mimic et mask pour créer des données synthétiques, vous devez créer une tâche.
1. La fenêtre Générer un flux de données tabulaires synthétiques s'ouvre. Sélectionnez le cas d'utilisation Tirez parti de vos données existantes. Cliquez sur Suivant.
2. Sélectionnez Importer des données. Vous pouvez également faire glisser et déposer un fichier de données dans votre projet. Vous pouvez également sélectionner des données dans un projet. Pour plus d'informations, voir Importation de données.
3. Une fois que vous avez importé vos données, vous pouvez utiliser l'éditeur de flux graphique Synthetic Data Generator pour anonymiser vos données de production, en masquant les données. Vous pouvez masquer des noms de colonne et / ou des valeurs de colonne lorsque vous utilisez des données à inclure dans un modèle en aval du noeud. Par exemple, vous pouvez utiliser les données client de la banque et masquer l'état civil.
4. Vous pouvez ensuite utiliser l'outil Synthetic Data Generator pour imiter vos données de production. Cela générera des données synthétiques, en fonction de vos données de production, à l'aide d'un ensemble de distributions statistiques candidates pour modifier chaque colonne de vos données.
5. Vous pouvez exporter vos données synthétiques et les consulter. Pour plus d'informations, voir Exportation de données synthétiques.
Utilisation de la confidentialité différentielle
La confidentialité différentielle protège les données utilisateur contre le traçage des utilisateurs individuels. Les paramètres impliqués sont connus sous le nom de budget de confidentialité. Il s'agit d'une mesure de la perte de confidentialité basée sur l'ajout ou la suppression d'une entrée dans un jeu de données.
Pour implémenter la confidentialité différentielle dans vos données synthétiques créées à partir de données de production:
1. Sélectionnez le noeud Mimic . Sélectionnez Editer.
2. Faites défiler vers le bas et sélectionnez Confidentialité. Dans la section Confidentialité , activez Activer la confidentialité différentielle. Cela garantit qu'aucune donnée sensible spécifique à un individu n'est exposée dans la sortie synthétique. Vous pouvez contrôler le niveau de protection de la vie privée en ajustant le budget de la vie privée (epsilon) et les paramètres de fuite (delta).
3. Réglez le budget de confidentialité (epsilon). Le budget de la protection de la vie privée vous permet d'optimiser le niveau de protection de la vie privée requis dans votre sortie synthétique. Une valeur plus faible offre une plus grande protection de la confidentialité, avec une certaine perte de précision. Une valeur plus élevée offre une plus grande précision, avec moins de protection de la confidentialité.
4. Réglez la probabilité de fuite de confidentialité (delta). Delta est généralement désigné comme la probabilité maximale admissible d'une fuite de confidentialité. Delta doit être inférieur ou égal à 1/n*n, où n = taille de l'échantillon. Plus le delta est petit, plus la confidentialité est préservée.
5. Générez une valeur de départ aléatoire. Lorsque la confidentialité différentielle est activée, cette valeur de départ aléatoire vous permet de reproduire votre sortie synthétique privée différentielle. Lorsque la confidentialité différentielle est désactivée, la valeur de départ aléatoire peut être ajustée dans le noeud Générer .
6. Réglez manuellement les bornes de colonne (facultatif). Les limites de colonne sont automatiquement appliquées, mais vous pouvez les ajuster manuellement pour limiter la plage de valeurs utilisées pour l'ajustement. Vous ne pouvez sélectionner que des colonnes numériques.
7. Après avoir mis à jour les options Confidentialité , sélectionnez Sauvegarder.
8. Sélectionnez Exécuter tout.
Notez que les paramètres basés sur le jeu de données généré de manière synthétique dans lequel la confidentialité différentielle a été activée diffèrent des paramètres de votre jeu de données d'origine.
Notez qu'après une exécution de flux, dans les résultats du noeud Générer , les limites de colonne ne sont pas mises à jour, même si elles ont été définies dans les paramètres de confidentialité différentiels. Il s'agit du comportement attendu. Si vous entrez une valeur supérieure ou inférieure aux limites des colonnes de données réelles, les valeurs de confidentialité différentielles seront ajustées aux nouvelles valeurs. Toutefois, les limites de colonne minimale / maximale ne seront appliquées qu'aux données réelles et non aux données synthétiques générées. L'avantage est que les résultats de la confidentialité différentielle ne seront pas perturbés par une limite de colonne minimale / maximale spécifiée lors de la génération du noeud Générer . La définition manuelle du minimum et du maximum peut potentiellement entraîner une fuite de confidentialité.
En savoir plus
Création de données synthétiques à partir d'un schéma de données personnalisé