Utilizando la herramienta de flujo de editor gráfico Synthetic Data Generator , puede generar un conjunto de datos sintéticos estructurados basados en los datos de producción. Puede importar datos, anonimizar, imitar (para generar datos sintéticos), exportar y revisar los datos.
Para poder utilizar mimic y mask para crear datos sintéticos, necesita para crear una tarea.
1. Se abre la ventana Generar flujo de datos tabulares sintéticos . Seleccione el caso de uso Aprovechar los datos existentes. Pulse Siguiente.
2. Seleccione Importar datos. También puede arrastrar y soltar un archivo de datos en el proyecto. También puede seleccionar datos de un proyecto. Para obtener más información, consulte Importación de datos.
3. Una vez que haya importado los datos, puede utilizar la herramienta de editor de flujo gráfico Synthetic Data Generator para anonimizar los datos de producción, enmascarando los datos. Puede disimular nombres de columna, valores de columna, o ambos, cuando trabaje con datos que se van a incluir en un modelo en sentido descendente del nodo. Por ejemplo, puede utilizar datos de clientes bancarios y ocultar el estado civil.
4. A continuación, puede utilizar la herramienta Synthetic Data Generator para imitar los datos de producción. Esto generará datos sintéticos, basándose en los datos de producción, utilizando un conjunto de distribuciones estadísticas candidatas para modificar cada columna de los datos.
5. Puede exportar sus datos sintéticos y revisarlos. Para obtener más información, consulte Exportación de datos sintéticos.
Utilización de la privacidad diferencial
La privacidad diferencial protege los datos de usuario de ser rastreados a usuarios individuales. Los parámetros implicados se conocen como el presupuesto de privacidad. Esta es una métrica de pérdida de privacidad basada en la adición o eliminación de una entrada en un conjunto de datos.
Para implementar la privacidad diferencial en los datos sintéticos creados a partir de los datos de producción:
1. Seleccione el nodo Mimic . Seleccione Editar.
2. Desplácese hacia abajo y seleccione Privacidad. En la sección Privacidad , active Habilitar privacidad diferencial. Esto garantizará que no se expongan datos confidenciales específicos de ninguna persona en la salida sintética. Puede controlar el nivel de protección de privacidad ajustando el presupuesto de privacidad (epsilon) y los parámetros de fuga (delta).
3. Ajuste el presupuesto de privacidad de (epsilon). El presupuesto de privacidad le permite ajustar el nivel de protección de privacidad requerido en su salida sintética. Un valor menor proporciona una mayor protección de la privacidad, con alguna pérdida de precisión. Un valor mayor proporciona una mayor precisión, con menos protección de la privacidad.
4. Ajuste la probabilidad de fuga de privacidad (delta). Delta se suele denominar como la probabilidad máxima permitida de una fuga de privacidad. Delta debe ser menor o igual que 1/n*n, donde n = tamaño de muestra. Cuanto más pequeño sea el delta, mejor se preservará la privacidad.
5. Genere una semilla aleatoria. Cuando la privacidad diferencial está habilitada, este valor de semilla aleatoria le permitirá reproducir su salida sintética privada diferencialmente. Cuando la privacidad diferencial está inhabilitada, el valor de semilla aleatoria se puede ajustar en el nodo Generar .
6. Ajuste manualmente los límites de columna (opcional). Los límites de columna se aplican automáticamente, pero puede ajustar manualmente estos límites para restringir el rango de valores utilizados para el ajuste. Sólo puede seleccionar columnas numéricas.
7. Después de actualizar las opciones de Privacidad , seleccione Guardar.
8. Seleccione Ejecutar todo.
Tenga en cuenta que los parámetros que se basan en el conjunto de datos generado sintéticamente donde se ha habilitado la privacidad diferencial diferirán de los parámetros del conjunto de datos original.
Tenga en cuenta que, después de una ejecución de flujo, en los resultados del nodo Generar , los límites de columna no se actualizan, aunque se hayan establecido en los valores de privacidad diferenciales. Este es el comportamiento esperado. Si especifica un valor mayor o menor que los límites de la columna de datos reales, los valores de privacidad diferencial se ajustarán a los nuevos valores. Sin embargo, los límites de columna mínimo/máximo sólo se aplicarán a los datos reales y no a los datos sintéticos generados. La ventaja de esto es que los resultados de privacidad diferencial no se verán interrumpidos por un límite de columna mínimo/máximo especificado durante el nodo Generar . Si se establece manualmente un mínimo y un máximo, se podría producir una fuga de privacidad.
Más información
Creación de datos sintéticos a partir de un esquema de datos personalizado