0 / 0
Zurück zur englischen Version der Dokumentation
Synthetische Daten aus Produktionsdaten erstellen
Letzte Aktualisierung: 24. Juni 2024
Synthetische Daten aus Produktionsdaten erstellen

Mit dem Flow-Tool Synthetic Data Generator können Sie ein strukturiertes synthetisches Dataset auf der Basis Ihrer Produktionsdaten generieren. Sie können Daten importieren, anonymisieren, imitieren (um synthetische Daten zu generieren), exportieren und überprüfen.

Bevor Sie mimic und mask verwenden können, um synthetische Daten zu erstellen, müssen Sie eine Task erstellen.

1. Das Fenster Synthetischen Tabellarischen Datenfluss generieren wird geöffnet. Wählen Sie den Anwendungsfall Vorhandene Daten nutzenaus. Klicken Sie auf Next. Fenster 'Ablauf für synthetische Tabellendaten generieren'

2. Wählen Sie Daten importierenaus. Sie können auch eine Datendatei in Ihr Projekt ziehen und ablegen. Sie können auch Daten aus einem Projekt auswählen. Weitere Informationen finden Sie unter Daten importieren. Daten importieren

3. Nachdem Sie Ihre Daten importiert haben, können Sie das grafisch orientierte Flow-Editor-Tool Synthetic Data Generator verwenden, um Ihre Produktionsdaten zu anonymisieren und die Daten zu maskieren. Sie können Spaltennamen und/oder Spaltenwerte verschleiern, wenn Sie mit Daten arbeiten, die in ein nachgeordnetes Modell des Knotens eingeschlossen werden sollen. Sie können beispielsweise Bankkundendaten verwenden und den Familienstand ausblenden. Daten anonymisieren

4. Anschließend können Sie das Tool Synthetic Data Generator verwenden, um Ihre Produktionsdaten nachzuahmen . Dadurch werden synthetische Daten auf der Basis Ihrer Produktionsdaten generiert, wobei eine Gruppe von potenziellen statistischen Verteilungen verwendet wird, um jede Spalte in Ihren Daten zu ändern. Daten nachahmen

5. Sie können Ihre synthetischen Daten exportieren und überprüfen. Weitere Informationen finden Sie unter Synthetische Daten exportieren. Daten exportieren

Differenzierte Privatsphäre verwenden

Differenzierte Privatsphäre schützt Benutzerdaten vor Rückverfolgung zu einzelnen Benutzern. Die beteiligten Parameter werden als Datenschutzbudget bezeichnet. Dies ist eine Metrik des Datenschutzverlusts, die auf dem Hinzufügen oder Entfernen eines Eintrags in einem Dataset basiert.

Gehen Sie wie folgt vor, um differenzierten Datenschutz in Ihren synthetischen Daten zu implementieren, die aus Produktionsdaten erstellt wurden:

1. Wählen Sie den Knoten Mimic aus. Wählen Sie Bearbeitenaus. 'Bearbeiten' auf Mimic-Knoten auswählen

2. Blättern Sie abwärts und wählen Sie Datenschutzaus. Aktivieren Sie im Abschnitt Datenschutz die Option differenziellen Datenschutz aktivieren. Dadurch wird sichergestellt, dass keine für eine Person spezifischen sensiblen Daten in der synthetischen Ausgabe zugänglich gemacht werden. Sie können die Stufe des Datenschutzes steuern, indem Sie die Parameter für das Datenschutzbudget (epsilon) und das Leckage (delta) anpassen.

3. Passen Sie das Datenschutzbudget (epsilon)an. Das Datenschutzbudget ermöglicht es Ihnen, die für Ihre synthetische Ausgabe erforderliche Datenschutzstufe zu optimieren. Ein kleinerer Wert bietet einen höheren Datenschutz mit einem gewissen Verlust an Genauigkeit. Ein höherer Wert bietet eine höhere Genauigkeit bei geringerem Datenschutz.

4. Passen Sie die Wahrscheinlichkeit für Datenschutzlecks (Delta)an. Delta wird in der Regel als die maximal zulässige Wahrscheinlichkeit eines Datenschutzlecks bezeichnet. Delta sollte kleiner-gleich 1/n*n sein, wobei n = Stichprobenumfang ist. Je kleiner das Delta ist, desto besser ist die Privatsphäre geschützt.

5. Generieren Sie einen Zufallsstartwert. Wenn der differenzierte Datenschutz aktiviert ist, können Sie mit diesem Startwert für Zufallszahlen Ihre differentiell private synthetische Ausgabe reproduzieren. Wenn der unterschiedliche Datenschutz inaktiviert ist, kann der Startwert für Zufallszahlen im Knoten Generieren angepasst werden.

6. Passen Sie die Spaltengrenzen (optional)manuell an. Spaltengrenzen werden automatisch angewendet, aber Sie können diese Grenzen manuell anpassen, um den Wertebereich für die Anpassung zu beschränken. Sie können nur numerische Spalten auswählen.

7. Wählen Sie nach der Aktualisierung der Optionen für Datenschutz die Option Speichernaus. Datenschutzoptionen speichern

8. Wählen Sie Alle ausführenaus.

Beachten Sie, dass sich Parameter, die auf dem synthetisch generierten Dataset basieren, bei dem der differenzielle Datenschutz aktiviert wurde, von den Parametern im ursprünglichen Dataset unterscheiden.

Beachten Sie, dass die Spaltengrenzen nach der Ausführung eines Ablaufs in den Ergebnissen des Knotens Generieren nicht aktualisiert werden, obwohl sie in den unterschiedlichen Datenschutzeinstellungen festgelegt wurden. Dies ist das erwartete Verhalten. Wenn Sie einen Wert eingeben, der größer oder kleiner als die tatsächlichen Datenspaltengrenzen ist, dann werden die unterschiedlichen Datenschutzwerte an die neuen Werte angepasst. Die minimale/maximale Spaltenbegrenzung wird jedoch nur auf die realen Daten und nicht auf die generierten synthetischen Daten angewendet. Dies hat den Vorteil, dass die differenziellen Datenschutzergebnisse nicht durch eine angegebene minimale/maximale Spaltenbegrenzung während des Generierungsknotens unterbrochen werden. Manuell festgelegte Minimal-und Maximalwerte können zu Datenschutzlecks führen.

Weitere Informationen

Synthetische Daten aus einem angepassten Datenschema erstellen

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen