Die Effektivität synthetischer Daten hängt von ihrer Qualität ab, was die Entwicklung und Nutzung geeigneter Metriken für die Bewertung erfordert. In dieser Hinsicht spielen synthetische Datenmetriken eine entscheidende Rolle bei der Bewertung der Treue, Vielfalt und Nutzen von generierten Daten.
Im Bereich der Datenwissenschaft und des maschinellen Lernens ist die Verfügbarkeit hochwertiger Daten für die Erstellung präziser und robuster Modelle von größter Bedeutung. In vielen realen Szenarien kann das Abrufen von ausreichenden und vielfältigen Daten jedoch aufgrund verschiedener Einschränkungen wie Datenschutzbedenken, Datenknappheit oder teuren Datenerfassungsprozessen eine herausfordernde Aufgabe sein. Um diesen Herausforderungen gerecht zu werden, hat das Konzept der synthetischen Datengenerierung an Bedeutung gewonnen und bietet eine vielversprechende Lösung, um reale Daten durch künstlich generierte Daten zu erweitern oder zu ersetzen.
Synthetic Data Generator verwendet Metriken für Qualität, Datenschutz und Dienstprogramme, um Sie bei der Auswertung Ihrer synthetischen Daten zu unterstützen.
Synthetische Daten auswerten
Copy link to section
Um Ihre synthetischen Daten auszuwerten, können Sie Ihren Evaluate -Knoten zwischen einem Import -Knoten und einem Generate -Knoten verbinden.
Sie können Ihren Evaluate -Knoten auch zwischen zwei Import -Knoten oder zwischen zwei Generate -Knoten verbinden.
Nachdem Sie den Knoten Auswerten verbunden haben, klicken Sie auf die Schaltfläche Bearbeiten .
In den folgenden Unterabschnitten wird erläutert, wie die Optionen für die Auswertung Ihrer synthetischen Daten ausgewählt werden.
Wichtig: In synthetischen Daten können doppelte Datensätze auftreten. Sie können die Option Doppelte Datensätze entfernen wählen, wodurch doppelte Datensätze entfernt werden, wenn sie mehr als 5 % des Datensatzes ausmachen, wobei nur das erste Vorkommen erhalten bleibt.
Wichtig: Wenn Sie die Knoten nicht ordnungsgemäß verbunden haben, wird der folgende Fehler angezeigt: Baseline input is required
Qualitätsmetriken
Copy link to section
Genauigkeits-Score
Copy link to section
Aggregiert mehrere Metriken, die die Ähnlichkeit zwischen realen Daten und synthetischen Daten von Verteilungen für einzelne Spalten sowie die Ähnlichkeit von Korrelationen für alle Spaltenpaare widerspiegeln.
Unterscheidbarkeit der Daten
Copy link to section
Erfasst die Fähigkeit eines binären Klassifikationsmerkmals, reale Daten von synthetischen Daten trennen zu können. Je schwieriger ein solches Klassifikationsmerkmal zu trainieren ist, desto besser ist die Qualität der synthetischen Daten in Bezug auf ihre Fähigkeit, statistische Eigenschaften der realen Daten wiederzugeben.
Datenschutzmetriken
Copy link to section
Leckage-Score
Copy link to section
Misst den Bruchteil der Zeilen in den synthetischen Daten, die mit einigen Zeilen in den realen Daten identisch sind
Proximitäts-Score
Copy link to section
Wird aus dem Abstand zwischen Punkten in den synthetischen Daten und den realen Daten berechnet. Je kleiner dieser Abstand ist, desto einfacher ist es, einige Zeilen von den realen Daten zu isolieren, was das Datenschutzrisiko erhöht.
Nutzwertmetriken
Copy link to section
Dienstprogramm für Vorhersagen
Copy link to section
Misst die Zweckmäßigkeit der synthetischen Daten für nachgelagerte Vorhersagetasks. Es wertet die Leistung von Vorhersagemodellen aus, die aus den synthetischen Daten trainiert wurden, um ein ausgewähltes Ziel mithilfe realer Daten als Testdaten präzise vorherzusagen.
Bewertungsstufe
Copy link to section
Einfache Bewertung
Copy link to section
Im Modus 'Einfache Bewertung' werden Metriken auf einem einzigen ML-Modell (Machine Learning-Modell) ausgeführt.
Vollständige Bewertung
Copy link to section
Im vollständigen Bewertungsmodus werden Metriken ausgewertet und nach Möglichkeit anhand mehrerer ML-Modelle (Machine Learning) gemittelt.