Evaluation des données synthétiques
L'efficacité des données synthétiques dépend de leur qualité, ce qui nécessite le développement et l'utilisation de mesures appropriées pour l'évaluation. À cet égard, les métriques de données synthétiques jouent un rôle crucial dans l'évaluation de la fidélité, de la diversité et de l'utilité des données générées.
Dans le domaine de la science des données et de l'apprentissage automatique, la disponibilité de données de haute qualité est primordiale pour la création de modèles précis et robustes. Cependant, dans de nombreux scénarios réels, l'obtention de données suffisantes et variées peut être une tâche difficile en raison de diverses contraintes telles que les problèmes de confidentialité, la rareté des données ou les processus coûteux d'acquisition de données. Pour relever ces défis, le concept de génération de données synthétiques a gagné en popularité, offrant une solution prometteuse pour augmenter ou remplacer les données du monde réel par des données générées artificiellement.
Synthetic Data Generator utilise des métriques de qualité, de confidentialité et d'utilitaire pour vous aider à évaluer vos données synthétiques.
Comment évaluer vos données synthétiques
Pour évaluer vos données synthétiques, vous pouvez connecter votre noeud Evaluer entre un noeud Importer et un noeud Générer .
Vous pouvez également connecter votre noeud Evaluer entre deux noeuds Importer ou entre deux noeuds Générer .
Après avoir connecté votre noeud Evaluer , cliquez sur le bouton Editer .
Les sous-rubriques suivantes expliquent comment choisir les options d'évaluation de vos données synthétiques.
Métriques de qualité
Score de fidélité
Agrège plusieurs métriques qui reflètent la similarité entre les données réelles et les données synthétiques des distributions pour les colonnes individuelles, ainsi que la similarité des corrélations pour toutes les paires de colonnes.
Distinguabilité des données
Capture la capacité d'un discriminant binaire à séparer les données réelles des données synthétiques. Plus il est difficile d'entraîner un tel classifieur, meilleure est la qualité des données synthétiques par rapport à sa capacité à refléter les propriétés statistiques des données réelles.
Métriques de confidentialité
Score de fuite
Mesure la fraction des lignes des données synthétiques qui sont identiques à certaines lignes des données réelles.
Score de proximité
Calculée à partir de la distance entre les points des données synthétiques et les données réelles. Plus cette distance est petite, plus il est facile d'isoler certaines lignes des données réelles, ce qui augmente le risque de confidentialité.
Métriques d'utilitaire
Utilitaire de prévision
Mesure l'utilité des données synthétiques pour les tâches en aval prédictives. Il évalue les performances des modèles prédictifs entraînés à partir des données synthétiques pour prédire avec précision une cible sélectionnée en utilisant des données réelles comme données de test.
Niveau d'évaluation
Évaluation simple
En mode d'évaluation simple, les métriques sont exécutées sur un seul modèle ML (Machine Learning).
Évaluation complète
En mode d'évaluation complète, les métriques sont évaluées et moyennées par rapport à plusieurs modèles ML (apprentissage automatique) dans la mesure du possible.