0 / 0
Retourner à la version anglaise de la documentation

Evaluation des données synthétiques

Dernière mise à jour : 22 août 2024
Evaluation des données synthétiques

L'efficacité des données synthétiques dépend de leur qualité, ce qui nécessite le développement et l'utilisation de mesures appropriées pour l'évaluation. À cet égard, les métriques de données synthétiques jouent un rôle crucial dans l'évaluation de la fidélité, de la diversité et de l'utilité des données générées.

Dans le domaine de la science des données et de l'apprentissage automatique, la disponibilité de données de haute qualité est primordiale pour la création de modèles précis et robustes. Cependant, dans de nombreux scénarios réels, l'obtention de données suffisantes et variées peut être une tâche difficile en raison de diverses contraintes telles que les problèmes de confidentialité, la rareté des données ou les processus coûteux d'acquisition de données. Pour relever ces défis, le concept de génération de données synthétiques a gagné en popularité, offrant une solution prometteuse pour augmenter ou remplacer les données du monde réel par des données générées artificiellement.

Synthetic Data Generator utilise des métriques de qualité, de confidentialité et d'utilitaire pour vous aider à évaluer vos données synthétiques.

Comment évaluer vos données synthétiques

Pour évaluer vos données synthétiques, vous pouvez connecter votre noeud Evaluer entre un noeud Importer et un noeud Générer . Comment se connecter pour évaluer vos données synthétiques

Vous pouvez également connecter votre noeud Evaluer entre deux noeuds Importer ou entre deux noeuds Générer .

Après avoir connecté votre noeud Evaluer , cliquez sur le bouton Editer . Comment éditer votre noeud Evaluer

Options du noeud d'évaluation

Les sous-rubriques suivantes expliquent comment choisir les options d'évaluation de vos données synthétiques.

Important: Des enregistrements en double peuvent se produire dans les données synthétiques. Vous pouvez choisir l'option Supprimer les enregistrements en double, qui supprimera les enregistrements en double s'ils dépassent 5 % de l'ensemble de données, en ne conservant que la première occurrence.
Important: Si vous n'avez pas correctement connecté les noeuds, l'erreur suivante s'affiche: une entrée de version de référence est requise

Métriques de qualité

Score de fidélité

Agrège plusieurs métriques qui reflètent la similarité entre les données réelles et les données synthétiques des distributions pour les colonnes individuelles, ainsi que la similarité des corrélations pour toutes les paires de colonnes.

Distinguabilité des données

Capture la capacité d'un discriminant binaire à séparer les données réelles des données synthétiques. Plus il est difficile d'entraîner un tel classifieur, meilleure est la qualité des données synthétiques par rapport à sa capacité à refléter les propriétés statistiques des données réelles.

Métriques de confidentialité

Score de fuite

Mesure la fraction des lignes des données synthétiques qui sont identiques à certaines lignes des données réelles.

Score de proximité

Calculée à partir de la distance entre les points des données synthétiques et les données réelles. Plus cette distance est petite, plus il est facile d'isoler certaines lignes des données réelles, ce qui augmente le risque de confidentialité.

Métriques d'utilitaire

Utilitaire de prévision

Mesure l'utilité des données synthétiques pour les tâches en aval prédictives. Il évalue les performances des modèles prédictifs entraînés à partir des données synthétiques pour prédire avec précision une cible sélectionnée en utilisant des données réelles comme données de test.

Niveau d'évaluation

Évaluation simple

En mode d'évaluation simple, les métriques sont exécutées sur un seul modèle ML (Machine Learning).

Évaluation complète

En mode d'évaluation complète, les métriques sont évaluées et moyennées par rapport à plusieurs modèles ML (apprentissage automatique) dans la mesure du possible.