L'efficacia dei dati sintetici dipende dalla loro qualità, che richiede lo sviluppo e l'utilizzo di metriche appropriate per la valutazione. A questo proposito, le metriche dei dati sintetici svolgono un ruolo cruciale nella valutazione della fedeltà, della diversità e dell'utilità dei dati generati.
Nel campo della scienza dei dati e dell'apprendimento automatico, la disponibilità di dati di alta qualità è fondamentale per creare modelli precisi e robusti. Tuttavia, in molti scenari del mondo reale, ottenere dati sufficienti e diversificati può essere un compito impegnativo a causa di vari vincoli come i problemi di privacy, la scarsità di dati o costosi processi di acquisizione dei dati. Per affrontare queste sfide, il concetto di generazione di dati sintetici ha guadagnato terreno, offrendo una soluzione promettente per aumentare o sostituire i dati del mondo reale con dati generati artificialmente.
Synthetic Data Generator utilizza metriche di qualità, privacy e utilità per valutare i dati sintetici.
Come valutare i dati sintetici
Copy link to section
Per valutare dati sintetici, è possibile collegare il nodo Valuta tra un nodo Importa e un nodo Genera .
È anche possibile connettere il proprio nodo Valuta tra due nodi Importa o tra due nodi Genera .
Dopo aver connesso il nodo Valuta , fare clic sul pulsante Modifica .
I seguenti argomenti secondari spiegano come scegliere le opzioni per valutare i dati sintetici.
Importante: Nei dati sintetici possono verificarsi record doppi. È possibile scegliere l'opzione Rimuovi record duplicati, che rimuove i record duplicati se superano il 5% del set di dati, mantenendo solo la prima occorrenza.
Importante: se i nodi non sono stati connessi correttamente, verrà visualizzato l'errore: l'input Baseline è obbligatorio
Metriche sulla qualità
Copy link to section
Punteggio di fedeltà
Copy link to section
Aggrega più metriche che riflettono la similarità tra i dati reali e i dati sintetici delle distribuzioni per le singole colonne, insieme alla similarità delle correlazioni per tutte le coppie di colonne.
Distinguibilità dei dati
Copy link to section
Acquisisce la capacità di classificatore binario di separare i dati reali dai dati sintetici. Più difficile è addestrare un classificatore di questo tipo, migliore è la qualità dei dati sintetici rispetto alla sua capacità di riflettere le proprietà statistiche dei dati reali.
Metriche sulla privacy
Copy link to section
Punteggio di perdita
Copy link to section
Misura la frazione di righe nei dati sintetici che sono identiche ad alcune righe nei dati reali.
Punteggio di prossimità
Copy link to section
Calcolato dalla distanza tra i punti nei dati sintetici e nei dati reali. Più è piccola questa distanza, più è facile isolare alcune righe dai dati reali, il che aumenta il rischio di privacy.
Metriche sulle utilità
Copy link to section
Utilità predittiva
Copy link to section
Misura l'utilità dei dati sintetici per le attività downstream predittive. Valuta le prestazioni dei modelli predittivi addestrati dai dati sintetici per prevedere in modo accurato un obiettivo selezionato utilizzando i dati reali come dati di test.
Livello di valutazione
Copy link to section
Valutazione semplice
Copy link to section
In modalità di valutazione semplice, le metriche vengono eseguite su un unico modello ML (machine learning).
Valutazione completa
Copy link to section
In modalità di valutazione completa, le metriche vengono valutate e calcolate in base alla media rispetto a più modelli ML (machine learning) quando possibile.