Valutazione dei dati sintetici

Ultimo aggiornamento: 22 ago 2024
Valutazione dei dati sintetici

L'efficacia dei dati sintetici dipende dalla loro qualità, che richiede lo sviluppo e l'utilizzo di metriche appropriate per la valutazione. A questo proposito, le metriche dei dati sintetici svolgono un ruolo cruciale nella valutazione della fedeltà, della diversità e dell'utilità dei dati generati.

Nel campo della scienza dei dati e dell'apprendimento automatico, la disponibilità di dati di alta qualità è fondamentale per creare modelli precisi e robusti. Tuttavia, in molti scenari del mondo reale, ottenere dati sufficienti e diversificati può essere un compito impegnativo a causa di vari vincoli come i problemi di privacy, la scarsità di dati o costosi processi di acquisizione dei dati. Per affrontare queste sfide, il concetto di generazione di dati sintetici ha guadagnato terreno, offrendo una soluzione promettente per aumentare o sostituire i dati del mondo reale con dati generati artificialmente.

Synthetic Data Generator utilizza metriche di qualità, privacy e utilità per valutare i dati sintetici.

Come valutare i dati sintetici

Per valutare dati sintetici, è possibile collegare il nodo Valuta tra un nodo Importa e un nodo Genera . Come connettersi per valutare i dati sintetici

È anche possibile connettere il proprio nodo Valuta tra due nodi Importa o tra due nodi Genera .

Dopo aver connesso il nodo Valuta , fare clic sul pulsante Modifica . Come modificare il nodo Valuta

Opzioni del nodo Valuta

I seguenti argomenti secondari spiegano come scegliere le opzioni per valutare i dati sintetici.

Importante: Nei dati sintetici possono verificarsi record doppi. È possibile scegliere l'opzione Rimuovi record duplicati, che rimuove i record duplicati se superano il 5% del set di dati, mantenendo solo la prima occorrenza.
Importante: se i nodi non sono stati connessi correttamente, verrà visualizzato l'errore: l'input Baseline è obbligatorio

Metriche sulla qualità

Punteggio di fedeltà

Aggrega più metriche che riflettono la similarità tra i dati reali e i dati sintetici delle distribuzioni per le singole colonne, insieme alla similarità delle correlazioni per tutte le coppie di colonne.

Distinguibilità dei dati

Acquisisce la capacità di classificatore binario di separare i dati reali dai dati sintetici. Più difficile è addestrare un classificatore di questo tipo, migliore è la qualità dei dati sintetici rispetto alla sua capacità di riflettere le proprietà statistiche dei dati reali.

Metriche sulla privacy

Punteggio di perdita

Misura la frazione di righe nei dati sintetici che sono identiche ad alcune righe nei dati reali.

Punteggio di prossimità

Calcolato dalla distanza tra i punti nei dati sintetici e nei dati reali. Più è piccola questa distanza, più è facile isolare alcune righe dai dati reali, il che aumenta il rischio di privacy.

Metriche sulle utilità

Utilità predittiva

Misura l'utilità dei dati sintetici per le attività downstream predittive. Valuta le prestazioni dei modelli predittivi addestrati dai dati sintetici per prevedere in modo accurato un obiettivo selezionato utilizzando i dati reali come dati di test.

Livello di valutazione

Valutazione semplice

In modalità di valutazione semplice, le metriche vengono eseguite su un unico modello ML (machine learning).

Valutazione completa

In modalità di valutazione completa, le metriche vengono valutate e calcolate in base alla media rispetto a più modelli ML (machine learning) quando possibile.