Evaluación de datos sintéticos
La eficacia de los datos sintéticos depende de su calidad, lo que requiere el desarrollo y la utilización de métricas adecuadas para la evaluación. En este sentido, las métricas de datos sintéticos juegan un papel crucial en la evaluación de la fidelidad, la diversidad y la utilidad de los datos generados.
En el ámbito de la ciencia de datos y el aprendizaje automático, la disponibilidad de datos de alta calidad es primordial para crear modelos precisos y sólidos. Sin embargo, en muchos escenarios del mundo real, la obtención de datos suficientes y diversos puede ser una tarea difícil debido a diversas restricciones como preocupaciones de privacidad, escasez de datos o procesos costosos de adquisición de datos. Para hacer frente a estos desafíos, el concepto de generación de datos sintéticos ha ganado fuerza, ofreciendo una solución prometedora para aumentar o sustituir los datos del mundo real por datos generados artificialmente.
Synthetic Data Generator utiliza medidas de calidad, privacidad y programa de utilidad para ayudarle a evaluar los datos sintéticos.
Cómo evaluar los datos sintéticos
Para evaluar los datos sintéticos, puede conectar el nodo Evaluar entre un nodo Importar y un nodo Generar .
También puede conectar el nodo Evaluar entre dos nodos Importar o entre dos nodos Generar .
Después de conectar el nodo Evaluar , pulse el botón Editar .
Los subtemas siguientes explican cómo elegir las opciones para evaluar los datos sintéticos.
Métricas de calidad
Puntuación de fidelidad
Agrega varias métricas que reflejan la similitud entre datos reales y datos sintéticos de distribuciones para columnas individuales, junto con la similitud de correlaciones para todos los pares de columnas.
Distinción de datos
Captura la capacidad de un clasificador binario para separar los datos reales de los datos sintéticos. Cuanto más difícil sea entrenar a un clasificador de este tipo, mejor será la calidad de los datos sintéticos con respecto a su capacidad para reflejar las propiedades estadísticas de los datos reales.
Métricas de privacidad
Puntuación de fuga
Mide la fracción de filas en los datos sintéticos que son idénticas a algunas filas en los datos reales.
Puntuación de proximidad
Se calcula a partir de la distancia entre los puntos de los datos sintéticos y los datos reales. Cuanto menor sea esta distancia, más fácil es aislar algunas filas de los datos reales, lo que aumenta el riesgo de privacidad.
Métricas de utilidad
Utilidad predictiva
Mide la utilidad de los datos sintéticos para las tareas predictivas en sentido descendente. Evalúa el rendimiento de los modelos predictivos entrenados a partir de los datos sintéticos para predecir con precisión un objetivo seleccionado utilizando datos reales como datos de prueba.
Nivel de evaluación
Evaluación simple
En la modalidad de evaluación simple, las métricas se ejecutan en un único modelo ML (aprendizaje automático).
Evaluación completa
En la modalidad de evaluación completa, las métricas se evalúan y se promedian con respecto a varios modelos ML (aprendizaje automático) siempre que sea posible.