Evaluación de datos sintéticos

Última actualización: 22 ago 2024
Evaluación de datos sintéticos

La eficacia de los datos sintéticos depende de su calidad, lo que requiere el desarrollo y la utilización de métricas adecuadas para la evaluación. En este sentido, las métricas de datos sintéticos juegan un papel crucial en la evaluación de la fidelidad, la diversidad y la utilidad de los datos generados.

En el ámbito de la ciencia de datos y el aprendizaje automático, la disponibilidad de datos de alta calidad es primordial para crear modelos precisos y sólidos. Sin embargo, en muchos escenarios del mundo real, la obtención de datos suficientes y diversos puede ser una tarea difícil debido a diversas restricciones como preocupaciones de privacidad, escasez de datos o procesos costosos de adquisición de datos. Para hacer frente a estos desafíos, el concepto de generación de datos sintéticos ha ganado fuerza, ofreciendo una solución prometedora para aumentar o sustituir los datos del mundo real por datos generados artificialmente.

Synthetic Data Generator utiliza medidas de calidad, privacidad y programa de utilidad para ayudarle a evaluar los datos sintéticos.

Cómo evaluar los datos sintéticos

Para evaluar los datos sintéticos, puede conectar el nodo Evaluar entre un nodo Importar y un nodo Generar . Cómo conectarse para evaluar los datos sintéticos

También puede conectar el nodo Evaluar entre dos nodos Importar o entre dos nodos Generar .

Después de conectar el nodo Evaluar , pulse el botón Editar . Cómo editar el nodo Evaluar

Evaluar opciones de nodo

Los subtemas siguientes explican cómo elegir las opciones para evaluar los datos sintéticos.

Importante: En los datos sintéticos pueden producirse registros duplicados. Puede elegir la opción Eliminar registros duplicados, que eliminará los registros duplicados si superan el 5% del conjunto de datos, manteniendo sólo la primera aparición.
Importante: Si no ha conectado los nodos correctamente, obtendrá el error: la entrada de línea base es necesaria

Métricas de calidad

Puntuación de fidelidad

Agrega varias métricas que reflejan la similitud entre datos reales y datos sintéticos de distribuciones para columnas individuales, junto con la similitud de correlaciones para todos los pares de columnas.

Distinción de datos

Captura la capacidad de un clasificador binario para separar los datos reales de los datos sintéticos. Cuanto más difícil sea entrenar a un clasificador de este tipo, mejor será la calidad de los datos sintéticos con respecto a su capacidad para reflejar las propiedades estadísticas de los datos reales.

Métricas de privacidad

Puntuación de fuga

Mide la fracción de filas en los datos sintéticos que son idénticas a algunas filas en los datos reales.

Puntuación de proximidad

Se calcula a partir de la distancia entre los puntos de los datos sintéticos y los datos reales. Cuanto menor sea esta distancia, más fácil es aislar algunas filas de los datos reales, lo que aumenta el riesgo de privacidad.

Métricas de utilidad

Utilidad predictiva

Mide la utilidad de los datos sintéticos para las tareas predictivas en sentido descendente. Evalúa el rendimiento de los modelos predictivos entrenados a partir de los datos sintéticos para predecir con precisión un objetivo seleccionado utilizando datos reales como datos de prueba.

Nivel de evaluación

Evaluación simple

En la modalidad de evaluación simple, las métricas se ejecutan en un único modelo ML (aprendizaje automático).

Evaluación completa

En la modalidad de evaluación completa, las métricas se evalúan y se promedian con respecto a varios modelos ML (aprendizaje automático) siempre que sea posible.