La eficacia de los datos sintéticos depende de su calidad, lo que requiere el desarrollo y la utilización de métricas adecuadas para la evaluación. En este sentido, las métricas de datos sintéticos juegan un papel crucial en la evaluación de la fidelidad, la diversidad y la utilidad de los datos generados.
En el ámbito de la ciencia de datos y el aprendizaje automático, la disponibilidad de datos de alta calidad es primordial para crear modelos precisos y sólidos. Sin embargo, en muchos escenarios del mundo real, la obtención de datos suficientes y diversos puede ser una tarea difícil debido a diversas restricciones como preocupaciones de privacidad, escasez de datos o procesos costosos de adquisición de datos. Para hacer frente a estos desafíos, el concepto de generación de datos sintéticos ha ganado fuerza, ofreciendo una solución prometedora para aumentar o sustituir los datos del mundo real por datos generados artificialmente.
Synthetic Data Generator utiliza medidas de calidad, privacidad y programa de utilidad para ayudarle a evaluar los datos sintéticos.
Cómo evaluar los datos sintéticos
Copy link to section
Para evaluar los datos sintéticos, puede conectar el nodo Evaluar entre un nodo Importar y un nodo Generar .
También puede conectar el nodo Evaluar entre dos nodos Importar o entre dos nodos Generar .
Después de conectar el nodo Evaluar , pulse el botón Editar .
Los subtemas siguientes explican cómo elegir las opciones para evaluar los datos sintéticos.
Importante: En los datos sintéticos pueden producirse registros duplicados. Puede elegir la opción Eliminar registros duplicados, que eliminará los registros duplicados si superan el 5% del conjunto de datos, manteniendo sólo la primera aparición.
Importante: Si no ha conectado los nodos correctamente, obtendrá el error: la entrada de línea base es necesaria
Métricas de calidad
Copy link to section
Puntuación de fidelidad
Copy link to section
Agrega varias métricas que reflejan la similitud entre datos reales y datos sintéticos de distribuciones para columnas individuales, junto con la similitud de correlaciones para todos los pares de columnas.
Distinción de datos
Copy link to section
Captura la capacidad de un clasificador binario para separar los datos reales de los datos sintéticos. Cuanto más difícil sea entrenar a un clasificador de este tipo, mejor será la calidad de los datos sintéticos con respecto a su capacidad para reflejar las propiedades estadísticas de los datos reales.
Métricas de privacidad
Copy link to section
Puntuación de fuga
Copy link to section
Mide la fracción de filas en los datos sintéticos que son idénticas a algunas filas en los datos reales.
Puntuación de proximidad
Copy link to section
Se calcula a partir de la distancia entre los puntos de los datos sintéticos y los datos reales. Cuanto menor sea esta distancia, más fácil es aislar algunas filas de los datos reales, lo que aumenta el riesgo de privacidad.
Métricas de utilidad
Copy link to section
Utilidad predictiva
Copy link to section
Mide la utilidad de los datos sintéticos para las tareas predictivas en sentido descendente. Evalúa el rendimiento de los modelos predictivos entrenados a partir de los datos sintéticos para predecir con precisión un objetivo seleccionado utilizando datos reales como datos de prueba.
Nivel de evaluación
Copy link to section
Evaluación simple
Copy link to section
En la modalidad de evaluación simple, las métricas se ejecutan en un único modelo ML (aprendizaje automático).
Evaluación completa
Copy link to section
En la modalidad de evaluación completa, las métricas se evalúan y se promedian con respecto a varios modelos ML (aprendizaje automático) siempre que sea posible.
Acerca de las cookies de este sitioNuestros sitios web necesitan algunas cookies para funcionar correctamente (necesarias). Además, se pueden utilizar otras cookies con su consentimiento para analizar el uso del sitio, para mejorar la experiencia del usuario y para publicidad.Para obtener más información, consulte sus opciones de preferencias de cookies. Al visitar nuestro sitio web, acepta que procesemos la información tal y como se describe en ladeclaración de privacidad de IBM.Para facilitar la navegación, sus preferencias de cookies se compartirán entre los dominios web de IBM que se muestran aquí.