Riesgo de ataque de inferencia de pertenencia para IA

Volver a la versión inglesa de la documentación

Última actualización: 12 dic 2024

Riesgo de ataque de inferencia de pertenencia para IA

Riesgos asociados con la entrada

Inferencia

Privacidad

Amplificado por la IA generativa

Descripción

Un ataque de inferencia de pertenencia consulta repetidamente un modelo para determinar si una entrada dada formó parte del entrenamiento del modelo. Más concretamente, dado un modelo entrenado y una muestra de datos, un atacante muestrea el espacio de entrada, observando las salidas para deducir si esa muestra formaba parte del entrenamiento del modelo.

¿Por qué la inferencia de pertenencia es una preocupación para los modelos de fundación?

Identificar si una muestra de datos se utilizó como datos de entrenamiento puede revelar qué datos se utilizaron para entrenar un modelo. Es posible que los competidores se enteren de cómo se ha entrenado un modelo y tengan la oportunidad de reproducirlo o manipularlo. Los modelos que incluyen datos de acceso público corren un mayor riesgo de sufrir este tipo de ataques.

Tema principal: Atlas de riesgo de IA

Proporcionamos ejemplos cubiertos por la prensa para ayudar a explicar muchos de los riesgos de los modelos de fundación. Muchos de estos sucesos de los que se ha hecho eco la prensa siguen evolucionando o ya se han resuelto, y hacer referencia a ellos puede ayudar al lector a comprender los riesgos potenciales y a trabajar para mitigarlos. Resaltar estos ejemplos son sólo para fines ilustrativos.