Descripción
Tipo de ataque adversario en el que un adversario o un intruso malintencionado inyecta intencionadamente muestras corruptas, falsas, engañosas o incorrectas en los conjuntos de datos de entrenamiento o de ajuste.
¿Por qué la intoxicación de datos es una preocupación para los modelos de base?
La intoxicación de datos puede hacer que el modelo sea sensible a un patrón de datos malicioso y producir la salida deseada del adversario. Puede crear un riesgo de seguridad en el que los adversarios pueden forzar el comportamiento del modelo para su propio beneficio.
Envenenamiento de datos con pocos recursos
Según el artículo de origen, un grupo de investigadores descubrió que, con recursos muy limitados, cualquiera puede añadir datos maliciosos a un pequeño número de páginas web cuyo contenido suele recopilarse para el entrenamiento de IA (por ejemplo, páginas de Wikipedia), lo suficiente como para provocar que un gran modelo lingüístico genere respuestas incorrectas.
Herramienta de modificación de imágenes
Según el artículo fuente, los investigadores han desarrollado una herramienta llamada "Nightshade" que modifica las imágenes de forma que daña la visión por ordenador pero permanece invisible para los humanos. Cuando estas imágenes modificadas "envenenadas" se utilizan para entrenar modelos de IA, los modelos pueden generar resultados impredecibles y no deseados. La herramienta se creó como mecanismo para proteger la propiedad intelectual frente al "scraping" de imágenes no autorizado, pero el artículo también destaca que los usuarios podrían abusar de ella y subir intencionadamente imágenes "envenenadas".
Tema principal: Atlas de riesgo de IA
Proporcionamos ejemplos cubiertos por la prensa para ayudar a explicar muchos de los riesgos de los modelos de fundación. Muchos de estos sucesos de los que se ha hecho eco la prensa siguen evolucionando o ya se han resuelto, y hacer referencia a ellos puede ayudar al lector a comprender los riesgos potenciales y a trabajar para mitigarlos. Resaltar estos ejemplos son sólo para fines ilustrativos.