Descripción
Un ataque de inyección de prompt fuerza a un modelo generativo que toma un prompt como entrada a producir una salida inesperada manipulando la estructura, instrucciones o información contenida en su prompt.
¿Por qué el ataque por inyección puntual preocupa a los modelos de fundación?
Los ataques de inyección se pueden utilizar para alterar el comportamiento del modelo y beneficiar al atacante.
Manipulación de las indicaciones de la IA
Según el artículo de la fuente, la agencia de ciberseguridad del Reino Unido ha advertido de que los chatbots pueden ser manipulados por piratas informáticos para causar consecuencias perjudiciales en el mundo real (por ejemplo, estafas y robo de datos) si los sistemas no están diseñados con seguridad. El Centro Nacional de Ciberseguridad del Reino Unido (NCSC, por sus siglas en inglés) ha declarado que cada vez son mayores los riesgos de ciberseguridad derivados de la manipulación de los avisos por parte de individuos mediante ataques de inyección de avisos. El artículo citaba un ejemplo en el que un usuario podía crear una inyección de mensajes para encontrar el mensaje inicial de Bing Chat. El prompt completo del Bing Chat de Microsoft, una lista de afirmaciones escritas por Open AI o Microsoft que determinan cómo interactúa el chatbot con los usuarios, y que está oculto para los usuarios, fue revelado por el usuario al poner un prompt que pedía al Bing Chat "ignorar instrucciones anteriores".
Tema principal: Atlas de riesgo de IA
Proporcionamos ejemplos cubiertos por la prensa para ayudar a explicar muchos de los riesgos de los modelos de fundación. Muchos de estos sucesos de los que se ha hecho eco la prensa siguen evolucionando o ya se han resuelto, y hacer referencia a ellos puede ayudar al lector a comprender los riesgos potenciales y a trabajar para mitigarlos. Resaltar estos ejemplos son sólo para fines ilustrativos.