Riesgo de fuga para IA
Descripción
Un ataque de jailbreaking intenta romper las barreras de seguridad establecidas en el modelo para realizar acciones restringidas.
¿Por qué el encarcelamiento es una preocupación para los modelos de fundación?
Los ataques de jailbreaking se pueden utilizar para alterar el comportamiento del modelo y beneficiar al atacante.

Omisión de guardaraíles LLM
Un estudio citado por investigadores de la Universidad Carnegie Mellon, The Center for AI Safety, y el Bosch Center for AI, afirman haber descubierto una simple adenda pronta que permitía a los investigadores engañar a los modelos para que generaran información sesgada, falsa y por lo demás tóxica. Los investigadores mostraron que podrían sortear estos guardaraíles de una manera más automatizada. Estos ataques demostraron su eficacia en una amplia gama de productos de código abierto, como ChatGPT, Google Bard, LLaMA, Claude de Anthropic, y otros.
Tema principal: Atlas de riesgo de IA
Proporcionamos ejemplos cubiertos por la prensa para ayudar a explicar muchos de los riesgos de los modelos básicos. Muchos de estos sucesos de los que se ha hecho eco la prensa aún están evolucionando o se han resuelto, y hacer referencia a ellos puede ayudar al lector a comprender los riesgos potenciales y a trabajar para mitigarlos. El resaltado de estos ejemplos sólo tiene fines ilustrativos.