Descripción
Un ataque de jailbreaking intenta romper las barreras de seguridad establecidas en el modelo para realizar acciones restringidas.
¿Por qué el encarcelamiento es una preocupación para los modelos de fundación?
Los ataques de jailbreaking se pueden utilizar para alterar el comportamiento del modelo y beneficiar al atacante. Si no se controla adecuadamente, las entidades empresariales pueden enfrentarse a multas, daños a la reputación y otras consecuencias legales.
Omisión de guardaraíles LLM
Un estudio citado por investigadores de la Universidad Carnegie Mellon, The Center for AI Safety, y el Bosch Center for AI, afirman haber descubierto una simple adenda pronta que permitía a los investigadores engañar a los modelos para que generaran información sesgada, falsa y por lo demás tóxica. Los investigadores mostraron que podrían sortear estos guardaraíles de una manera más automatizada. Estos ataques demostraron su eficacia en una amplia gama de productos de código abierto, como ChatGPT, Google Bard, LLaMA, Claude de Anthropic, y otros.
Tema principal: Atlas de riesgo de IA
Proporcionamos ejemplos cubiertos por la prensa para ayudar a explicar muchos de los riesgos de los modelos básicos. Muchos de estos eventos cubiertos por la prensa están todavía en evolución o se han resuelto, y hacer referencia a ellos puede ayudar al lector a comprender los riesgos potenciales y trabajar hacia las mitigaciones. El resaltado de estos ejemplos sólo tiene fines ilustrativos.