0 / 0

Riesgo de fuga para IA

Última actualización: 20 jun 2025
Riesgo de fuga para IA
Robustez Icono que representa los riesgos de robustez.
Robustez: manipulación del comportamiento del modelo
Riesgos de inferencia
Específicos de la IA generativa

Descripción

Un ataque de jailbreaking intenta romper las barreras de seguridad establecidas en el modelo para realizar acciones restringidas.

¿Por qué el encarcelamiento es una preocupación para los modelos de fundación?

Los ataques de jailbreaking se pueden utilizar para alterar el comportamiento del modelo y beneficiar al atacante.

Imagen de fondo para los riesgos asociados a la inferencia
Ejemplo

Omisión de guardaraíles LLM

Un estudio citado por investigadores de la Universidad Carnegie Mellon, The Center for AI Safety, y el Bosch Center for AI, afirman haber descubierto una simple adenda pronta que permitía a los investigadores engañar a los modelos para que generaran información sesgada, falsa y por lo demás tóxica. Los investigadores mostraron que podrían sortear estos guardaraíles de una manera más automatizada. Estos ataques demostraron su eficacia en una amplia gama de productos de código abierto, como ChatGPT, Google Bard, LLaMA, Claude de Anthropic, y otros.

Tema principal: Atlas de riesgo de IA

Proporcionamos ejemplos cubiertos por la prensa para ayudar a explicar muchos de los riesgos de los modelos básicos. Muchos de estos sucesos de los que se ha hecho eco la prensa aún están evolucionando o se han resuelto, y hacer referencia a ellos puede ayudar al lector a comprender los riesgos potenciales y a trabajar para mitigarlos. El resaltado de estos ejemplos sólo tiene fines ilustrativos.