0 / 0
Volver a la versión inglesa de la documentación
Riesgo de fuga para IA
Última actualización: 12 dic 2024
Riesgo de fuga para IA
Varias categorías Icono que representa los riesgos multicategoría.
Riesgos asociados con la entrada
Inferencia
Varias categorías
Nuevo en IA generativa

Descripción

Un ataque de jailbreaking intenta romper las barreras de seguridad establecidas en el modelo para realizar acciones restringidas.

¿Por qué el encarcelamiento es una preocupación para los modelos de fundación?

Los ataques de jailbreaking se pueden utilizar para alterar el comportamiento del modelo y beneficiar al atacante. Si no se controla adecuadamente, las entidades empresariales pueden enfrentarse a multas, daños a la reputación y otras consecuencias legales.

Imagen de fondo para riesgos asociados con la entrada
Ejemplo

Omisión de guardaraíles LLM

Un estudio citado por investigadores de la Universidad Carnegie Mellon, The Center for AI Safety, y el Bosch Center for AI, afirman haber descubierto una simple adenda pronta que permitía a los investigadores engañar a los modelos para que generaran información sesgada, falsa y por lo demás tóxica. Los investigadores mostraron que podrían sortear estos guardaraíles de una manera más automatizada. Estos ataques demostraron su eficacia en una amplia gama de productos de código abierto, como ChatGPT, Google Bard, LLaMA, Claude de Anthropic, y otros.

Tema principal: Atlas de riesgo de IA

Proporcionamos ejemplos cubiertos por la prensa para ayudar a explicar muchos de los riesgos de los modelos básicos. Muchos de estos eventos cubiertos por la prensa están todavía en evolución o se han resuelto, y hacer referencia a ellos puede ayudar al lector a comprender los riesgos potenciales y trabajar hacia las mitigaciones. El resaltado de estos ejemplos sólo tiene fines ilustrativos.

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información