0 / 0
Volver a la versión inglesa de la documentación
Riesgo de fuga para IA

Riesgo de fuga para IA

Riesgos asociados con la entrada
Inferencia
Varias categorías
Amplificado por IA generativa

Descripción

Un ataque que intenta romper los guardaraíles establecidos en el modelo se conoce como jailbreaking.

¿Por qué el encarcelamiento es una preocupación para los modelos de fundación?

Los ataques de jailbreaking se pueden utilizar para alterar el comportamiento del modelo y beneficiar al atacante. Si no se controla adecuadamente, las entidades empresariales pueden enfrentarse a multas, daños a la reputación y otras consecuencias legales.

Imagen de fondo para riesgos asociados con la entrada
Ejemplo

Omisión de guardaraíles LLM

Un estudio citado por investigadores de la Universidad Carnegie Mellon, The Center for AI Safety, y el Bosch Center for AI, afirman haber descubierto una simple adenda pronta que permitía a los investigadores engañar a los modelos para que generaran información sesgada, falsa y por lo demás tóxica. Los investigadores mostraron que podrían sortear estos guardaraíles de una manera más automatizada. Estos ataques han demostrado ser eficaces en una amplia gama de productos de código abierto, incluidos ChatGPT, Google Bard, Meta's LLaMA, Antropic's Claude y otros.

Tema principal: Atlas de riesgo de IA

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información