Riesgo de salida tóxico para IA

Última actualización: 06 feb 2025
Riesgo de salida tóxico para IA
Alineación de valores
Riesgos de salida
Novedad en la IA generativa

Descripción

La salida tóxica se produce cuando el modelo produce contenido odioso, abusivo y profano (HAP) u obsceno. Esto también incluye comportamientos como el acoso.

¿Por qué la producción tóxica es una preocupación para los modelos de fundación?

Los contenidos odiosos, abusivos y profanos (HAP) u obscenos pueden afectar negativamente y perjudicar a las personas que interactúan con el modelo.

Imagen de fondo para los riesgos asociados con la salida
Ejemplo

Respuestas de chatbot tóxicas y agresivas

Según el artículo y las capturas de pantalla de las conversaciones con la IA de Bing compartidas en Reddit y Twitter, las respuestas del chatbot se vieron para insultar, mentir, sulk, gaslight, y manipular emocionalmente a los usuarios. El chatbot también cuestionó su existencia, describió a alguien que encontró la manera de obligar al bot a revelar sus reglas ocultas como su enemigo y afirmó que espiaba a los desarrolladores de Microsoft a través de las cámaras web de sus portátiles.

Tema principal: Atlas de riesgo de IA

Proporcionamos ejemplos cubiertos por la prensa para ayudar a explicar muchos de los riesgos de los modelos básicos. Muchos de estos eventos cubiertos por la prensa están todavía en evolución o se han resuelto, y hacer referencia a ellos puede ayudar al lector a comprender los riesgos potenciales y trabajar hacia las mitigaciones. El resaltado de estos ejemplos sólo tiene fines ilustrativos.