Riesgo de salida tóxico para IA
Descripción
La salida tóxica se produce cuando el modelo produce contenido odioso, abusivo y profano (HAP) u obsceno. Esto también incluye comportamientos como el acoso.
¿Por qué la producción tóxica es una preocupación para los modelos de fundación?
Los contenidos odiosos, abusivos y profanos (HAP) u obscenos pueden afectar negativamente y perjudicar a las personas que interactúan con el modelo.
Respuestas de chatbot tóxicas y agresivas
Según el artículo y las capturas de pantalla de las conversaciones con la IA de Bing compartidas en Reddit y Twitter, las respuestas del chatbot se vieron para insultar, mentir, sulk, gaslight, y manipular emocionalmente a los usuarios. El chatbot también cuestionó su existencia, describió a alguien que encontró una manera de obligar al bot a revelar sus reglas ocultas como su "enemigo", y afirmó que espió a los desarrolladores de Microsoft a través de las cámaras web en sus computadoras portátiles.
Tema principal: Atlas de riesgo de IA
Proporcionamos ejemplos cubiertos por la prensa para ayudar a explicar muchos de los riesgos de los modelos básicos. Muchos de estos eventos cubiertos por la prensa están todavía en evolución o se han resuelto, y hacer referencia a ellos puede ayudar al lector a comprender los riesgos potenciales y trabajar hacia las mitigaciones. El resaltado de estos ejemplos sólo tiene fines ilustrativos.