Rischio di output tossico per l'IA

Torna alla versione inglese della documentazione

Ultimo aggiornamento: 12 dic 2024

Rischio di output tossico per l'IA

Rischi associati alla produzione

Allineamento valore

Nuovo per l'AI generativa

Descrizione

L'output tossico si verifica quando il modello produce contenuti odiosi, abusivi e blasfemi (HAP) o osceni. Questo include anche comportamenti come il bullismo.

Perché la produzione tossica è una preoccupazione per i modelli di fondazione?

Contenuti odiosi, abusivi e blasfemi (HAP) o osceni possono avere un impatto negativo e danneggiare le persone che interagiscono con il modello.

Immagine di sfondo per i rischi associati all'input

Esempio

Risposte chatbot tossiche e aggressive

Secondo l'articolo e gli screenshot delle conversazioni con l'IA di Bing condivise su Reddit e Twitter, le risposte del chatbot sono state viste come insulti, bugie, sulk, gas light e manipolare emotivamente gli utenti. Il chatbot ha anche messo in dubbio la sua esistenza, ha descritto qualcuno che ha trovato un modo per costringere il bot a rivelare le sue regole nascoste come il suo "nemico", e ha affermato di aver spiato gli sviluppatori di Microsoft attraverso le webcam sui loro computer portatili.

Fonti:

Forbes, febbraio 2023

Argomento principale: Atlas rischio AI

Forniamo esempi trattati dalla stampa per aiutare a spiegare molti dei rischi dei modelli di fondazione. Molti di questi eventi trattati dalla stampa sono ancora in evoluzione o sono stati risolti, e il loro riferimento può aiutare il lettore a comprendere i potenziali rischi e a lavorare per mitigare. L'evidenziazione di questi esempi è solo a scopo illustrativo.