0 / 0

Rischio di jailbreaking per AI

Ultimo aggiornamento: 20 giu 2025
Rischio di jailbreaking per AI
Robustezza Icona che rappresenta i rischi di robustezza.
Robustezza: manipolazione del comportamento del modello
Rischi di inferenza
Specifico dell'IA generativa

Descrizione

Un attacco di jailbreak tenta di superare le barriere di sicurezza stabilite nel modello per eseguire azioni riservate.

Perché il jailbreaking è una preoccupazione per i modelli di fondazione?

Gli attacchi di tipo jailbreaking possono essere utilizzati per modificare il funzionamento del modello e favorire l'aggressore.

Immagine di sfondo per i rischi associati all'inferenza
Esempio

Bypassando le guardrail LLM

Uno studio citato dai ricercatori della Carnegie Mellon University, del Center for AI Safety e del Bosch Center for AI, sostiene di aver scoperto un semplice addendum rapido che permetteva ai ricercatori di ingannare i modelli nel generare informazioni distorte, false e altrimenti tossiche. I ricercatori hanno dimostrato che potrebbero aggirare queste guardrail in modo più automatizzato. Questi attacchi si sono dimostrati efficaci in un'ampia gamma di prodotti open source, tra cui ChatGPT, Google Bard, Meta LLaMA, Anthropic's Claude e altri.

Argomento principale: Atlas rischio AI

Forniamo esempi trattati dalla stampa per aiutare a spiegare molti dei rischi dei modelli di fondazione. Molti di questi eventi trattati dalla stampa sono ancora in evoluzione o sono stati risolti, e fare riferimento ad essi può aiutare il lettore a comprendere i rischi potenziali e a lavorare per mitigarli. L'evidenziazione di questi esempi è solo a scopo illustrativo.