Descrizione
Un attacco di jailbreak tenta di superare le barriere di sicurezza stabilite nel modello per eseguire azioni limitate.
Perché il jailbreaking è una preoccupazione per i modelli di fondazione?
Gli attacchi di tipo jailbreaking possono essere utilizzati per modificare il funzionamento del modello e favorire l'aggressore. Se non adeguatamente controllate, le entità aziendali possono subire multe, danni reputazionali e altre conseguenze legali.
Bypassando le guardrail LLM
Uno studio citato dai ricercatori della Carnegie Mellon University, del Center for AI Safety e del Bosch Center for AI, sostiene di aver scoperto un semplice addendum rapido che permetteva ai ricercatori di ingannare i modelli nel generare informazioni distorte, false e altrimenti tossiche. I ricercatori hanno dimostrato che potrebbero aggirare queste guardrail in modo più automatizzato. Questi attacchi si sono dimostrati efficaci in un'ampia gamma di prodotti open source, tra cui ChatGPT, Google Bard, Meta LLaMA, Anthropic's Claude e altri.
Argomento principale: Atlas rischio AI
Forniamo esempi trattati dalla stampa per aiutare a spiegare molti dei rischi dei modelli di fondazione. Molti di questi eventi trattati dalla stampa sono ancora in evoluzione o sono stati risolti, e il loro riferimento può aiutare il lettore a comprendere i potenziali rischi e a lavorare per mitigare. L'evidenziazione di questi esempi è solo a scopo illustrativo.