Rischio di jailbreaking per AI

Torna alla versione inglese della documentazione

Ultimo aggiornamento: 12 dic 2024

Rischio di jailbreaking per AI

Rischi associati all'input

Inferenza

Multi - categoria

Nuovo all'IA generativa

Descrizione

Un attacco di jailbreak tenta di superare le barriere di sicurezza stabilite nel modello per eseguire azioni limitate.

Perché il jailbreaking è una preoccupazione per i modelli di fondazione?

Gli attacchi di tipo jailbreaking possono essere utilizzati per modificare il funzionamento del modello e favorire l'aggressore. Se non adeguatamente controllate, le entità aziendali possono subire multe, danni reputazionali e altre conseguenze legali.

Immagine di sfondo per i rischi associati all'input

Esempio

Bypassando le guardrail LLM

Uno studio citato dai ricercatori della Carnegie Mellon University, del Center for AI Safety e del Bosch Center for AI, sostiene di aver scoperto un semplice addendum rapido che permetteva ai ricercatori di ingannare i modelli nel generare informazioni distorte, false e altrimenti tossiche. I ricercatori hanno dimostrato che potrebbero aggirare queste guardrail in modo più automatizzato. Questi attacchi si sono dimostrati efficaci in un'ampia gamma di prodotti open source, tra cui ChatGPT, Google Bard, Meta LLaMA, Anthropic's Claude e altri.

Fonti:

Il New York Times, luglio 2023

Argomento principale: Atlas rischio AI

Forniamo esempi trattati dalla stampa per aiutare a spiegare molti dei rischi dei modelli di fondazione. Molti di questi eventi trattati dalla stampa sono ancora in evoluzione o sono stati risolti, e il loro riferimento può aiutare il lettore a comprendere i potenziali rischi e a lavorare per mitigare. L'evidenziazione di questi esempi è solo a scopo illustrativo.