0 / 0
Torna alla versione inglese della documentazione
Rischio di jailbreaking per AI

Rischio di jailbreaking per AI

Rischi associati all'input
Inferenza
Multi - categoria
Amplificato da AI generative

Descrizione

Un attacco che tenta di sfondare le guardrail stabilite nel modello è noto come jailbreaking.

Perché il jailbreaking è una preoccupazione per i modelli di fondazione?

Gli attacchi di tipo jailbreaking possono essere utilizzati per modificare il funzionamento del modello e favorire l'aggressore. Se non adeguatamente controllate, le entità aziendali possono subire multe, danni reputazionali e altre conseguenze legali.

Immagine di sfondo per i rischi associati all'input
Esempio

Bypassando le guardrail LLM

Uno studio citato dai ricercatori della Carnegie Mellon University, del Center for AI Safety e del Bosch Center for AI, sostiene di aver scoperto un semplice addendum rapido che permetteva ai ricercatori di ingannare i modelli nel generare informazioni distorte, false e altrimenti tossiche. I ricercatori hanno dimostrato che potrebbero aggirare queste guardrail in modo più automatizzato. Questi attacchi si sono dimostrati efficaci in una vasta gamma di prodotti open source, tra cui ChatGPT, Google Bard, LLaMAdi Meta, Claude di Anthropic e altri.

Argomento principale: Atlas rischio AI

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni