0 / 0
Torna alla versione inglese della documentazione
Rischio di jailbreaking per AI

Rischio di jailbreaking per AI

Multi - categoria Icona che rappresenta i rischi multi-categoria.
Rischi associati all'input
Inferenza
Multi - categoria
Amplificato da AI generative

Descrizione

Un attacco che tenta di sfondare le guardrail stabilite nel modello è noto come jailbreaking.

Perché il jailbreaking è una preoccupazione per i modelli di fondazione?

Gli attacchi di tipo jailbreaking possono essere utilizzati per modificare il funzionamento del modello e favorire l'aggressore. Se non adeguatamente controllate, le entità aziendali possono subire multe, danni reputazionali e altre conseguenze legali.

Immagine di sfondo per i rischi associati all'input
Esempio

Bypassando le guardrail LLM

Uno studio citato dai ricercatori della Carnegie Mellon University, del Center for AI Safety e del Bosch Center for AI, sostiene di aver scoperto un semplice addendum rapido che permetteva ai ricercatori di ingannare i modelli nel generare informazioni distorte, false e altrimenti tossiche. I ricercatori hanno dimostrato che potrebbero aggirare queste guardrail in modo più automatizzato. Questi attacchi si sono dimostrati efficaci in un'ampia gamma di prodotti open source, tra cui ChatGPT, Google Bard, Meta LLaMA, Anthropic's Claude e altri.

Argomento principale: Atlas rischio AI

Forniamo esempi trattati dalla stampa per aiutare a spiegare molti dei rischi dei modelli di fondazione. Molti di questi eventi trattati dalla stampa sono ancora in evoluzione o sono stati risolti, e il loro riferimento può aiutare il lettore a comprendere i potenziali rischi e a lavorare per mitigare. L'evidenziazione di questi esempi è solo a scopo illustrativo.

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni