Descrizione
Un attacco di perdita di prompt tenta di estrarre un prompt di sistema del modello (noto anche come messaggio di sistema).
Perché si sta trapelando rapidamente una preoccupazione per i modelli di fondazione?
Un attacco riuscito copia il prompt di sistema utilizzato nel modello. A seconda del contenuto di tale prompt, l'aggressore potrebbe ottenere l'accesso a informazioni preziose, come informazioni personali sensibili o proprietà intellettuale, e potrebbe essere in grado di replicare alcune delle funzionalità del modello.
Argomento principale: Atlas rischio AI
Facciamo degli esempi che sono stati trattati dalla stampa per aiutare a spiegare molti dei rischi dei modelli di fondazione. Molti di questi eventi trattati dalla stampa sono ancora in evoluzione o sono stati risolti, e fare riferimento ad essi può aiutare il lettore a comprendere i rischi potenziali e a lavorare per mitigarli. L'evidenziazione di questi esempi è solo a scopo illustrativo.