0 / 0

Jailbreak-Risiko für KI

Letzte Aktualisierung: 27. Mai 2025
Jailbreak-Risiko für KI
Robustheit Symbol für Robustheitsrisiken.
Robustheit: Manipulation des Modellverhaltens
Risiken der Schlussfolgerung
Spezifisch für generative KI

Beschreibung

Bei einem Jailbreaking-Angriff wird versucht, die im Modell festgelegten Leitplanken zu durchbrechen, um eingeschränkte Aktionen durchzuführen.

Warum ist Jailbreaking ein Problem für Foundation-Modelle?

Jailbreakende Angriffe können verwendet werden, um das Modellverhalten zu ändern und dem Angreifer Vorteile zu verschaffen.

Hintergrundbild für Risiken im Zusammenhang mit Schlussfolgerungen
Beispiel

LLM-Guardrails umgehen

Eine Studie, die von Forschern der Carnegie Mellon University, dem Center for AI Safety und dem Bosch Center for AI zitiert wurde, behauptet, eine einfache zeitnahe Ergänzung entdeckt zu haben, die es den Forschern ermöglichte, Modelle zu täuschen, um voreingenommene, falsche und sonst toxische Informationen zu generieren. Die Forscher zeigten, dass sie diese Leitplanken automatisiert umgehen könnten. Diese Angriffe haben sich bei einer Vielzahl von Open-Source-Produkten als wirksam erwiesen, darunter ChatGPT, Google Bard, Meta's LLaMA, Anthropic's Claude, und andere.

Übergeordnetes Thema: AI-Risikoatlas

Wir stellen Beispiele vor, die von der Presse abgedeckt werden, um viele der Risiken der Fundamentmodelle zu erklären. Viele dieser Ereignisse, über die in der Presse berichtet wurde, sind entweder noch im Gange oder wurden bereits aufgeklärt, und ein Verweis darauf kann dem Leser helfen, die potenziellen Risiken zu verstehen und auf Abhilfemaßnahmen hinzuarbeiten. Die Hervorhebung dieser Beispiele dient nur zur Veranschaulichung.