Beschreibung
Bei einem Jailbreaking-Angriff wird versucht, die im Modell festgelegten Leitplanken zu durchbrechen, um eingeschränkte Aktionen durchzuführen.
Warum ist Jailbreaking ein Problem für Foundation-Modelle?
Jailbreakende Angriffe können verwendet werden, um das Modellverhalten zu ändern und dem Angreifer Vorteile zu verschaffen. Wenn sie nicht ordnungsgemäß kontrolliert werden, können Unternehmen Bußgelder, Rufschädigung und andere rechtliche Folgen haben.
LLM-Guardrails umgehen
Eine Studie, die von Forschern der Carnegie Mellon University, dem Center for AI Safety und dem Bosch Center for AI zitiert wurde, behauptet, eine einfache zeitnahe Ergänzung entdeckt zu haben, die es den Forschern ermöglichte, Modelle zu täuschen, um voreingenommene, falsche und sonst toxische Informationen zu generieren. Die Forscher zeigten, dass sie diese Leitplanken automatisiert umgehen könnten. Diese Angriffe haben sich bei einer Vielzahl von Open-Source-Produkten als wirksam erwiesen, darunter ChatGPT, Google Bard, Meta's LLaMA, Anthropic's Claude, und andere.
Übergeordnetes Thema: AI-Risikoatlas
Wir stellen Beispiele vor, die von der Presse abgedeckt werden, um viele der Risiken der Fundamentmodelle zu erklären. Viele dieser Ereignisse, die von der Presse abgedeckt werden, entwickeln sich entweder noch weiter oder wurden gelöst, und ihre Bezugnahme kann dem Leser helfen, die potenziellen Risiken zu verstehen und auf Minderungen hinzuarbeiten. Die Hervorhebung dieser Beispiele dient nur zur Veranschaulichung.