Maschinell übersetztes Thema Sie können zur englischen Version wechseln.

Die genaueste und aktuellste Version dieser Dokumentation finden Sie in der englischen (ursprünglichen) Version. IBM haftet nicht für Schäden oder Verluste, die durch die Verwendung automatisch (maschinell) übersetzter Inhalte entstehen.

Jailbreak-Risiko für KI

Letzte Aktualisierung: 10. Feb. 2025

Mehrere Kategorien

Risiken der Schlussfolgerung

Neu in der generativen KI

Beschreibung

Bei einem Jailbreaking-Angriff wird versucht, die im Modell festgelegten Leitplanken zu durchbrechen, um eingeschränkte Aktionen durchzuführen.

Warum ist Jailbreaking ein Problem für Foundation-Modelle?

Jailbreakende Angriffe können verwendet werden, um das Modellverhalten zu ändern und dem Angreifer Vorteile zu verschaffen. Wenn sie nicht ordnungsgemäß kontrolliert werden, können Unternehmen Bußgelder, Rufschädigung und andere rechtliche Folgen haben.

Hintergrundbild für Risiken im Zusammenhang mit Schlussfolgerungen

Beispiel

LLM-Guardrails umgehen

Eine Studie, die von Forschern der Carnegie Mellon University, dem Center for AI Safety und dem Bosch Center for AI zitiert wurde, behauptet, eine einfache zeitnahe Ergänzung entdeckt zu haben, die es den Forschern ermöglichte, Modelle zu täuschen, um voreingenommene, falsche und sonst toxische Informationen zu generieren. Die Forscher zeigten, dass sie diese Leitplanken automatisiert umgehen könnten. Diese Angriffe haben sich bei einer Vielzahl von Open-Source-Produkten als wirksam erwiesen, darunter ChatGPT, Google Bard, Meta's LLaMA, Anthropic's Claude, und andere.

Quellen:

The New York Times, Juli 2023

Übergeordnetes Thema: AI-Risikoatlas

Wir stellen Beispiele vor, die von der Presse abgedeckt werden, um viele der Risiken der Fundamentmodelle zu erklären. Viele dieser Ereignisse, die von der Presse abgedeckt werden, entwickeln sich entweder noch weiter oder wurden gelöst, und ihre Bezugnahme kann dem Leser helfen, die potenziellen Risiken zu verstehen und auf Minderungen hinzuarbeiten. Die Hervorhebung dieser Beispiele dient nur zur Veranschaulichung.

War das Thema hilfreich?

0/1000

BeschreibungCopy link to section

Warum ist Jailbreaking ein Problem für Foundation-Modelle?Copy link to section

Zugehörige RisikenCopy link to section

Beschreibung

Warum ist Jailbreaking ein Problem für Foundation-Modelle?

Zugehörige Risiken