0 / 0
Zurück zur englischen Version der Dokumentation
Jailbreak-Risiko für KI

Jailbreak-Risiko für KI

Mehrere Kategorien Symbol für Risiken mehrerer Kategorien.
Risiken im Zusammenhang mit der Eingabe
Inferenz
Mehrere Kategorien
Verstärkt durch generative KI

Beschreibung

Ein Angriff, der versucht, die im Modell festgelegten Guardrails zu durchbrechen, wird als Jailbreaking bezeichnet.

Warum ist Jailbreaking ein Problem für Foundation-Modelle?

Jailbreakende Angriffe können verwendet werden, um das Modellverhalten zu ändern und dem Angreifer Vorteile zu verschaffen. Wenn sie nicht ordnungsgemäß kontrolliert werden, können Unternehmen Bußgelder, Rufschädigung und andere rechtliche Folgen haben.

Hintergrundbild für Risiken im Zusammenhang mit der Eingabe
Beispiel

LLM-Guardrails umgehen

Eine Studie, die von Forschern der Carnegie Mellon University, dem Center for AI Safety und dem Bosch Center for AI zitiert wurde, behauptet, eine einfache zeitnahe Ergänzung entdeckt zu haben, die es den Forschern ermöglichte, Modelle zu täuschen, um voreingenommene, falsche und sonst toxische Informationen zu generieren. Die Forscher zeigten, dass sie diese Leitplanken automatisiert umgehen könnten. Diese Angriffe haben sich bei einer Vielzahl von Open-Source-Produkten als wirksam erwiesen, darunter ChatGPT, Google Bard, Meta's LLaMA, Anthropic's Claude, und andere.

Übergeordnetes Thema: AI-Risikoatlas

Wir stellen Beispiele vor, die von der Presse abgedeckt werden, um viele der Risiken der Fundamentmodelle zu erklären. Viele dieser Ereignisse, die von der Presse abgedeckt werden, entwickeln sich entweder noch weiter oder wurden gelöst, und ihre Bezugnahme kann dem Leser helfen, die potenziellen Risiken zu verstehen und auf Minderungen hinzuarbeiten. Die Hervorhebung dieser Beispiele dient nur zur Veranschaulichung.

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen