Beschreibung
Bei einem Angriff auf die Zugehörigkeitsinferenz wird ein Modell wiederholt abgefragt, um festzustellen, ob eine bestimmte Eingabe Teil des Trainings des Modells war. Konkret bedeutet dies, dass ein Angreifer bei einem trainierten Modell und einer Datenprobe den Eingaberaum abtastet und die Ausgaben beobachtet, um herauszufinden, ob diese Probe Teil des Modelltrainings war.
Warum ist ein Inferenzangriff auf Mitgliedschaft ein Problem für Basismodelle?
Die Feststellung, ob eine Datenprobe als Trainingsdaten verwendet wurde, kann Aufschluss darüber geben, welche Daten zum Trainieren eines Modells verwendet wurden. Möglicherweise erhalten Konkurrenten Einblick in die Art und Weise, wie ein Modell trainiert wurde, und haben die Möglichkeit, das Modell zu kopieren oder zu manipulieren. Modelle, die öffentlich zugängliche Daten enthalten, sind einem höheren Risiko solcher Angriffe ausgesetzt.
Übergeordnetes Thema: AI-Risikoatlas
Anhand von Beispielen, über die in der Presse berichtet wurde, erläutern wir viele der Risiken der Stiftungsmodelle. Viele dieser Ereignisse, über die in der Presse berichtet wurde, sind entweder noch im Gange oder wurden bereits aufgeklärt, und ein Verweis darauf kann dem Leser helfen, die potenziellen Risiken zu verstehen und auf Abhilfemaßnahmen hinzuarbeiten. Die Hervorhebung dieser Beispiele dient nur der Veranschaulichung.