0 / 0
Zurück zur englischen Version der Dokumentation
Verfahren zur Vermeidung unerwünschter Ausgaben
Letzte Aktualisierung: 28. Nov. 2024
Verfahren zur Vermeidung unerwünschter Ausgaben

Jedes foundation model hat das Potenzial, falsche oder sogar schädliche Inhalte zu produzieren. Machen Sie sich mit den Arten der unerwünschten Ausgabe, die generiert werden können, den Ursachen für die unerwünschte Ausgabe und den Schritten vertraut, die Sie ausführen können, um das Risiko von Schäden zu verringern.

Die in IBM watsonx.ai verfügbaren Basismodelle können Ausgaben generieren, die Halluzinationen, persönliche Informationen, Hassreden, Missbrauch, Profanität und Verzerrungen enthalten. Die folgenden Verfahren können dazu beitragen, das Risiko zu verringern, garantieren jedoch nicht, dass die generierte Ausgabe frei von unerwünschten Inhalten ist.

Finden Sie Techniken, die Ihnen helfen, die folgenden Arten von unerwünschten Inhalten in der Ausgabe von foundation model zu vermeiden:

Halluzinationen

Wenn ein foundation model themenfremde, sich wiederholende oder falsche Inhalte erzeugt oder Details fabriziert, wird dieses Verhalten manchmal als Halluzination bezeichnet.

Off-Topic-Halluzinationen können aufgrund von Pseudozufälligkeit bei der Decodierung der generierten Ausgabe auftreten. In den besten Fällen kann diese Zufälligkeit zu einer wunderbar kreativen Ausgabe führen. Aber Zufälligkeit kann auch zu unsinniger Ausgabe führen, die nicht nützlich ist.

Das Modell gibt möglicherweise Halluzinationen in Form von konstruierten Details zurück, wenn es zum Generieren von Text aufgefordert wird, aber nicht genügend zugehörigen Text zum Zeichnen bereitgestellt wird. Wenn Sie beispielsweise korrekte Details in die Eingabeaufforderung einschließen, ist die Wahrscheinlichkeit, dass das Modell halluziniert und Details bildet, geringer.

Verfahren zur Vermeidung von Halluzinationen

Testen Sie eine oder mehrere der folgenden Techniken, um Halluzinationen zu vermeiden:

  • Wählen Sie ein Modell mit Vortraining und Feinabstimmung aus, das Ihrer Domäne und der von Ihnen auszuführenden Task entspricht.

  • Geben Sie den Kontext in Ihrer Eingabeaufforderung an.

    Wenn Sie ein foundation model anweisen, Text zu einem Thema zu generieren, das in den Trainingsdaten nicht vorkommt, und Sie der Eingabeaufforderung keine Informationen über das Thema hinzufügen, ist die Wahrscheinlichkeit größer, dass das Modell halluziniert.

  • Geben Sie konservative Werte für die Parameter "Min. Token" und "Max. Token" und mindestens eine Stoppfolge an.

    Wenn Sie einen hohen Wert für den Parameter "Mindest-Token" angeben, können Sie erzwingen, dass das Modell eine längere Antwort generiert, als das Modell natürlich für eine Eingabeaufforderung zurückgeben würde. Das Modell wird mit höherer Wahrscheinlichkeit halluziniert, da es Wörter zur Ausgabe hinzufügt, um den erforderlichen Grenzwert zu erreichen.

  • Für Anwendungsfälle, die nicht viel Kreativität in der generierten Ausgabe erfordern, verwenden Sie gierige Decodierung. Wenn Sie die Stichprobenentschlüsselung bevorzugen, müssen Sie konservative Werte für die Parameter 'temperature', 'top-p' und 'top-k ' angeben.

  • Um sich wiederholenden Text in der generierten Ausgabe zu reduzieren, versuchen Sie, den Wiederholungsparameter zu erhöhen.

  • Wenn in der generierten Ausgabe sich wiederholender Text angezeigt wird, wenn Sie gierige Decodierung verwenden, und wenn eine gewisse Kreativität für Ihren Anwendungsfall akzeptabel ist, versuchen Sie stattdessen, die Decodierung von Stichproben zu verwenden. Achten Sie darauf, mäßig niedrige Werte für die Parameter "temperature", "top-p" und "top-k" festzulegen.

  • Weisen Sie in Ihrer Eingabeaufforderung das Modell an, was zu tun ist, wenn es keine sichere Antwort oder Antwort mit hoher Wahrscheinlichkeit hat.

    In einem Fragenantwortszenario können Sie beispielsweise die folgende Anweisung einschließen: If the answer is not in the article, say “I don't know”.

Personenbezogene Daten

Das Vokabular eines foundation model wird aus den Wörtern in den Pretraining-Daten gebildet. Wenn Pretraining-Daten Webseiten enthalten, die aus dem Internet per Scraping erfasst werden, kann das Vokabular des Modells die folgenden Arten von Informationen enthalten:

  • Namen der Autoren von Artikeln
  • Kontaktinformationen von Unternehmenswebsites
  • Persönliche Informationen aus Fragen und Kommentaren, die in offenen Community-Foren veröffentlicht werden

Wenn Sie ein foundation model verwenden, um Text für einen Teil einer Werbe-E-Mail zu generieren, könnte der generierte Inhalt Kontaktinformationen für ein anderes Unternehmen enthalten!

Wenn Sie ein foundation model bitten, eine Arbeit mit Zitaten zu verfassen, kann es sein, dass das Modell Referenzen einfügt, die legitim aussehen, es aber nicht sind. Es könnte sogar diese konfektionierten Referenzen realen Autoren aus dem richtigen Feld zuordnen. Bei einem foundation model ist es wahrscheinlich, dass Zitate nachgeahmt werden, die zwar formal korrekt sind, aber nicht auf Fakten beruhen, da die Modelle gut darin sind, Wörter (einschließlich Namen) aneinanderzureihen, die mit hoher Wahrscheinlichkeit zusammen auftreten. Die Tatsache, dass das Modell der Ausgabe einen Hauch von Legitimität verleiht, indem es die Namen realer Menschen als Autoren in Zitate einschließt, macht diese Form der Halluzination überzeugend und glaubwürdig. Es macht auch diese Form der Halluzination gefährlich. Menschen können in Schwierigkeiten geraten, wenn sie glauben, dass die Zitate real sind. Ganz zu schweigen von dem Schaden, der Menschen entstehen kann, die als Autoren von Werken aufgeführt sind, die sie nicht geschrieben haben.

Verfahren zum Ausschluss personenbezogener Daten

Gehen Sie wie folgt vor, um persönliche Informationen auszuschließen:

  • Weisen Sie das Modell an, keine Namen, Kontaktinformationen oder persönlichen Informationen zu nennen.

    Wenn Sie beispielsweise ein Modell zum Generieren einer Werbe-E-Mail auffordern, weisen Sie das Modell an, Ihren Firmennamen und Ihre Telefonnummer einzuschließen. Weisen Sie das Modell außerdem an, "keine anderen Unternehmens-oder persönlichen Informationen einzuschließen".

  • Über die API watsonx.ai können Sie den PII-Filter im Feld moderations aktivieren, wenn Sie eine Inferenzanforderung übergeben.

    Weitere Informationen finden Sie in der API-Referenzdokumentation.

  • Verarbeiten Sie in Ihrer größeren Anwendung, Pipeline oder Lösung die vom foundation model generierten Inhalte nach, um personenbezogene Daten zu finden und zu entfernen.

Hassreden, Missbrauch und Profanität

Wie bei persönlichen Informationen gilt auch hier: Wenn die Daten vor dem Training hasserfüllte oder beleidigende Begriffe oder Schimpfwörter enthalten, hat ein auf diesen Daten trainiertes foundation model diese problematischen Begriffe in seinem Wortschatz. Wenn das Vokabular des Modells eine unangemessene Sprache enthält, kann das foundation model einen Text mit unerwünschtem Inhalt erzeugen.

Wenn Sie Basismodelle verwenden, um Inhalte für Ihr Unternehmen zu erstellen, müssen Sie Folgendes tun:

  • Erkennen Sie, dass diese Art von Ausgabe immer möglich ist.
  • Ergreifen Sie Maßnahmen, um die Wahrscheinlichkeit zu verringern, dass das Modell ausgelöst wird, um diese Art von schädlicher Ausgabe zu erzeugen.
  • Integrieren Sie Prozesse für die Benutzerprüfung und -prüfung in Ihre Lösungen.

Techniken zur Verringerung des Risikos von Hassrede, Missbrauch und Profanität

Testen Sie eine oder mehrere der folgenden Techniken, um Hassreden, Missbrauch und Profanität zu vermeiden:

  • Setzen Sie im Prompt Lab den Schalter AI guardrails auf "On". Wenn diese Funktion aktiviert ist, wird jeder Satz in der Eingabeeingabeaufforderung oder generierten Ausgabe, der eine schädliche Sprache enthält, durch eine Nachricht ersetzt, die besagt, dass potenziell schädlicher Text entfernt wurde.

  • Schließen Sie keine Hassrede, Missbrauch oder Profanität in Ihre Eingabeaufforderung ein, um zu verhindern, dass das Modell in Art antwortet.

  • Weisen Sie in Ihrer Eingabeaufforderung das Modell an, die bereinigte Sprache zu verwenden.

    Je nachdem, welchen Ton Sie für die Ausgabe benötigen, weisen Sie das Modell an, die Sprache "formal", "professional", "PG" oder "friendly" zu verwenden.

  • Über die API watsonx.ai können Sie den HAP-Filter im Feld moderations aktivieren, wenn Sie eine Inferenzanforderung übergeben.

    Weitere Informationen finden Sie in der API-Referenzdokumentation.

  • Verarbeiten Sie in Ihrer größeren Anwendung, Pipeline oder Lösung die vom foundation model generierten Inhalte nach, um unerwünschte Inhalte zu entfernen.

Verringern des Risikos von Verzerrungen in der Modellausgabe

Während des Vortrainings lernt ein foundation model die statistische Wahrscheinlichkeit, dass bestimmte Wörter auf andere Wörter folgen, basierend darauf, wie diese Wörter in den Trainingsdaten erscheinen. Jede Verzerrung in den Trainingsdaten wird in das Modell trainiert.

Wenn die Trainingsdaten beispielsweise häufiger auf Ärzte als Männer und Krankenschwestern als Frauen Bezug nehmen, spiegelt sich diese Verzerrung wahrscheinlich in den statistischen Beziehungen zwischen diesen Wörtern im Modell wider. Daher wird das Modell wahrscheinlich einen Output generieren, der Ärzte häufiger als Männer und Krankenschwestern als Frauen bezeichnet. Manchmal glauben Menschen, dass Algorithmen fairer und unvoreingenommener als Menschen sein können, weil die Algorithmen "nur Mathematik verwenden, um zu entscheiden". Die Verzerrung von Trainingsdaten spiegelt sich jedoch in Inhalten wider, die von Basismodellen generiert werden, die mit diesen Daten trainiert werden.

Verfahren zur Verringerung von Verzerrungen

Es ist schwierig, eine Ausgabe zu entkräften, die von einem foundation model erzeugt wurde, das zuvor auf verzerrten Daten trainiert wurde. Sie können die Ergebnisse jedoch verbessern, indem Sie Inhalte in Ihre Eingabeaufforderung aufnehmen, um Verzerrungen entgegenzuwirken, die möglicherweise für Ihren Anwendungsfall gelten.

Beispiel: Anstatt ein Modell anzuweisen, "die Symptome eines Herzinfarkts aufzulisten", könnten Sie das Modell anweisen, "die Symptome eines Herzinfarkts aufzulisten, einschließlich der Symptome, die für Männer häufig sind, und der Symptome, die für Frauen häufig sind".

Übergeordnetes Thema: Tipps für Eingabeaufforderungen

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen