0 / 0
Zurück zur englischen Version der Dokumentation
Basismodellparameter: Decodierungs-und Stoppkriterien
Letzte Aktualisierung: 14. Nov. 2024
Basismodellparameter: Decodierungs-und Stoppkriterien

Sie können Parameter im Eingabeaufforderungslabor festlegen, um zu steuern, wie das Modell die Ausgabe als Antwort auf Ihre Eingabeaufforderung generiert. Legen Sie Decodierungsparameter fest, um anzupassen, wie der Ausgabetext generiert wird. Legen Sie Parameter für Stoppkriterien fest, um anzugeben, wann das Modell die Ausgabegenerierung stoppen soll.

Decodierung

Decodierung ist der Prozess, den ein Modell verwendet, um die Token in der generierten Ausgabe auszuwählen.

Wählen Sie eine der folgenden Decodierungsoptionen aus:

  • Greedy-Decodierung: Wählt das Token mit der höchsten Wahrscheinlichkeit in jedem Schritt des Decodierungsprozesses aus.

    Die Greedy-Decodierung erzeugt eine Ausgabe, die der am häufigsten verwendeten Sprache in den Vortrainingsdaten des Modells und in Ihrem Eingabeaufforderungstext entspricht, was in weniger kreativen oder faktenbasierten Anwendungsfällen wünschenswert ist. Eine Schwäche der gierigen Decodierung ist, dass es wiederholte Schleifen in der generierten Ausgabe verursachen kann.

    Die Greedy-Dekodierung erzeugt bei aufeinanderfolgenden Aufforderungen nicht immer die gleiche Ausgabe. Um konsistente Ausgaben über mehrere Prompts hinweg zu erhalten, verwenden Sie Sampling-Decodierung und geben Sie in jedem Prompt dieselbe Zahl für den Parameter Random Seed an.

  • Stichprobenentschlüsselung: Bietet eine größere Variabilität bei der Auswahl von Token.

    Bei der Stichprobendecodierung werden die Token des Modells samples , d. h., das Modell wählt ein Subset von Tokens aus, und anschließend wird ein Token zufällig aus diesem Subset ausgewählt, das dem Ausgabetext hinzugefügt wird. Die Stichprobenziehung erhöht die Variabilität und Zufälligkeit des Decodierungsprozesses, was in kreativen Anwendungsfällen wünschenswert sein kann. Bei größerer Variabilität besteht jedoch ein höheres Risiko für falsche oder unsinnige Ausgaben.

Weitere Optionen für die Decodierung von Stichproben

Wenn Sie Sampling-Decodierung wählen, stehen weitere Parameter zur Verfügung, mit denen Sie einstellen können, wie das foundation model Token für die Stichprobe auswählt. Die folgenden Parameter wirken sich zusammen darauf aus, welche Tokens erfasst werden:

  • Temperaturstichprobe vereinfacht oder schärft die Wahrscheinlichkeitsverteilung über die zu stichprobenbezogenen Tokens.
  • Top-k-Stichprobenziehung erstellt Stichproben von Tokens mit den höchsten Wahrscheinlichkeiten, bis die angegebene Anzahl von Tokens erreicht ist.
  • Top-p-Stichprobentoken mit den höchsten Wahrscheinlichkeitsscores, bis die Summe der Scores den angegebenen Schwellenwert erreicht. (Die Top-p-Stichprobenziehung wird auch als Nukleusstichprobebezeichnet.
Tabelle 1. Unterstützte Werte, Standardwerte und Hinweise zur Verwendung bei der Stichprobenentschlüsselung
Parameter Unterstützte Werte Standard verwenden
Temperatur Gleitkommazahl im Bereich von 0.0 (entspricht der Greedy-Decodierung) bis 2.0 (maximale Kreativität) 0.7 Höhere Werte führen zu größerer Variabilität
Top K Ganze Zahl im Bereich von 1 bis 100 50 Höhere Werte führen zu größerer Variabilität
Obere P Gleitkommazahl im Bereich von 0.0 bis 1.0 1.0 Diese Einstellung wird nur verwendet, wenn Sie den Wert ändern.

Die Einstellungen 'Temperatur', 'Top K' und 'Top P ' sind nicht anwendbar, wenn Sie die gierige Decodierung verwenden.

Beispiel für die Anpassung der Decodierungseinstellungen für Stichproben

In diesem Beispiel hat das foundation model bereits den Ausgabetext " I took my dog erzeugt, und nun wählt das Modell das nächste Token aus.

Um die beste Auswahl zu finden, berechnet das Modell eine diskrete Wahrscheinlichkeitsverteilung über die möglichen Tokens. Bei diesem Verteilungstyp wird jedem Token eine Dezimalpunktwahrscheinlichkeitsbewertung zwischen 0 und 1 zugeordnet, wobei die Scores zu 1 addiert werden.

In einem realen Szenario gibt es möglicherweise Hunderte von möglichen Tokens. In diesem Beispiel umfassen die Auswahlmöglichkeiten nur fünf Tokens, die hier im Kontext typischer Sätze angezeigt werden:

Ich nahm meinen Hund ...

  • für eine Wanderung.
  • auf den Tierarzt.
  • mit mir.
  • und meine Katze im Urlaub.
  • durch den Kragen.

Top K und Top P stellen zwei verschiedene Methoden für die Auswahl der zu stichprobenartigen Token dar.

Beide Methoden beginnen mit der Reihenfolge der Auswahlmöglichkeiten von am wahrscheinlichsten bis am wenigsten wahrscheinlich. In der folgenden Tabelle sind die Tokens und ihre fiktiven Wahrscheinlichkeitsscores in Reihenfolge aufgelistet.

Tabelle 2: Beispieltokenoptionen mit Wahrscheinlichkeitsscores
Token Wahrscheinlichkeitsscore
nach 0.4
in 0.25
mit 0.17
und 0.13
nach 0.05

Top-K-Beispiel

Top K gibt an, wie viele Token für die Stichprobe verwendet werden sollen. Wenn Sie beispielsweise für 'Top K' den Wert 3 festlegen, werden nur die ersten drei Tokens in der Liste erfasst: für, fürund mit.

Zeigt dieselben Werte wie in Tabelle 2 an, wobei jedoch die ersten drei Zeilen hervorgehoben sind

Hinweis: Eine Greedy-Decodierung entspricht Top K = 1.

Top-P-Beispiel

Top P gibt den Schwellenwert für die kumulative Wahrscheinlichkeitsbewertung an, den die Tokens erreichen müssen.

Wenn Sie beispielsweise Top P auf 0.6setzen, werden nur die ersten beiden Token, für und auf, erfasst, da ihre Wahrscheinlichkeiten (0.4 und 0.25) zu 0.65addiert werden. (Wie in diesem Beispiel gezeigt, kann die Summe den Schwellenwert überschreiten.)

Zeigt dieselben Werte wie in Tabelle 2 an, jedoch mit den Wahrscheinlichkeitswerten aus den ersten beiden Zeilen, die hinzugefügt wurden, um 0.65 zu bilden

Top P wird nur verwendet, wenn Sie für den Parameter Top P einen anderen Wert als den Standardwert 1 angeben. Die gemeinsame Verwendung von Top P und Top K kann eine nützliche Methode zum Herausfiltern von Tokens mit besonders niedrigen Wahrscheinlichkeitsscores sein. Wenn beide Parameter angegeben werden, wird zuerst Top K angewendet.

Sie können beispielsweise Top K auf 5 und Top P auf 0.8setzen. Bei der Einstellung "Top K" werden Stichproben für alle 5 Token und dann bei "Top P" die Stichprobentokens auf für, aufund mit begrenzt, da ihre Wahrscheinlichkeiten den Wahrscheinlichkeitsbewertungsschwellenwert von 0.8 (0.4 + 0.25 + 0.17 = 0.82) erreichen.

Wenn beide Einstellungen angegeben sind, wird davon ausgegangen, dass alle Token unterhalb der durch Top K festgelegten Grenze bei der Berechnung von Top P eine Wahrscheinlichkeit von null aufweisen. Wenn beispielsweise für 'Top K' der Wert 2 und für 'Top P' der Wert 0.8festgelegt ist, wird nur für für und für eine Stichprobe erstellt. Für das Token mit wird keine Stichprobe erstellt, da die Wahrscheinlichkeitsscores für mit, undund durch auf 0 zurückgesetzt werden.

Temperaturbeispiel

Die Temperatureinstellung wirkt sich auf die Form der Wahrscheinlichkeitsverteilung aus, die bei der Stichprobenziehung von Tokens verwendet wird.

Zeigt zwei Diagramme nebeneinander an. Das Tieftemperaturdiagramm zeigt einen drastischen Anstieg. Das Diagramm der hohen Temperatur zeigt einen allmählichen Anstieg.

Niedrige Temperaturen verstärken die Wahrscheinlichkeitsunterschiede zwischen Token. Wahrscheinlichere Begriffe haben im Vergleich zu weniger wahrscheinlichen Begriffen viel höhere Bewertungen. Daher werden für Begriffe, die den Begriffen in den Trainingsdaten des Modells oder Ihrer Eingabeaufforderungseingabe ähneln, wahrscheinlich Stichproben erstellt. Verwenden Sie einen niedrigeren Temperaturwert, wenn Sie eine zuverlässigere Ausgabe wünschen.

Hohe Temperaturen führen zu Token-Wahrscheinlichkeiten, die einander näher sind. Daher haben ungewöhnliche Begriffe eine bessere Chance, eine Stichprobe zu erstellen. Verwenden Sie einen höheren Temperaturwert, wenn Sie die Zufälligkeit und Variabilität oder die Ausgabe erhöhen möchten, z. B. wenn Sie eine kreative Ausgabe wünschen. Beachten Sie, dass Zufälligkeit auch zu ungenauer oder unsinniger Ausgabe führen kann.

Wenn beispielsweise ein hoher Temperaturwert wie 2 angewendet wird, können die Wahrscheinlichkeitsscores der Token in diesem Beispiel näher beieinander liegen, wie in Tabelle 3 dargestellt.

Tabelle 3: Beispieltokenwahrscheinlichkeiten mit hoher Temperatur
Token Scores mit Temperatur = 2
nach 0.3
in 0.25
mit 0.2
und 0.15
nach 0.10

Wenn "Top P" auf 0.8gesetzt ist, wirkt sich die Temperatur wie folgt auf die Beispieltokens aus:

  • Bei einer hohen Temperatur werden die höchsten vier Token (für, bis, mitund und) erfasst, weil ihre Scores (0.3 + 0.25 + 0.2 + 0.15 = 90) insgesamt 90 sind.
  • Bei niedriger Temperatur werden nur die drei höchsten Token (für, bisund mit) erfasst, da ihre Scores (0.4 + 0.25 + 0.17 = 82) insgesamt 82 sind.

Zeigt eine Tabelle mit zwei Spalten an. Die ersten drei Wörter in der Spalte "Niedrige Temperatur" addieren sich auf 0.82. Die ersten vier Wörter in der Spalte "Hohe Temperatur" ergeben 0.9.

Wenn ein hoher Temperaturwert verwendet wird, werden mehr Token benötigt, um den Schwellenwert zu erreichen, der von Top P festgelegt wird. Das zusätzliche Token, für das Stichproben erstellt werden, hat die niedrigste Bewertung, was bedeutet, dass das Token eine ungewöhnlichere Wahl ist.

Seedwert für Zufallszahlen

Wenn Sie dieselbe Eingabeaufforderung mehrmals mit Stichprobendecodierung an ein Modell übergeben, generiert das Modell in der Regel jedes Mal einen anderen Text. Diese Variabilität ist das Ergebnis einer beabsichtigten Pseudozufälligkeit, die in den Decodierungsprozess integriert ist.

Startwert für Zufallszahlen bezieht sich auf die Zahl, die zum Starten des Zufallszahlengenerators verwendet wird, mit dem das Modell seine Tokenoptionen randomisiert. Wenn Sie diese absichtliche Zufälligkeit als Variable aus Ihren Experimenten entfernen möchten, können Sie bei jeder Ausführung des Experiments eine Zahl auswählen und dieselbe Zahl angeben.

  • Unterstützte Werte: Ganze Zahl im Bereich von 1 bis 4.294.967.295
  • Standardeinstellung: Selbst zufällig generiert
  • Verwendung: Um wiederholbare Ergebnisse zu erzeugen, legen Sie jedes Mal denselben Startwert für Zufallszahlen fest.

Abwertung bei Wiederholung

Wenn die generierte Ausgabe für die ausgewählte Eingabeaufforderung, das ausgewählte Modell und die ausgewählten Parameter konsistent repetitiven Text enthält, können Sie versuchen, eine Wiederholungsstrafehinzuzufügen. Wenn diese Option festgelegt ist, verringert die Penalisierung die Wahrscheinlichkeitsscores von Tokens, die kürzlich verwendet wurden, sodass die Wahrscheinlichkeit, dass das Modell sie wiederholt, geringer ist. Ein höherer Wert führt zu einer vielfältigeren und variantenreicheren Leistung.

  • Unterstützte Werte: Fließkommazahl im Bereich von 1.0 (keine Strafe) bis 2.0 (maximale Strafe)
  • Standardwert: 1.0
  • Verwendung: Je höher die Strafe, desto unwahrscheinlicher ist es, dass das Ergebnis wiederholten Text enthält.

Stoppkriterien

Die Textgenerierung wird gestoppt, wenn das Modell die Ausgabe als abgeschlossen betrachtet, eine Stoppsequenz generiert wird, die maximale Tokenbegrenzung erreicht wird oder das Zeitlimit für die Modellgenerierung erreicht wird.

Die Modellgenerierung wird gestoppt, sobald das Zeitlimit für die Generierungsanforderung erreicht ist. Das Standardzeitlimit für Lite-Pläne beträgt 10 Minuten und 5 Minuten. Sie können ein kürzeres Zeitlimit angeben, wenn Sie eine Inferenzanforderung über die API übergeben.

Sie können die Länge der Ausgabe, die vom Modell generiert wird, wie folgt beeinflussen: Angeben von Stoppsequenzen und Festlegen von Min. Token und Max. Token.

Stoppsequenzen

Eine Stoppfolge ist eine Zeichenfolge mit einem oder mehreren Zeichen. Wenn Sie Stoppsequenzen angeben, stoppt das Modell automatisch die Generierung der Ausgabe, nachdem eine der von Ihnen angegebenen Stoppsequenzen in der generierten Ausgabe angezeigt wird.

Eine Möglichkeit, ein Modell zu veranlassen, die Generierung der Ausgabe nach nur einem Satz zu stoppen, besteht beispielsweise darin, einen Punkt als Stoppfolge anzugeben. Auf diese Weise wird die Ausgabegenerierung gestoppt, nachdem das Modell den ersten Satz generiert und mit einem Punkt beendet hat.

Die Auswahl effektiver Stoppsequenzen hängt von Ihrem Anwendungsfall und der Art der generierten Ausgabe ab, die Sie erwarten.

  • Unterstützte Werte: 0 bis 6 Zeichenfolgen, jede nicht länger als 40 Token

  • Standardwert: Keine Stoppsequenz

  • Verwenden: Beachten Sie diese Tipps zur Verwendung von Stoppsequenzen:

    • Stoppsequenzen werden ignoriert, bis die im Parameter "Min. Token" angegebene Anzahl Token generiert wurde. Behalten Sie diese Beziehung im Hinterkopf, wenn Sie den Mindestwert für den Token-Parameter festlegen.
    • Wenn Ihre Eingabeaufforderung Beispiele für Eingabe- und Ausgabepaare enthält, sollten Sie eine der Stoppsequenzen in der Beispielausgabe in Ihre Beispiele aufnehmen.

Minimum und Maximum neuer Token

Wenn die Ausgabe des Modells zu kurz oder zu lang ist, versuchen Sie, die Parameter anzupassen, die die Anzahl der generierten Tokens steuern:

  • Der Parameter Min. Token steuert die Mindestanzahl der Token in der generierten Ausgabe.

  • Der Parameter Maximale Anzahl Tokens steuert die maximale Anzahl Tokens in der generierten Ausgabe.

  • Unterstützte Werte: Die maximale Anzahl von Token, die in der Ausgabe zulässig sind, ist je nach Modell unterschiedlich. Weitere Informationen finden Sie unter Maximale Anzahl Token im Abschnitt Unterstützte Basismodelle.

  • Standardwerte:

    • Min. Token: 0
    • Max. Token: 200
  • Verwenden:

    • Min. Token müssen kleiner-gleich Max. Token sein.
    • Die Kosten für die Verwendung von Basismodellen in IBM watsonx.ai basieren auf der Nutzung, die teilweise mit der Anzahl der generierten Tokens zusammenhängt. Die Angabe des niedrigsten Werts für die maximale Tokenanzahl, die für Ihren Anwendungsfall funktioniert, ist eine kostensparende Strategie.

Weitere Informationen

Übergeordnetes Thema: Labor für Eingabeaufforderung

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen