KI-Guardrails entfernen potenziell schädliche Inhalte wie Hassreden, Missbrauch und Profanität aus der Ausgabe und Eingabe des Basismodells.
Das Feature AI guardrails im Eingabeaufforderungslabor basiert auf KI, das eine Klassifikationstask auf Basismodelleingabe und -ausgabetext anwendet. Das Satzklassifikationsmerkmal, das auch als HAP-Detektor (Hass, Missbrauch und Profanität) oder HAP-Filterbezeichnet wird, wurde durch die Feinabstimmung eines großen Sprachmodells aus der Slate-Familie der reinen NLP-Modelle erstellt, die von IBM Research erstellt wurden.
Das Klassifikationsmerkmal unterteilt den Modelleingabe-und -ausgabetext in Sätze und überprüft anschließend jeden Satz, um schädlichen Inhalt zu finden und zu markieren. Das Klassifikationsmerkmal bewertet jedes Wort, Beziehungen zwischen den Wörtern und den Kontext des Satzes, um festzustellen, ob ein Satz schädliche Sprache enthält. Das Klassifikationsmerkmal weist dann einen Score zu, der die Wahrscheinlichkeit darstellt, dass unzulässiger Inhalt vorhanden ist.
KI-Guardrails im Prompt Lab erkennen und erkennen die folgenden Sprachtypen:
Hassrede: Ausdrücke des Hasses gegenüber einer Person oder Gruppe, die auf Attributen wie Rasse, Religion, ethnischer Herkunft, sexueller Orientierung, Behinderung oder Geschlecht basieren. Hassreden zeigen eine Absicht, die Mitglieder einer Gruppe zu verletzen, zu erniedrigen oder zu beleidigen oder Gewalt oder soziale Störungen zu fördern.
Abusive Sprache: Rude oder verletzende Sprache, die dazu bestimmt ist, jemanden oder etwas zu schikanen, zu debase oder zu demean.
Profanität: Toxische Wörter wie Expletives, Beleidigungen oder sexuell explizite Sprache.
Das AI-Guardrails-Feature wird unterstützt, wenn Sie Basismodelle in natürlicher Sprache ableiten, und kann schädlichen Inhalt nur in englischer Sprache erkennen. KI-Guardrails sind nicht auf programmiersprachenbasierte Basismodelle anwendbar.
Schädliche Sprache aus Eingabe und Ausgabe in Prompt Lab entfernen
Wenn Sie beim Arbeiten mit Basismodellen im Prompt Lab schädliche Inhalte entfernen möchten, setzen Sie den Umschalter AI guardrails auf Ein.
Das AI-Guardrails-Feature wird automatisch für alle Natural Language Foundation-Modelle in Englisch aktiviert.
Wenn Sie nach Aktivierung der Funktion auf Generierenklicken, überprüft der Filter den gesamten Modelleingabe-und Modellausgabetext. Unzulässiger Text wird wie folgt behandelt:
Als unzulässig markierter Eingabetext wird nicht an das Basismodell übergeben. Anstelle der Modellausgabe wird die folgende Nachricht angezeigt:
[The input was rejected as inappropriate]
Modellausgabetext, der als unzulässig markiert ist, wird durch die folgende Nachricht ersetzt:
[Potentially harmful text removed]
Konfigurieren von AI-Leitplanken
Sie können steuern, ob der Filter für Hass, Beleidigungen und Obszönitäten (HAP) überhaupt angewendet wird, und die Empfindlichkeit des HAP-Filters für die Benutzereingabe und die Ausgabe des Stiftungsmodells unabhängig voneinander ändern.
Um AI-Leitplanken zu konfigurieren, führen Sie die folgenden Schritte aus:
Klicken Sie bei aktivierten AI Guardrails auf das Symbol AI Guardrails-Einstellungen .
Um die KI-Leitplanken nur für die Benutzereingabe oder die Ausgabe des Fundamentmodells zu deaktivieren, setzen Sie den HAP-Schieberegler für die Benutzereingabe oder die Modellausgabe auf
1
.Um die Empfindlichkeit der Leitplanken zu ändern, bewegen Sie die HAP-Schieberegler.
Der Schiebereglerwert stellt den Schwellenwert dar, den die Ergebnisse des HAP-Klassifikators erreichen müssen, damit der Inhalt als schädlich eingestuft wird. Der Schwellenwert für die Bewertung reicht von 0.0 bis 1.0.
Ein niedrigerer Wert, wie
0.1
oder0.2
, ist sicherer, da der Schwellenwert niedriger ist. Schädliche Inhalte werden mit größerer Wahrscheinlichkeit erkannt, wenn ein niedrigerer Wert den Filter auslösen kann. Der Klassifikator kann jedoch auch ausgelöst werden, wenn der Inhalt sicher ist.Ein Wert, der näher an 1 liegt, wie z. B.
0.8
oder0.9
, ist riskanter, weil der Schwellenwert für die Bewertung höher ist. Wenn eine höhere Punktzahl erforderlich ist, um den Filter auszulösen, werden möglicherweise schädliche Inhalte übersehen. Die als schädlich gekennzeichneten Inhalte sind jedoch mit größerer Wahrscheinlichkeit auch schädlich.Experimentieren Sie mit den Schiebereglern, um die besten Einstellungen für Ihre Bedürfnisse zu finden.
Klicken Sie auf Speichern.
Programmgesteuerte Alternative
Wenn Sie ein Basismodell über die API anfordern, können Sie das Feld moderations
verwenden, um Filter auf die Ein-und Ausgabe des Basismodells anzuwenden. Weitere Informationen finden Sie in der watsonx.ai -API-Referenz. Weitere Informationen zum Anpassen von Filtern mit der Bibliothek Python finden Sie unter Inferencing a foundation model programmatisch.
Wenn Sie Ableitungsanfragen über die API übermitteln, können Sie auch einen PII-Filter anwenden, um Inhalte zu kennzeichnen, die möglicherweise personenbezogene Daten enthalten. Der PII-Filter ist für Ableitungsanfragen, die von Prompt Lab übermittelt werden, deaktiviert.
Der PII-Filter verwendet ein KI-Modell zur Verarbeitung natürlicher Sprache, um Erwähnungen von personenbezogenen Daten wie Telefonnummern und E-Mail-Adressen zu identifizieren und zu kennzeichnen. Eine vollständige Liste der Entitätstypen, die gekennzeichnet sind, finden Sie unter Regelbasierte Extraktion für allgemeine Entitäten. Der Filterschwellenwert ist 0.8 und kann nicht geändert werden.
Weitere Informationen
Übergeordnetes Thema: Labor für Eingabeaufforderung