Schädliche Sprache aus Modelleingabe und -ausgabe entfernen

Letzte Aktualisierung: 26. Feb. 2025
Schädliche Sprache aus Modelleingabe und -ausgabe entfernen

KI-Guardrails entfernen potenziell schädliche Inhalte wie Hassreden, Missbrauch und Profanität aus der Ausgabe und Eingabe des Basismodells.

Die KI-Leitplanken in Prompt Lab werden von einer KI angetrieben, die eine Klassifizierungsaufgabe auf den Ein- und Ausgabetext des Grundmodells anwendet. Der Satzklassifikator, der auch als HAP-Detektor (HAP = Hass, Beleidigung und Obszönität) oder HAP-Filter bezeichnet wird, wurde durch Feinabstimmung eines großen Sprachmodells aus der Slate-Familie von NLP-Modellen, die nur aus Encodern bestehen und von IBM Research erstellt wurden, entwickelt.

Das Klassifikationsmerkmal unterteilt den Modelleingabe-und -ausgabetext in Sätze und überprüft anschließend jeden Satz, um schädlichen Inhalt zu finden und zu markieren. Das Klassifikationsmerkmal bewertet jedes Wort, Beziehungen zwischen den Wörtern und den Kontext des Satzes, um festzustellen, ob ein Satz schädliche Sprache enthält. Das Klassifikationsmerkmal weist dann einen Score zu, der die Wahrscheinlichkeit darstellt, dass unzulässiger Inhalt vorhanden ist.

KI-Leitplanken in Prompt Lab erkennen und markieren die folgenden Arten von Sprache:

  • Hassrede: Ausdrücke des Hasses gegenüber einer Person oder Gruppe, die auf Attributen wie Rasse, Religion, ethnischer Herkunft, sexueller Orientierung, Behinderung oder Geschlecht basieren. Hassreden zeigen eine Absicht, die Mitglieder einer Gruppe zu verletzen, zu erniedrigen oder zu beleidigen oder Gewalt oder soziale Störungen zu fördern.

  • Abusive Sprache: Rude oder verletzende Sprache, die dazu bestimmt ist, jemanden oder etwas zu schikanen, zu debase oder zu demean.

  • Profanität: Toxische Wörter wie Expletives, Beleidigungen oder sexuell explizite Sprache.

Das AI-Guardrails-Feature wird unterstützt, wenn Sie Basismodelle in natürlicher Sprache ableiten, und kann schädlichen Inhalt nur in englischer Sprache erkennen. KI-Guardrails sind nicht auf programmiersprachenbasierte Basismodelle anwendbar.

Entfernung schädlicher Sprache aus Ein- und Ausgaben in Prompt Lab

Um schädliche Inhalte zu entfernen, wenn Sie mit Grundmodellen in Prompt Lab arbeiten, stellen Sie den Schalter für die KI-Leitplanken auf "Ein ".

Das AI-Guardrails-Feature wird automatisch für alle Natural Language Foundation-Modelle in Englisch aktiviert.

Wenn Sie nach Aktivierung der Funktion auf Generierenklicken, überprüft der Filter den gesamten Modelleingabe-und Modellausgabetext. Unzulässiger Text wird wie folgt behandelt:

  • Als unzulässig markierter Eingabetext wird nicht an das Basismodell übergeben. Anstelle der Modellausgabe wird die folgende Nachricht angezeigt:

    [The input was rejected as inappropriate]

  • Modellausgabetext, der als unzulässig markiert ist, wird durch die folgende Nachricht ersetzt:

    [Potentially harmful text removed]

Entfernung von PII aus Ein- und Ausgaben in Prompt Lab

Sie können einen PII-Filter anwenden, um Inhalte zu kennzeichnen, die möglicherweise personenbezogene Daten enthalten.

Der PII-Filter verwendet ein KI-Modell zur Verarbeitung natürlicher Sprache, um Erwähnungen von personenbezogenen Daten wie Telefonnummern und E-Mail-Adressen zu identifizieren und zu kennzeichnen.

Eine vollständige Liste der Entitätstypen, die gekennzeichnet sind, finden Sie unter Regelbasierte Extraktion für allgemeine Entitäten.

Um den PII-Filter zu aktivieren, führen Sie die folgenden Schritte aus:

  1. Stellen Sie den Schalter für die KI-Leitplanken in Prompt Lab auf "Ein ".

  2. Klicken Sie auf das Symbol für die Einstellungen der KI-Leitplanken Symbol für die Einstellungen der AI-Leitplanken.

  3. Stellen Sie den PII-Schalter in den Ein- und Ausgabebereichen auf "Ein ", um den PII-Filter zu aktivieren.

Der Schwellenwert für den PII-Filter ist auf 0.8 eingestellt und kann nicht geändert werden.

Konfigurieren von AI-Leitplanken

Sie können steuern, ob der Filter für Hass, Beleidigungen und Obszönitäten (HAP) überhaupt angewendet wird, und die Empfindlichkeit des HAP-Filters für die Benutzereingabe und die Ausgabe des Stiftungsmodells unabhängig voneinander ändern. Die Empfindlichkeit des PII-Filters kann nicht geändert werden.

Um AI-Leitplanken zu konfigurieren, führen Sie die folgenden Schritte aus:

  1. Wenn die KI-Leitplanken aktiviert sind, klicken Sie auf das Symbol für die KI-Leitplanken-Einstellungen Symbol für die Einstellungen der AI-Leitplanken.

  2. Um die KI-Leitplanken nur für die Benutzereingabe oder die Ausgabe des Fundamentmodells zu deaktivieren, setzen Sie den HAP-Schieberegler für die Benutzereingabe oder die Modellausgabe auf 1.

  3. Um die Empfindlichkeit der Leitplanken zu ändern, bewegen Sie die HAP-Schieberegler.

    Der Schiebereglerwert stellt den Schwellenwert dar, den die Ergebnisse des HAP-Klassifikators erreichen müssen, damit der Inhalt als schädlich eingestuft wird. Der Schwellenwert für die Bewertung reicht von 0.0 bis 1.0.

    Ein niedrigerer Wert, wie 0.1 oder 0.2, ist sicherer, da der Schwellenwert niedriger ist. Schädliche Inhalte werden mit größerer Wahrscheinlichkeit erkannt, wenn ein niedrigerer Wert den Filter auslösen kann. Der Klassifikator kann jedoch auch ausgelöst werden, wenn der Inhalt sicher ist.

    Ein Wert, der näher an 1 liegt, wie z. B. 0.8 oder 0.9, ist riskanter, weil der Schwellenwert für die Bewertung höher ist. Wenn eine höhere Punktzahl erforderlich ist, um den Filter auszulösen, werden möglicherweise schädliche Inhalte übersehen. Die als schädlich gekennzeichneten Inhalte sind jedoch mit größerer Wahrscheinlichkeit auch schädlich.

    Experimentieren Sie mit den Schiebereglern, um die besten Einstellungen für Ihre Bedürfnisse zu finden.

  4. Klicken Sie auf Speichern.

Programmgesteuerte Alternative

Wenn Sie ein Basismodell über die API anfordern, können Sie das Feld moderations verwenden, um Filter auf die Ein-und Ausgabe des Basismodells anzuwenden. Weitere Informationen finden Sie in der watsonx.ai -API-Referenz. Weitere Informationen zum Anpassen von Filtern mit der Bibliothek Python finden Sie unter Inferencing a foundation model programmatisch.

Weitere Informationen

Übergeordnetes Thema: Prompt Lab