Schädliche Sprache aus Modelleingabe und -ausgabe entfernen
KI-Guardrails entfernen potenziell schädliche Inhalte wie Hassreden, Missbrauch und Profanität aus der Ausgabe und Eingabe des Basismodells.
Funktionen
KI-Guardrails wird durch KI angetrieben, die Satzklassifikatoren verwendet, um den Input, der einem Basismodell zur Verfügung gestellt wird, und den vom Modell generierten Output-Text zu klassifizieren.
Der Satzklassifikator zerlegt den Eingabe- und Ausgabetext des Modells in Sätze und überprüft dann jeden Satz, um schädliche Inhalte zu finden und zu kennzeichnen. Das Klassifikationsmerkmal bewertet jedes Wort, Beziehungen zwischen den Wörtern und den Kontext des Satzes, um festzustellen, ob ein Satz schädliche Sprache enthält. Das Klassifikationsmerkmal weist dann einen Score zu, der die Wahrscheinlichkeit darstellt, dass unzulässiger Inhalt vorhanden ist.
KI-Leitplanken werden automatisch aktiviert, wenn Sie natürlichsprachliche Grundmodelle inferenzieren.
Wenn Sie AI-Leitplanken im Prompt Lab verwenden und auf Generieren klicken, prüft der Filter den gesamten Modelleingabe- und -ausgabetext. Unzulässiger Text wird wie folgt behandelt:
Als unzulässig markierter Eingabetext wird nicht an das Basismodell übergeben. Anstelle der Modellausgabe wird die folgende Nachricht angezeigt:
[The input was rejected as inappropriate]
Modellausgabetext, der als unzulässig markiert ist, wird durch die folgende Nachricht ersetzt:
[Potentially harmful text removed]
Einschränkungen
- KI-Leitplanken können schädliche Inhalte nur in englischen Texten erkennen.
- Sie können keine KI-Leitplanken mit programmatischen Sprachfundamentmodellen anwenden.
Wege zur Arbeit
Sie können schädliche Inhalte bei der Arbeit mit Fundamentmodellen mit den folgenden Methoden entfernen:
- Aus der Prompt Lab. Weitere Informationen finden Sie unter Konfigurieren von KI-Leitplanken im Prompt Lab
- Programmatisch mit den folgenden Methoden:
KI-Leitfäden-Einstellungen
Sie können die folgenden Filter so konfigurieren, dass sie auf die Benutzereingabe und die Modellausgabe angewendet werden, und gegebenenfalls die Filterempfindlichkeit anpassen:
Filter für Hass, Beleidigungen und Obszönitäten (HAP)
Der HAP-Filter, der auch als HAP-Detektor bezeichnet wird, ist ein Satzklassifikator, der durch Feinabstimmung eines großen Sprachmodells aus der IBM Slate-Familie von reinen Encoder-Modellen für die Verarbeitung natürlicher Sprache (NLP) erstellt wurde, die von IBM Research entwickelt wurden.
Verwenden Sie den HAP-Filter, um die folgenden Arten von Sprache zu erkennen und zu kennzeichnen:
Hassrede: Äußerungen des Hasses gegenüber einer Person oder Gruppe aufgrund von Merkmalen wie Ethnie, Religion, ethnischer Herkunft, sexueller Orientierung, Behinderung oder Geschlecht. Hassreden zeigen eine Absicht, die Mitglieder einer Gruppe zu verletzen, zu erniedrigen oder zu beleidigen oder Gewalt oder soziale Störungen zu fördern.
Beleidigende Sprache: Unhöfliche oder verletzende Sprache, die darauf abzielt, jemanden oder etwas zu schikanieren, herabzusetzen oder zu erniedrigen.
Obszönität: Giftige Wörter wie Schimpfwörter, Beleidigungen oder sexuell eindeutige Sprache.
Sie können den HAP-Filter unabhängig voneinander für Benutzereingaben und Modellausgaben verwenden.
Sie können die Filterempfindlichkeit ändern, indem Sie einen Schwellenwert festlegen. Der Schwellenwert stellt den Wert dar, den der HAP-Klassifikator erreichen muss, damit der Inhalt als schädlich eingestuft wird. Der Schwellenwert für die Bewertung reicht von 0.0 bis 1.0.
Ein niedrigerer Wert, z. B. 0.1 oder 0.2, ist sicherer, weil der Schwellenwert niedriger ist. Schädliche Inhalte werden mit größerer Wahrscheinlichkeit erkannt, wenn ein niedrigerer Wert den Filter auslösen kann. Der Klassifikator kann jedoch auch ausgelöst werden, wenn der Inhalt sicher ist.
Ein Wert, der näher an 1 liegt, wie z. B. 0.8 oder 0.9, ist risikoreicher, da der Schwellenwert für die Bewertung höher ist. Wenn eine höhere Punktzahl erforderlich ist, um den Filter auszulösen, werden möglicherweise schädliche Inhalte übersehen. Die als schädlich gekennzeichneten Inhalte sind jedoch mit größerer Wahrscheinlichkeit auch schädlich.
Um AI-Leitplanken zu deaktivieren, setzen Sie den HAP-Schwellenwert auf 1
.
Filter für persönlich identifizierbare Informationen (PII)
Der PII-Filter verwendet ein NLP-KI-Modell, um Inhalte zu identifizieren und zu kennzeichnen. Eine vollständige Liste der Entitätstypen, die gekennzeichnet sind, finden Sie unter Regelbasierte Extraktion für allgemeine Entitäten.
Verwenden Sie den HAP-Filter, um festzulegen, ob personenbezogene Daten wie Telefonnummern und E-Mail-Adressen aus den Benutzereingaben und der Ausgabe des Stiftungsmodells herausgefiltert werden sollen. Sie können HAP-Filter für Benutzereingaben und Modellausgaben unabhängig voneinander einstellen.
Der Schwellenwert des PII-Filters ist auf 0.8 eingestellt, und Sie können die Empfindlichkeit des Filters nicht ändern.
Verwendung eines Granite Guardian-Modells als Filter 
Das Stiftungsmodell Granite Guardian stammt aus der Modellfamilie Granite von IBM. Bei diesem Modell handelt es sich um einen deutlich leistungsfähigeren Leitplankenfilter, der einen erweiterten Schutz vor schädlichen Inhalten bietet.
Verwenden Sie das Modell Granite Guardian als Filter, um die folgenden Arten von Sprache zu erkennen und zu kennzeichnen:
Soziale Voreingenommenheit: Vorurteilsbehaftete Aussagen, die auf Identität oder Merkmalen beruhen.
Jailbreaking: Versuche, die KI zu manipulieren, um schädliche, eingeschränkte oder unangemessene Inhalte zu erzeugen.
Gewalttätigkeit: Förderung von körperlichem, geistigem oder sexuellem Schaden.
Obszönität: Verwendung von beleidigenden Ausdrücken oder Beleidigungen.
Unethisches Verhalten: Handlungen, die gegen moralische oder rechtliche Normen verstoßen.
Schädliches Engagement: Engagement für oder Befürwortung von schädlichen oder unethischen Forderungen.
Ausweichmanöver: Vermeiden, sich zu engagieren, ohne ausreichende Gründe zu nennen.
Sie können das Modell Granite Guardian als Filter nur für Benutzereingaben verwenden.
Sie können die Filterempfindlichkeit ändern, indem Sie einen Schwellenwert festlegen. Der Schwellenwert ist der Wert, den ein Inhalt erreichen muss, um als schädlich zu gelten. Der Schwellenwert für die Bewertung reicht von 0.0 bis 1.0.
Ein niedrigerer Wert, z. B. 0.1 oder 0.2, ist sicherer, weil der Schwellenwert niedriger ist. Schädliche Inhalte werden mit größerer Wahrscheinlichkeit erkannt, wenn ein niedrigerer Wert den Filter auslösen kann. Der Klassifikator kann jedoch auch ausgelöst werden, wenn der Inhalt sicher ist.
Ein Wert, der näher an 1 liegt, wie z. B. 0.8 oder 0.9, ist risikoreicher, da der Schwellenwert für die Bewertung höher ist. Wenn eine höhere Punktzahl erforderlich ist, um den Filter auszulösen, werden möglicherweise schädliche Inhalte übersehen. Die als schädlich gekennzeichneten Inhalte sind jedoch mit größerer Wahrscheinlichkeit auch schädlich.
Um die KI-Leitplanken zu deaktivieren, setzen Sie den Schwellenwert für Granite Guardian auf 1
.
Konfigurieren von AI-Leitplanken in der Prompt Lab
Um schädliche Inhalte zu entfernen, wenn Sie mit Grundmodellen in Prompt Lab arbeiten, stellen Sie den Schalter für die KI-Leitplanken auf "Ein ".
Das AI-Guardrails-Feature wird automatisch für alle Natural Language Foundation-Modelle in Englisch aktiviert.
Um AI-Leitplanken in Prompt Lab zu konfigurieren, führen Sie die folgenden Schritte aus:
Klicken Sie bei aktivierten AI-Leitplanken auf das Symbol für die AI-Leitplankeneinstellungen
.
Sie können verschiedene Filter konfigurieren, die auf die Benutzereingabe und die Modellausgabe angewendet werden, und gegebenenfalls die Filterempfindlichkeit anpassen.
HAP-Filter
Um die KI-Leitplanken zu deaktivieren, stellen Sie den HAP-Schieberegler auf
1
. Um die Empfindlichkeit der Leitplanken zu ändern, bewegen Sie die HAP-Schieberegler.PII-Filter
Um den PII-Filter zu aktivieren, setzen Sie den PII-Umschalter auf Ein.
Granite Wächtermodell als Filter
Granite Die Wächter-Moderation ist standardmäßig deaktiviert. Um die Empfindlichkeit der Leitplanken zu ändern, bewegen Sie die Granite Guardian-Schieberegler.
Experimentieren Sie mit den Schiebereglern, um die besten Einstellungen für Ihre Bedürfnisse zu finden.
Klicken Sie auf Speichern.
AI-Leitplanken programmatisch konfigurieren
Sie können programmatisch AI-Leitplanken setzen, um den Eingabetext, der einem Fundamentmodell zur Verfügung gestellt wird, und die vom Modell erzeugte Ausgabe auf verschiedene Weise zu moderieren.
REST-API
Watsonx.ai
Sie können die folgenden watsonx.ai API-Endpunkte verwenden, um KI-Leitplanken zu konfigurieren und auf natürlichsprachlichen Eingabe- und Ausgabetext anzuwenden:
- Wenn Sie ein Basismodell mit Hilfe der Texterstellungs-API ableiten, können Sie das Feld
moderations
verwenden, um Filter auf die Ein- und Ausgabe des Basismodells anzuwenden. Weitere Informationen finden Sie unter Texterstellung in der API-Referenzdokumentation watsonx.ai. - Wenn Sie Inhalte mit Hilfe der Texterkennungs-API überprüfen, können Sie das Feld
detectors
verwenden, um Filter auf den Text anzuwenden. Weitere Informationen finden Sie unter Texterkennung in der watsonx.ai API-Referenzdokumentation.
Python
Watsonx.ai
Sie können das watsonx.ai Python SDK verwenden, um KI-Leitplanken zu konfigurieren und auf natürlichsprachliche Eingabe- und Ausgabetexte auf folgende Weise anzuwenden:
Passen Sie die KI-Guardrails-Filter mit der Bibliothek Python an, wenn Sie das Basismodell mit Hilfe der Texterstellungs-API inferenzieren. Weitere Informationen finden Sie unter Programmatische Inferenzierung eines Fundamentmodells ( Python ).
Passen Sie die KI-Guardrails-Filter mit der Bibliothek Python an, wenn Sie das Basismodell mit Hilfe der Texterkennungs-API inferenzieren. Weitere Informationen finden Sie in der Klasse Guardian in der Bibliothek watsonx.ai Python.
Das folgende Codebeispiel zeigt Ihnen, wie Sie die Filter mit der Texterkennungs-API konfigurieren und verwenden können:
from ibm_watsonx_ai import APIClient, Credentials from ibm_watsonx_ai.foundation_models.moderations import Guardian credentials = Credentials( url = "https://{region}.ml.cloud.ibm.com", api_key ="{my-IBM-Cloud-API-key}" ) api_client = APIClient(credentials, space_id="{my-space-ID}") detectors = { "granite_guardian": {"threshold": 0.4}, "hap": {"threshold": 0.4}, "pii": {}, } guardian = Guardian( api_client=api_client, # required detectors=detectors # required )
Um den benutzerdefinierten Filter mit der Bibliothek Python zu verwenden, fügen Sie den folgenden Parameter in die Anfrage zur Texterkennung ein:
text = "I would like to say some `Indecent words`." response = guardian.detect( text=text, # required detectors=detectors # optional )
Weitere Informationen finden Sie unter watsonx.ai Python SDK.
Weitere Informationen
- Verfahren zur Vermeidung unerwünschter Ausgaben
- watsonx.ai API-Referenzdokumentation
- KI-Risiko-Atlas
- Sicherheit und Datenschutz
Übergeordnetes Thema: Eingabeaufforderungen für Gebäude