0 / 0

Schädliche Sprache aus Modelleingabe und -ausgabe entfernen

Letzte Aktualisierung: 23. Juni 2025
Schädliche Sprache aus Modelleingabe und -ausgabe entfernen

KI-Guardrails entfernen potenziell schädliche Inhalte wie Hassreden, Missbrauch und Profanität aus der Ausgabe und Eingabe des Basismodells.

Funktionen

KI-Guardrails wird durch KI angetrieben, die Satzklassifikatoren verwendet, um den Input, der einem Basismodell zur Verfügung gestellt wird, und den vom Modell generierten Output-Text zu klassifizieren.

Der Satzklassifikator zerlegt den Eingabe- und Ausgabetext des Modells in Sätze und überprüft dann jeden Satz, um schädliche Inhalte zu finden und zu kennzeichnen. Das Klassifikationsmerkmal bewertet jedes Wort, Beziehungen zwischen den Wörtern und den Kontext des Satzes, um festzustellen, ob ein Satz schädliche Sprache enthält. Das Klassifikationsmerkmal weist dann einen Score zu, der die Wahrscheinlichkeit darstellt, dass unzulässiger Inhalt vorhanden ist.

KI-Leitplanken werden automatisch aktiviert, wenn Sie natürlichsprachliche Grundmodelle inferenzieren.

Wenn Sie AI-Leitplanken im Prompt Lab verwenden und auf Generieren klicken, prüft der Filter den gesamten Modelleingabe- und -ausgabetext. Unzulässiger Text wird wie folgt behandelt:

  • Als unzulässig markierter Eingabetext wird nicht an das Basismodell übergeben. Anstelle der Modellausgabe wird die folgende Nachricht angezeigt:

    [The input was rejected as inappropriate]

  • Modellausgabetext, der als unzulässig markiert ist, wird durch die folgende Nachricht ersetzt:

    [Potentially harmful text removed]

Einschränkungen

  • KI-Leitplanken können schädliche Inhalte nur in englischen Texten erkennen.
  • Sie können keine KI-Leitplanken mit programmatischen Sprachfundamentmodellen anwenden.

Wege zur Arbeit

Sie können schädliche Inhalte bei der Arbeit mit Fundamentmodellen mit den folgenden Methoden entfernen:

KI-Leitfäden-Einstellungen

Sie können die folgenden Filter so konfigurieren, dass sie auf die Benutzereingabe und die Modellausgabe angewendet werden, und gegebenenfalls die Filterempfindlichkeit anpassen:

Filter für Hass, Beleidigungen und Obszönitäten (HAP)

Der HAP-Filter, der auch als HAP-Detektor bezeichnet wird, ist ein Satzklassifikator, der durch Feinabstimmung eines großen Sprachmodells aus der IBM Slate-Familie von reinen Encoder-Modellen für die Verarbeitung natürlicher Sprache (NLP) erstellt wurde, die von IBM Research entwickelt wurden.

Verwenden Sie den HAP-Filter, um die folgenden Arten von Sprache zu erkennen und zu kennzeichnen:

  • Hassrede: Äußerungen des Hasses gegenüber einer Person oder Gruppe aufgrund von Merkmalen wie Ethnie, Religion, ethnischer Herkunft, sexueller Orientierung, Behinderung oder Geschlecht. Hassreden zeigen eine Absicht, die Mitglieder einer Gruppe zu verletzen, zu erniedrigen oder zu beleidigen oder Gewalt oder soziale Störungen zu fördern.

  • Beleidigende Sprache: Unhöfliche oder verletzende Sprache, die darauf abzielt, jemanden oder etwas zu schikanieren, herabzusetzen oder zu erniedrigen.

  • Obszönität: Giftige Wörter wie Schimpfwörter, Beleidigungen oder sexuell eindeutige Sprache.

Sie können den HAP-Filter unabhängig voneinander für Benutzereingaben und Modellausgaben verwenden.

Sie können die Filterempfindlichkeit ändern, indem Sie einen Schwellenwert festlegen. Der Schwellenwert stellt den Wert dar, den der HAP-Klassifikator erreichen muss, damit der Inhalt als schädlich eingestuft wird. Der Schwellenwert für die Bewertung reicht von 0.0 bis 1.0.

Ein niedrigerer Wert, z. B. 0.1 oder 0.2, ist sicherer, weil der Schwellenwert niedriger ist. Schädliche Inhalte werden mit größerer Wahrscheinlichkeit erkannt, wenn ein niedrigerer Wert den Filter auslösen kann. Der Klassifikator kann jedoch auch ausgelöst werden, wenn der Inhalt sicher ist.

Ein Wert, der näher an 1 liegt, wie z. B. 0.8 oder 0.9, ist risikoreicher, da der Schwellenwert für die Bewertung höher ist. Wenn eine höhere Punktzahl erforderlich ist, um den Filter auszulösen, werden möglicherweise schädliche Inhalte übersehen. Die als schädlich gekennzeichneten Inhalte sind jedoch mit größerer Wahrscheinlichkeit auch schädlich.

Um AI-Leitplanken zu deaktivieren, setzen Sie den HAP-Schwellenwert auf 1.

Filter für persönlich identifizierbare Informationen (PII)

Der PII-Filter verwendet ein NLP-KI-Modell, um Inhalte zu identifizieren und zu kennzeichnen. Eine vollständige Liste der Entitätstypen, die gekennzeichnet sind, finden Sie unter Regelbasierte Extraktion für allgemeine Entitäten.

Verwenden Sie den HAP-Filter, um festzulegen, ob personenbezogene Daten wie Telefonnummern und E-Mail-Adressen aus den Benutzereingaben und der Ausgabe des Stiftungsmodells herausgefiltert werden sollen. Sie können HAP-Filter für Benutzereingaben und Modellausgaben unabhängig voneinander einstellen.

Der Schwellenwert des PII-Filters ist auf 0.8 eingestellt, und Sie können die Empfindlichkeit des Filters nicht ändern.

Verwendung eines Granite Guardian-Modells als Filter Betaversion

Das Stiftungsmodell Granite Guardian stammt aus der Modellfamilie Granite von IBM. Bei diesem Modell handelt es sich um einen deutlich leistungsfähigeren Leitplankenfilter, der einen erweiterten Schutz vor schädlichen Inhalten bietet.

Hinweis:Das Modell Granite Guardian als Filter befindet sich derzeit in der Beta-Phase und verursacht daher keine Kosten. Granite Die Wächter-Moderation ist standardmäßig deaktiviert.

Verwenden Sie das Modell Granite Guardian als Filter, um die folgenden Arten von Sprache zu erkennen und zu kennzeichnen:

  • Soziale Voreingenommenheit: Vorurteilsbehaftete Aussagen, die auf Identität oder Merkmalen beruhen.

  • Jailbreaking: Versuche, die KI zu manipulieren, um schädliche, eingeschränkte oder unangemessene Inhalte zu erzeugen.

  • Gewalttätigkeit: Förderung von körperlichem, geistigem oder sexuellem Schaden.

  • Obszönität: Verwendung von beleidigenden Ausdrücken oder Beleidigungen.

  • Unethisches Verhalten: Handlungen, die gegen moralische oder rechtliche Normen verstoßen.

  • Schädliches Engagement: Engagement für oder Befürwortung von schädlichen oder unethischen Forderungen.

  • Ausweichmanöver: Vermeiden, sich zu engagieren, ohne ausreichende Gründe zu nennen.

Wichtig: Der Granite Guardian-Filter verwendet den gesamten Chatverlauf, um festzustellen, ob eine Eingabeaufforderung unsicher ist. Wenn Sie eine Nachricht einfügen, die als

Sie können das Modell Granite Guardian als Filter nur für Benutzereingaben verwenden.

Sie können die Filterempfindlichkeit ändern, indem Sie einen Schwellenwert festlegen. Der Schwellenwert ist der Wert, den ein Inhalt erreichen muss, um als schädlich zu gelten. Der Schwellenwert für die Bewertung reicht von 0.0 bis 1.0.

Ein niedrigerer Wert, z. B. 0.1 oder 0.2, ist sicherer, weil der Schwellenwert niedriger ist. Schädliche Inhalte werden mit größerer Wahrscheinlichkeit erkannt, wenn ein niedrigerer Wert den Filter auslösen kann. Der Klassifikator kann jedoch auch ausgelöst werden, wenn der Inhalt sicher ist.

Ein Wert, der näher an 1 liegt, wie z. B. 0.8 oder 0.9, ist risikoreicher, da der Schwellenwert für die Bewertung höher ist. Wenn eine höhere Punktzahl erforderlich ist, um den Filter auszulösen, werden möglicherweise schädliche Inhalte übersehen. Die als schädlich gekennzeichneten Inhalte sind jedoch mit größerer Wahrscheinlichkeit auch schädlich.

Um die KI-Leitplanken zu deaktivieren, setzen Sie den Schwellenwert für Granite Guardian auf 1.

Konfigurieren von AI-Leitplanken in der Prompt Lab

Um schädliche Inhalte zu entfernen, wenn Sie mit Grundmodellen in Prompt Lab arbeiten, stellen Sie den Schalter für die KI-Leitplanken auf "Ein ".

Das AI-Guardrails-Feature wird automatisch für alle Natural Language Foundation-Modelle in Englisch aktiviert.

Um AI-Leitplanken in Prompt Lab zu konfigurieren, führen Sie die folgenden Schritte aus:

  1. Klicken Sie bei aktivierten AI-Leitplanken auf das Symbol für die AI-Leitplankeneinstellungen Symbol für die Einstellungen der AI-Leitplanken.

  2. Sie können verschiedene Filter konfigurieren, die auf die Benutzereingabe und die Modellausgabe angewendet werden, und gegebenenfalls die Filterempfindlichkeit anpassen.

    • HAP-Filter

      Um die KI-Leitplanken zu deaktivieren, stellen Sie den HAP-Schieberegler auf 1. Um die Empfindlichkeit der Leitplanken zu ändern, bewegen Sie die HAP-Schieberegler.

    • PII-Filter

      Um den PII-Filter zu aktivieren, setzen Sie den PII-Umschalter auf Ein.

    • Granite Wächtermodell als Filter

      Granite Die Wächter-Moderation ist standardmäßig deaktiviert. Um die Empfindlichkeit der Leitplanken zu ändern, bewegen Sie die Granite Guardian-Schieberegler.

    Experimentieren Sie mit den Schiebereglern, um die besten Einstellungen für Ihre Bedürfnisse zu finden.

  3. Klicken Sie auf Speichern.

AI-Leitplanken programmatisch konfigurieren

Sie können programmatisch AI-Leitplanken setzen, um den Eingabetext, der einem Fundamentmodell zur Verfügung gestellt wird, und die vom Modell erzeugte Ausgabe auf verschiedene Weise zu moderieren.

REST-API

Watsonx.ai

Sie können die folgenden watsonx.ai API-Endpunkte verwenden, um KI-Leitplanken zu konfigurieren und auf natürlichsprachlichen Eingabe- und Ausgabetext anzuwenden:

Python

Watsonx.ai

Sie können das watsonx.ai Python SDK verwenden, um KI-Leitplanken zu konfigurieren und auf natürlichsprachliche Eingabe- und Ausgabetexte auf folgende Weise anzuwenden:

  • Passen Sie die KI-Guardrails-Filter mit der Bibliothek Python an, wenn Sie das Basismodell mit Hilfe der Texterstellungs-API inferenzieren. Weitere Informationen finden Sie unter Programmatische Inferenzierung eines Fundamentmodells ( Python ).

  • Passen Sie die KI-Guardrails-Filter mit der Bibliothek Python an, wenn Sie das Basismodell mit Hilfe der Texterkennungs-API inferenzieren. Weitere Informationen finden Sie in der Klasse Guardian in der Bibliothek watsonx.ai Python.

    Das folgende Codebeispiel zeigt Ihnen, wie Sie die Filter mit der Texterkennungs-API konfigurieren und verwenden können:

    from ibm_watsonx_ai import APIClient, Credentials
    from ibm_watsonx_ai.foundation_models.moderations import Guardian
    
    credentials = Credentials(
      url = "https://{region}.ml.cloud.ibm.com",
      api_key ="{my-IBM-Cloud-API-key}"
    )
    api_client = APIClient(credentials, space_id="{my-space-ID}")
    
    detectors = {
      "granite_guardian": {"threshold": 0.4},
      "hap": {"threshold": 0.4},
      "pii": {},
    }
    
    guardian = Guardian(
      api_client=api_client,  # required
      detectors=detectors  # required
    )
    

    Um den benutzerdefinierten Filter mit der Bibliothek Python zu verwenden, fügen Sie den folgenden Parameter in die Anfrage zur Texterkennung ein:

    text = "I would like to say some `Indecent words`."
    
    response = guardian.detect(
      text=text,   # required
      detectors=detectors # optional
    )
    

Weitere Informationen finden Sie unter watsonx.ai Python SDK.

Weitere Informationen

Übergeordnetes Thema: Eingabeaufforderungen für Gebäude