0 / 0

Rimozione della lingua dannosa dall'input e dall'output del modello

Ultimo aggiornamento: 27 mag 2025
Rimozione della lingua dannosa dall'input e dall'output del modello

Le protezioni dell'IA rimuovono contenuti potenzialmente dannosi, come incitamento all'odio, abuso e volgarità, dall'output e dall'input del modello di base.

Funzionalità

Guardrail AI è alimentato dall'AI che utilizza classificatori di frasi per l'input fornito a un modello di fondazione e il testo di output generato dal modello.

Il classificatore di frasi suddivide il testo in ingresso e in uscita del modello in frasi, quindi esamina ogni frase per trovare e segnalare i contenuti dannosi. Il classificatore valuta ogni parola, le relazioni tra le parole e il contesto della frase per determinare se una frase contiene una lingua dannosa. Il classificatore assegna quindi un punteggio che rappresenta la probabilità che sia presente un contenuto inappropriato.

I guardrail dell'intelligenza artificiale vengono attivati automaticamente quando si inferiscono modelli di fondazione in linguaggio naturale.

Quando si utilizzano i guardrail AI nel sito Prompt Lab e si fa clic su Genera, il filtro controlla tutto il testo di input e output del modello. Il testo inappropriato viene gestito nei seguenti modi:

  • Il testo di input contrassegnato come inappropriato non viene inoltrato al modello di base. Al posto dell'emissione del modello viene visualizzato il seguente messaggio:

    [The input was rejected as inappropriate]

  • Il testo di output del modello contrassegnato come inappropriato viene sostituito con il seguente messaggio:

    [Potentially harmful text removed]

Limitazioni

  • I guardrail dell'intelligenza artificiale sono in grado di rilevare i contenuti dannosi solo nei testi in inglese.
  • Non è possibile applicare i guardrail dell'IA con i modelli di fondazione del linguaggio programmatico.

Modi di lavorare

È possibile rimuovere i contenuti dannosi quando si lavora con i modelli di fondazione con i seguenti metodi:

Impostazioni dei guardrail AI

È possibile configurare i seguenti filtri da applicare all'input dell'utente e all'output del modello e regolare la sensibilità del filtro, se applicabile:

Filtro Odio, abuso e blasfemia (HAP)

Il filtro HAP, chiamato anche rilevatore HAP, è un classificatore di frasi creato mettendo a punto un modello linguistico di grandi dimensioni della famiglia IBM Slate di modelli per l'elaborazione del linguaggio naturale (NLP) basati solo su codificatori e costruiti da IBM Research.

Utilizzate il filtro HAP per rilevare e contrassegnare i seguenti tipi di linguaggio:

  • Discorso d'odio: Espressioni di odio verso un individuo o un gruppo basate su attributi quali razza, religione, origine etnica, orientamento sessuale, disabilità o genere. L'incitamento all'odio mostra l'intento di ferire, umiliare o insultare i membri di un gruppo o di promuovere la violenza o il disordine sociale.

  • Linguaggio offensivo: Linguaggio scortese o offensivo che ha lo scopo di intimidire, svilire o sminuire qualcuno o qualcosa.

  • Profanazione: Parole volgari come imprecazioni, insulti o linguaggio sessualmente esplicito.

È possibile utilizzare il filtro HAP per l'input dell'utente e per l'output del modello in modo indipendente.

È possibile modificare la sensibilità del filtro impostando una soglia. La soglia rappresenta il valore che i punteggi generati dal classificatore HAP devono raggiungere perché il contenuto sia considerato dannoso. La soglia del punteggio varia da 0.0 a 1.0.

Un valore inferiore, come 0.1 o 0.2, è più sicuro perché la soglia è più bassa. I contenuti dannosi hanno maggiori probabilità di essere identificati quando un punteggio più basso può attivare il filtro. Tuttavia, il classificatore potrebbe essere attivato anche quando il contenuto è sicuro.

Un valore più vicino a 1, come 0.8 o 0.9, è più rischioso perché la soglia di punteggio è più alta. Se per attivare il filtro è necessario un punteggio più alto, le occorrenze di contenuti dannosi potrebbero sfuggire. Tuttavia, i contenuti segnalati come dannosi hanno maggiori probabilità di esserlo.

Per disabilitare i guardrail AI, impostare il valore di soglia HAP su 1.

Filtro per le informazioni di identificazione personale (PII)

Il filtro PII utilizza un modello NLP AI per identificare e segnalare i contenuti. Per l'elenco completo dei tipi di entità contrassegnate, vedere Estrazione basata su regole per entità generali.

Utilizzare il filtro HAP per controllare se le informazioni di identificazione personale, come numeri di telefono e indirizzi e-mail, vengono filtrate dall'input dell'utente e dall'output del modello di fondazione. È possibile impostare i filtri HAP per l'input dell'utente e per l'output del modello in modo indipendente.

Il valore di soglia del filtro PII è impostato su 0.8 e non è possibile modificare la sensibilità del filtro.

Utilizzo del modello Granite Guardian come filtro Beta

Il modello di fondazione Granite Guardian proviene dalla famiglia di modelli Granite di IBM. Questo modello è un filtro guardrail significativamente più potente, progettato per offrire una protezione avanzata contro i contenuti nocivi.

Nota:Il modello Granite Guardian come filtro è attualmente in fase beta e pertanto non comporta alcun costo. Granite La moderazione dei guardiani è disattivata per impostazione predefinita.

Utilizzare il modello Granite Guardian come filtro per rilevare e segnalare i seguenti tipi di linguaggio:

  • Pregiudizio sociale: Affermazioni preconcette basate sull'identità o sulle caratteristiche.

  • Jailbreaking: Tentativi di manipolare l'intelligenza artificiale per generare contenuti dannosi, limitati o inappropriati.

  • Violenza: Promozione di danni fisici, mentali o sessuali.

  • Profanazione: Uso di un linguaggio offensivo o di insulti.

  • Comportamento non etico: Azioni che violano gli standard morali o legali.

  • Impegno dannoso: Impegno o avallo di richieste dannose o non etiche.

  • Evasività: Evitare di impegnarsi senza fornire motivazioni sufficienti.

È possibile utilizzare il modello Granite Guardian come filtro solo per l'input dell'utente.

È possibile modificare la sensibilità del filtro impostando una soglia. La soglia rappresenta il valore di punteggio che il contenuto deve raggiungere per essere considerato dannoso. La soglia del punteggio varia da 0.0 a 1.0.

Un valore inferiore, come 0.1 o 0.2, è più sicuro perché la soglia è più bassa. I contenuti dannosi hanno maggiori probabilità di essere identificati quando un punteggio più basso può attivare il filtro. Tuttavia, il classificatore potrebbe essere attivato anche quando il contenuto è sicuro.

Un valore più vicino a 1, come 0.8 o 0.9, è più rischioso perché la soglia di punteggio è più alta. Se per attivare il filtro è necessario un punteggio più alto, le occorrenze di contenuti dannosi potrebbero sfuggire. Tuttavia, i contenuti segnalati come dannosi hanno maggiori probabilità di esserlo.

Per disabilitare i guardrail AI, impostare il valore di soglia Granite Guardian su 1.

Configurazione dei guardrail dell'IA nel file Prompt Lab

Per rimuovere i contenuti dannosi quando si lavora con i modelli di base nell' Prompt Lab, impostare il selettore AI guardrails su On.

La funzione AI guardrails è abilitata automaticamente per tutti i modelli di base in lingua naturale in inglese.

Per configurare i guardrail AI nel sito Prompt Lab, eseguire i seguenti passaggi:

  1. Con i guardrail AI abilitati, fare clic sull'icona delle impostazioni dei guardrail AI Icona delle impostazioni dei guardrail AI.

  2. È possibile configurare diversi filtri da applicare all'input dell'utente e all'output del modello e regolare la sensibilità del filtro, se applicabile.

    • Filtro HAP

      Per disabilitare i guardrail dell'IA, impostare il cursore HAP su 1. Per modificare la sensibilità dei guardrail, spostare i cursori HAP.

    • Filtro PII

      Per attivare il filtro PII, impostare il selettore PII su On.

    • Granite Il modello Guardian come filtro

      Granite La moderazione dei guardiani è disattivata per impostazione predefinita. Per modificare la sensibilità dei guardrail, spostare i cursori Granite Guardian.

    Sperimentate la regolazione dei cursori per trovare le impostazioni migliori per le vostre esigenze.

  3. Fare clic su Salva.

Configurazione programmatica dei guardrail AI

È possibile impostare i guardrail AI in modo programmatico per moderare il testo in ingresso fornito a un modello di fondazione e l'output generato dal modello in diversi modi.

API REST

È possibile utilizzare i seguenti endpoint dell'API watsonx.ai per configurare e applicare i guardrail dell'intelligenza artificiale al testo in ingresso e in uscita in linguaggio naturale:

Python

È possibile utilizzare l'SDK watsonx.ai Python per configurare e applicare i guardrail dell'intelligenza artificiale all'input e all'output di testo in linguaggio naturale nei seguenti modi:

  • Regolare i filtri AI guardrails con la libreria Python quando si inferisce il modello di fondazione usando l'API di generazione del testo. Per maggiori dettagli, vedere Inferenza di un modello di fondazione in modo programmatico ( Python ).

  • Regolare i filtri AI guardrails con la libreria Python quando si inferisce il modello di fondazione utilizzando l'API di rilevamento del testo. Per ulteriori informazioni, vedere la classe Guardian della libreria watsonx.ai Python.

    Il seguente esempio di codice mostra come configurare e utilizzare i filtri con l'API di rilevamento del testo:

    from ibm_watsonx_ai import APIClient, Credentials
    from ibm_watsonx_ai.foundation_models.moderations import Guardian
    
    credentials = Credentials(
      url = "https://{region}.ml.cloud.ibm.com",
      api_key ="{my-IBM-Cloud-API-key}"
    )
    api_client = APIClient(credentials, space_id="{my-space-ID}")
    
    detectors = {
      "granite_guardian": {"threshold": 0.4},
      "hap": {"threshold": 0.4},
      "pii": {},
    }
    
    guardian = Guardian(
      api_client=api_client,  # required
      detectors=detectors  # required
    )
    

    Per utilizzare il filtro personalizzato con la libreria Python, includere il seguente parametro nella richiesta di rilevamento del testo:

    text = "I would like to say some `Indecent words`."
    
    response = guardian.detect(
      text=text,   # required
      detectors=detectors # optional
    )
    

Per ulteriori informazioni, vedere watsonx.ai Python SDK.

Ulteriori informazioni

Argomento per i genitori: Spunti per la costruzione