Rimozione della lingua dannosa dall'input e dall'output del modello

Ultimo aggiornamento: 26 feb 2025
Rimozione della lingua dannosa dall'input e dall'output del modello

Le protezioni dell'IA rimuovono contenuti potenzialmente dannosi, come incitamento all'odio, abuso e volgarità, dall'output e dall'input del modello di base.

I guardrail di intelligenza artificiale presenti nell' Prompt Lab, sono alimentati da un'intelligenza artificiale che applica un compito di classificazione al testo di input e output del modello di base. Il classificatore di frasi, noto anche come rilevatore di odio, abuso e parolacce (HAP) o filtro HAP, è stato creato perfezionando un ampio modello linguistico della famiglia Slate di modelli NLP solo codificatori costruiti da IBM Research.

Il classificatore suddivide il testo di input e di output del modello in frasi, quindi esamina ogni frase per trovare e contrassegnare il contenuto dannoso. Il classificatore valuta ogni parola, le relazioni tra le parole e il contesto della frase per determinare se una frase contiene una lingua dannosa. Il classificatore assegna quindi un punteggio che rappresenta la probabilità che sia presente un contenuto inappropriato.

AI guardrails nell' Prompt Lab, rileva e contrassegna i seguenti tipi di linguaggio:

  • Discorsi di odio: espressioni di odio nei confronti di un individuo o di un gruppo basate su attributi quali la razza, la religione, l'origine etnica, l'orientamento sessuale, la disabilità o il genere. L'incitamento all'odio mostra l'intento di ferire, umiliare o insultare i membri di un gruppo o di promuovere la violenza o il disordine sociale.

  • Linguaggio offensivo: Rude o linguaggio offensivo che ha lo scopo di vessare, debasare o deturpare qualcuno o qualcosa del genere.

  • Profanità: parole tossiche come imprecazioni, insulti o linguaggio sessualmente esplicito.

La funzione AI guardrails è supportata quando si deduscono i modelli di base in lingua naturale e può rilevare contenuto dannoso solo in testo inglese. Le guardrail AI non sono applicabili ai modelli di base in linguaggio programmatico.

Rimuovere il linguaggio offensivo dall'input e dall'output in Prompt Lab

Per rimuovere i contenuti dannosi quando si lavora con i modelli di base nell' Prompt Lab, impostare il selettore AI guardrails su On.

La funzione AI guardrails è abilitata automaticamente per tutti i modelli di base in lingua naturale in inglese.

Una volta abilitata la funzione, quando si fa clic su Genera, il filtro controlla tutto il testo di input e output del modello. Il testo inappropriato viene gestito nei seguenti modi:

  • Il testo di input contrassegnato come inappropriato non viene inoltrato al modello di base. Al posto dell'emissione del modello viene visualizzato il seguente messaggio:

    [The input was rejected as inappropriate]

  • Il testo di output del modello contrassegnato come inappropriato viene sostituito con il seguente messaggio:

    [Potentially harmful text removed]

Rimozione dei PII da input e output in Prompt Lab

È possibile applicare un filtro PII per contrassegnare i contenuti che potrebbero contenere informazioni di identificazione personale.

Il filtro PII utilizza un modello AI di elaborazione del linguaggio naturale per identificare e segnalare le menzioni di informazioni di identificazione personale (PII), come numeri di telefono e indirizzi e-mail.

Per l'elenco completo dei tipi di entità contrassegnate, vedere Estrazione basata su regole per entità generali.

Per abilitare il filtro PII, completare i seguenti passaggi:

  1. Dall' Prompt Lab, impostare il selettore dei guardrail AI su On.

  2. Fare clic sull'icona delle impostazioni dei guardrail AI Icona delle impostazioni dei guardrail AI.

  3. Nelle sezioni di ingresso e uscita, impostare il commutatore PII su On per abilitare il filtro PII.

Il valore di soglia del filtro PII è impostato su 0.8 e non può essere modificato.

Configurazione dei guardrail AI

È possibile controllare se il filtro HAP (hate, abuse, and profanity) viene applicato o meno e modificare la sensibilità del filtro HAP per l'input dell'utente e per l'output del modello di fondazione in modo indipendente. Non è possibile modificare la sensibilità del filtro PII.

Per configurare i guardrail AI, completare i seguenti passaggi:

  1. Con AI Guardrails abilitato, fare clic sull'icona delle impostazioni di AI Guardrails Icona delle impostazioni dei guardrail AI.

  2. Per disattivare i guardrail AI solo per l'input dell'utente o per l'output del modello di fondazione, impostare il cursore HAP per l'input dell'utente o per l'output del modello su 1.

  3. Per modificare la sensibilità dei guardrail, spostare i cursori HAP.

    Il valore del cursore rappresenta la soglia che i punteggi del classificatore HAP devono raggiungere perché il contenuto sia considerato dannoso. La soglia del punteggio varia da 0.0 a 1.0.

    Un valore inferiore, come 0.1 o 0.2, è più sicuro perché la soglia è più bassa. I contenuti dannosi hanno maggiori probabilità di essere identificati quando un punteggio più basso può attivare il filtro. Tuttavia, il classificatore potrebbe essere attivato anche quando il contenuto è sicuro.

    Un valore più vicino a 1, come 0.8 o 0.9, è più rischioso perché la soglia di punteggio è più alta. Se per attivare il filtro è necessario un punteggio più alto, le occorrenze di contenuti dannosi potrebbero sfuggire. Tuttavia, i contenuti segnalati come dannosi hanno maggiori probabilità di esserlo.

    Sperimentate la regolazione dei cursori per trovare le impostazioni migliori per le vostre esigenze.

  4. Fare clic su Salva.

Alternativa programmatica

Quando richiedi un modello di base utilizzando l'API, puoi utilizzare il campo moderations per applicare filtri all'input e all'output del modello di base. Per ulteriori informazioni, vedi la Guida di riferimento APIwatsonx.ai. Per ulteriori informazioni su come regolare i filtri con la libreria Python , vedi Inferencing a foundation model programmaticamente.

Ulteriori informazioni

Argomento principale: Prompt Lab