Le protezioni dell'IA rimuovono contenuti potenzialmente dannosi, come incitamento all'odio, abuso e volgarità, dall'output e dall'input del modello di base.
La funzione Guardils AI in Prompt Lab è potenziata da AI che applica un'attività di classificazione al testo di input e output del modello di base. Il classificatore di frasi, a cui si fa riferimento anche come rilevatore di odio, abuso e profanità (HAP) o filtro HAP, è stato creato ottimizzando un modello di linguaggio di grandi dimensioni dalla famiglia Slate di modelli NLP solo codificatore creati da IBM Research.
Il classificatore suddivide il testo di input e di output del modello in frasi, quindi esamina ogni frase per trovare e contrassegnare il contenuto dannoso. Il classificatore valuta ogni parola, le relazioni tra le parole e il contesto della frase per determinare se una frase contiene una lingua dannosa. Il classificatore assegna quindi un punteggio che rappresenta la probabilità che sia presente un contenuto inappropriato.
AI guardrails in Prompt Lab rileva e contrassegna i seguenti tipi di linguaggio:
Discorsi di odio: espressioni di odio nei confronti di un individuo o di un gruppo basate su attributi quali la razza, la religione, l'origine etnica, l'orientamento sessuale, la disabilità o il genere. L'incitamento all'odio mostra l'intento di ferire, umiliare o insultare i membri di un gruppo o di promuovere la violenza o il disordine sociale.
Linguaggio offensivo: Rude o linguaggio offensivo che ha lo scopo di vessare, debasare o deturpare qualcuno o qualcosa del genere.
Profanità: parole tossiche come imprecazioni, insulti o linguaggio sessualmente esplicito.
La funzione AI guardrails è supportata quando si deduscono i modelli di base in lingua naturale e può rilevare contenuto dannoso solo in testo inglese. Le guardrail AI non sono applicabili ai modelli di base in linguaggio programmatico.
Rimozione della lingua dannosa dall'input e dall'output in Prompt Lab
Per rimuovere il contenuto dannoso quando si utilizzano i modelli di base in Prompt Lab, impostare il commutatore Guardrails AI su On.
La funzione AI guardrails è abilitata automaticamente per tutti i modelli di base in lingua naturale in inglese.
Una volta abilitata la funzione, quando si fa clic su Genera, il filtro controlla tutto il testo di input e output del modello. Il testo inappropriato viene gestito nei seguenti modi:
Il testo di input contrassegnato come inappropriato non viene inoltrato al modello di base. Al posto dell'emissione del modello viene visualizzato il seguente messaggio:
[The input was rejected as inappropriate]
Il testo di output del modello contrassegnato come inappropriato viene sostituito con il seguente messaggio:
[Potentially harmful text removed]
Configurazione dei guardrail AI
È possibile controllare se il filtro HAP (hate, abuse, and profanity) viene applicato o meno e modificare la sensibilità del filtro HAP per l'input dell'utente e per l'output del modello di fondazione in modo indipendente.
Per configurare i guardrail AI, completare i seguenti passaggi:
Con AI Guardrails abilitato, fare clic sull'icona Impostazioni AI Guardrails .
Per disattivare i guardrail AI solo per l'input dell'utente o per l'output del modello di fondazione, impostare il cursore HAP per l'input dell'utente o per l'output del modello su
1
.Per modificare la sensibilità dei guardrail, spostare i cursori HAP.
Il valore del cursore rappresenta la soglia che i punteggi del classificatore HAP devono raggiungere perché il contenuto sia considerato dannoso. La soglia del punteggio varia da 0.0 a 1.0.
Un valore inferiore, come
0.1
o0.2
, è più sicuro perché la soglia è più bassa. I contenuti dannosi hanno maggiori probabilità di essere identificati quando un punteggio più basso può attivare il filtro. Tuttavia, il classificatore potrebbe essere attivato anche quando il contenuto è sicuro.Un valore più vicino a 1, come
0.8
o0.9
, è più rischioso perché la soglia di punteggio è più alta. Se per attivare il filtro è necessario un punteggio più alto, le occorrenze di contenuti dannosi potrebbero sfuggire. Tuttavia, i contenuti segnalati come dannosi hanno maggiori probabilità di esserlo.Sperimentate la regolazione dei cursori per trovare le impostazioni migliori per le vostre esigenze.
Fare clic su Salva.
Alternativa programmatica
Quando richiedi un modello di base utilizzando l'API, puoi utilizzare il campo moderations
per applicare filtri all'input e all'output del modello di base. Per ulteriori informazioni, vedi la Guida di riferimento APIwatsonx.ai. Per ulteriori informazioni su come regolare i filtri con la libreria Python , vedi Inferencing a foundation model programmaticamente.
Quando si inviano richieste di inferenza dall'API, è anche possibile applicare un filtro PII per segnalare i contenuti che potrebbero contenere informazioni di identificazione personale. Il filtro PII è disattivato per le richieste di inferenza inviate da Prompt Lab.
Il filtro PII utilizza un modello AI di elaborazione del linguaggio naturale per identificare e segnalare le menzioni di informazioni di identificazione personale (PII), come numeri di telefono e indirizzi e-mail. Per l'elenco completo dei tipi di entità contrassegnate, vedere Estrazione basata su regole per entità generali. Il valore della soglia del filtro è 0.8 e non può essere modificato.
Ulteriori informazioni
Argomento principale: Prompt Lab