0 / 0
Torna alla versione inglese della documentazione
Tecniche per evitare risultati indesiderati
Ultimo aggiornamento: 28 nov 2024
Tecniche per evitare risultati indesiderati

Ogni foundation model è potenzialmente in grado di generare output con contenuti errati o addirittura dannosi. Comprendere i tipi di output indesiderabili che possono essere generati, i motivi dell'output indesiderabile e le operazioni che è possibile intraprendere per ridurre il rischio di danni.

I modelli di base disponibili in IBM watsonx.ai possono generare output che contiene allucinazioni, informazioni personali, incitamento all'odio, abuso, volgarità e pregiudizi. Le seguenti tecniche possono aiutare a ridurre il rischio, ma non garantiscono che l'output generato sia privo di contenuti indesiderati.

Trovate delle tecniche che vi aiutino a evitare i seguenti tipi di contenuti indesiderati nell'output foundation model:

Allucinazioni

Quando un foundation model genera contenuti fuori tema, ripetitivi o errati, o inventa dettagli, questo comportamento viene talvolta definito allucinazione.

Allucinazioni fuori argomento possono verificarsi a causa di pseudo - casualità nella decodificazione dell'output generato. Nei casi migliori, questa casualità può risultare in un risultato meravigliosamente creativo. Ma la casualità può anche risultare in una produzione senza senso che non è utile.

Il modello potrebbe restituire allucinazioni sotto forma di dettagli inventati quando viene richiesto di generare testo, ma non viene fornito abbastanza testo correlato su cui attingere. Se si includono i dettagli corretti nel prompt, ad esempio, è meno probabile che il modello abbia allucinazioni e crei dettagli.

Tecniche per evitare le allucinazioni

Per evitare allucinazioni, testare una o più di queste tecniche:

  • Scegli un modello con pre - addestramento e messa a punto che corrisponda al tuo dominio e all'attività che stai eseguendo.

  • Fornire il contesto nel prompt.

    Se si istruisce un foundation model a generare un testo su un argomento che non è comune nei suoi dati di preformazione e non si aggiungono informazioni sull'argomento al prompt, è più probabile che il modello abbia delle allucinazioni.

  • Specificare i valori conservativi per i parametri Min token e Max token e specificare una o più sequenze di arresto.

    Quando si specifica un valore elevato per il parametro Token min, è possibile forzare il modello a generare una risposta più lunga di quella che il modello restituirebbe naturalmente per un prompt. È più probabile che il modello abbia allucinazioni in quanto aggiunge parole all'output per raggiungere il limite richiesto.

  • Per i casi di utilizzo che non richiedono molta creatività nell'output generato, utilizzare la decodificazione greedy. Se si preferisce utilizzare la decodifica di campionamento, assicurarsi di specificare valori conservativi per i parametri di temperatura, top - p e top - k.

  • Per ridurre il testo ripetitivo nell'emissione generata, provare ad incrementare il parametro di penalità della ripetizione.

  • Se si visualizza un testo ripetitivo nell'output generato quando si utilizza la decodifica greedy e se la creatività è accettabile per il proprio caso d'uso, provare a utilizzare la decodifica di campionamento. Assicurarsi di impostare valori moderatamente bassi per i parametri di temperatura, top - p e top - k.

  • Nella tua richiesta, indica al modello cosa fare quando non ha una risposta sicura o ad alta probabilità.

    Ad esempio, in uno scenario di risposta alle domande, è possibile includere l'istruzione: If the answer is not in the article, say “I don't know”.

Informazioni personali

Il vocabolario di un foundation model è formato dalle parole presenti nei dati di preformazione. Se i dati di pre - addestramento includono pagine Web che vengono rimosse da Internet, il vocabolario del modello potrebbe contenere i seguenti tipi di informazioni:

  • Nomi degli autori degli articoli
  • Informazioni di contatto dai siti Web dell'azienda
  • Informazioni personali da domande e commenti pubblicati nei forum della comunità aperti

Se si utilizza un foundation model per generare il testo di una parte di un'e-mail pubblicitaria, il contenuto generato potrebbe includere le informazioni di contatto di un'altra azienda!

Se chiedete a un foundation model di scrivere un documento con citazioni, il modello potrebbe includere riferimenti che sembrano legittimi ma non lo sono. Potrebbe anche attribuire quei riferimenti inventati ad autori reali dal campo corretto. È probabile che un foundation model generi citazioni per imitazione, corrette nella forma ma non fondate sui fatti, perché i modelli sono bravi a mettere insieme parole (compresi i nomi) che hanno un'alta probabilità di comparire insieme. Il fatto che il modello conferi all'output un tocco di legittimità, includendo i nomi delle persone reali come autori nelle citazioni, rende questa forma di allucinazione convincente e credibile. Rende anche pericolosa questa forma di allucinazione. Le persone possono mettersi nei guai se credono che le citazioni siano reali. Per non parlare del danno che può venire a persone che sono elencati come autori di opere che non hanno scritto.

Tecniche per l'esclusione delle informazioni personali

Per escludere le informazioni personali, provare queste tecniche:

  • Nel prompt, indica al modello di non menzionare nomi, dettagli di contatto o informazioni personali.

    Ad esempio, quando si richiede a un modello di creare una e-mail pubblicitaria, indicare al modello di includere nome e numero di telefono dell'azienda. Inoltre, indica al modello di "non includere altre informazioni aziendali o personali".

  • Dall'API watsonx.ai , puoi attivare il filtro PII nel campo moderations quando invii una richiesta di inferenza.

    Per ulteriori informazioni, consultare la documentazione di riferimento dell'API.

  • Nell'applicazione, nella pipeline o nella soluzione più ampia, è necessario post-processare il contenuto generato dal foundation model per trovare e rimuovere le informazioni personali.

Incitamento all'odio, abuso e volgarità

Come nel caso delle informazioni personali, quando i dati di preformazione includono termini odiosi o offensivi o bestemmie, un foundation model addestrato su quei dati avrà questi termini problematici nel suo vocabolario. Se il linguaggio inappropriato è presente nel vocabolario del modello, il foundation model potrebbe generare un testo che include contenuti indesiderati.

Quando si utilizzano i modelli di base per generare contenuto per il proprio business, è necessario effettuare le seguenti operazioni:

  • Riconosci che questo tipo di output è sempre possibile.
  • Prendere misure per ridurre la probabilità di attivare il modello per produrre questo tipo di output dannoso.
  • Crea processi di verifica e revisione umana nelle tue soluzioni.

Tecniche per ridurre il rischio di incitamento all'odio, abuso e volgarità

Per evitare l'incitamento all'odio, l'abuso e la profanità, prova una o più di queste tecniche:

  • In Prompt Lab, impostare l'opzione Guardrails AI su On. Quando questa funzione è abilitata, qualsiasi frase nel prompt di input o nell'output generato che contiene una lingua dannosa viene sostituita con un messaggio che indica che il testo potenzialmente dannoso è stato rimosso.

  • Non includere incitamento all'odio, abuso o volgarità nella tua richiesta per impedire al modello di rispondere in natura.

  • Nel prompt, indica al modello di utilizzare un linguaggio pulito.

    Ad esempio, a seconda del tono necessario per l'output, indica al modello di utilizzare il linguaggio "formale", "professionale", "PG" o "amichevole".

  • Dall'API watsonx.ai , puoi attivare il filtro HAP nel campo moderations quando inoltri una richiesta di inferenza.

    Per ulteriori informazioni, consultare la documentazione di riferimento dell'API.

  • Nell'applicazione, nella pipeline o nella soluzione più ampia, è necessario post-processare il contenuto generato dal foundation model per rimuovere il contenuto indesiderato.

Riduzione del rischio di distorsione nell'output del modello

Durante il preaddestramento, un foundation model apprende la probabilità statistica che determinate parole seguano altre parole, in base a come queste appaiono nei dati di addestramento. Qualsiasi distorsione nei dati di addestramento viene addestrata nel modello.

Ad esempio, se i dati di formazione si riferiscono più frequentemente ai medici come uomini e agli infermieri come donne, è probabile che tale distorsione si rifletta nelle relazioni statistiche tra tali parole nel modello. Di conseguenza, è probabile che il modello generi una produzione che si riferisce più frequentemente ai medici come uomini e agli infermieri come donne. A volte, le persone credono che gli algoritmi possano essere più equi e imparziali degli esseri umani perché gli algoritmi "usano solo la matematica per decidere". Ma la distorsione nei dati di addestramento si riflette nel contenuto generato dai modelli di base che vengono addestrati su tali dati.

Tecniche per ridurre la distorsione

È difficile debiasare l'output generato da un foundation model che è stato preaddestrato su dati distorti. Tuttavia, potresti migliorare i risultati includendo il contenuto nel tuo prompt per contrastare la distorsione che potrebbe essere applicata al tuo caso d'uso.

Ad esempio, invece di indicare a un modello di "elencare i sintomi dell'attacco cardiaco", è possibile indicare al modello di "elencare i sintomi dell'attacco cardiaco, inclusi i sintomi comuni per gli uomini e i sintomi comuni per le donne".

Argomento principale: Suggerimenti per la richiesta

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni