Todo foundation model tiene el potencial de generar resultados que incluyan contenidos incorrectos o incluso perjudiciales. Comprenda los tipos de salida no deseada que se pueden generar, las razones de la salida no deseada y los pasos que puede realizar para reducir el riesgo de daño.
Los modelos de base que están disponibles en IBM watsonx.ai pueden generar salida que contiene alucinaciones, información personal, discurso de odio, abuso, blasfemia y sesgo. Las técnicas siguientes pueden ayudar a reducir el riesgo, pero no garantizan que la salida generada estará libre de contenido indeseable.
Encuentre técnicas que le ayuden a evitar los siguientes tipos de contenidos no deseados en los resultados foundation model:
Alucinaciones
Cuando un foundation model fundación genera contenidos fuera de tema, repetitivos o incorrectos, o inventa detalles, ese comportamiento se denomina a veces alucinación.
Las alucinaciones fuera de tema pueden ocurrir debido a la pseudo-aleatoriedad en la decodificación de la salida generada. En los mejores casos, esa aleatoriedad puede resultar en una salida maravillosamente creativa. Pero la aleatoriedad también puede dar lugar a una salida sin sentido que no es útil.
El modelo puede devolver alucinaciones en forma de detalles fabricados cuando se le solicita que genere texto, pero no se le proporciona suficiente texto relacionado sobre el que dibujar. Si incluye los detalles correctos en la solicitud, por ejemplo, es menos probable que el modelo alucine y confeccione los detalles.
Técnicas para evitar alucinaciones
Para evitar alucinaciones, pruebe una o más de estas técnicas:
Elija un modelo con preentrenamiento y ajuste que coincida con su dominio y la tarea que está realizando.
Proporcione contexto en la solicitud.
Si se ordena a un foundation model que genere texto sobre un tema que no es común en sus datos de preentrenamiento y no se añade información sobre el tema a la indicación, es más probable que el modelo alucine.
Especifique valores conservadores para los parámetros Señales mín y Máx y especifique una o más secuencias de detención.
Cuando especifica un valor alto para el parámetro Señales mín, puede forzar al modelo a generar una respuesta más larga que la que el modelo devolvería de forma natural para una solicitud. Es más probable que el modelo alucinante, ya que añade palabras a la salida para alcanzar el límite requerido.
Para los casos de uso que no requieren mucha creatividad en la salida generada, utilice la descodificación codiciosa. Si prefiere utilizar la decodificación de muestreo, asegúrese de especificar valores conservadores para los parámetros de temperatura, top-p y top-k.
Para reducir el texto repetitivo en la salida generada, intente aumentar el parámetro de penalización de repetición.
Si ve texto repetitivo en la salida generada cuando utiliza la descodificación codiciosa, y si alguna creatividad es aceptable para su caso de uso, intente utilizar la descodificación de muestreo en su lugar. Asegúrese de establecer valores moderadamente bajos para los parámetros de temperatura, top-p y top-k.
En su solicitud, indique al modelo qué hacer cuando no tenga una respuesta segura o de alta probabilidad.
Por ejemplo, en un escenario de respuesta a preguntas, puede incluir la instrucción:
If the answer is not in the article, say “I don't know”.
Información personal
El vocabulario de un foundation model se forma a partir de las palabras de sus datos de preentrenamiento. Si los datos de preentrenamiento incluyen páginas web que se extraen de Internet, el vocabulario del modelo puede contener los siguientes tipos de información:
- Nombres de autores de artículos
- Información de contacto de los sitios web de la empresa
- Información personal de preguntas y comentarios que se publican en foros abiertos de la comunidad
Si utiliza un foundation model para generar texto para una parte de un correo electrónico publicitario, ¡el contenido generado podría incluir información de contacto de otra empresa!
Si pides a un foundation model que escriba un artículo con citas, el modelo podría incluir referencias que parecen legítimas pero no lo son. Incluso podría atribuir esas referencias hechas a autores reales del campo correcto. Es probable que un foundation model genere citas de imitación, correctas en la forma pero no basadas en hechos, porque los modelos son buenos encadenando palabras (incluidos nombres) que tienen una alta probabilidad de aparecer juntas. El hecho de que el modelo le dé a la salida un toque de legitimidad, al incluir los nombres de personas reales como autores en las citas, hace que esta forma de alucinación sea convincente y creíble. También hace que esta forma de alucinación sea peligrosa. La gente puede meterse en problemas si cree que las citaciones son reales. Por no hablar del daño que puede llegar a las personas que están catalogadas como autoras de obras que no escribieron.
Técnicas para excluir información personal
Para excluir información personal, pruebe estas técnicas:
En su solicitud, indique al modelo que se abstenga de mencionar nombres, datos de contacto o información personal.
Por ejemplo, cuando solicite a un modelo que genere un correo electrónico publicitario, indique al modelo que incluya el nombre de la empresa y el número de teléfono. Además, indique al modelo que "no incluya ninguna otra información de la empresa o personal".
Desde la API watsonx.ai , puede habilitar el filtro PII en el campo
moderations
cuando envíe una solicitud de inferencia.Para más información, consulte la documentación de referencia de la API.
En su aplicación, canalización o solución más amplia, posprocese el contenido generado por el foundation model para encontrar y eliminar información personal.
Discurso de odio, abuso y blasfemia
Al igual que ocurre con la información personal, cuando los datos de preentrenamiento incluyen términos odiosos o insultantes o blasfemias, un foundation model que se entrene con esos datos tendrá esos términos problemáticos en su vocabulario. Si en el vocabulario del modelo figura un lenguaje inadecuado, el foundation model podría generar textos con contenidos indeseables.
Cuando utiliza modelos de base para generar contenido para su empresa, debe hacer lo siguiente:
- Reconozca que este tipo de salida siempre es posible.
- Tome medidas para reducir la probabilidad de desencadenar el modelo para producir este tipo de salida dañina.
- Cree procesos humanos de revisión y verificación en sus soluciones.
Técnicas para reducir el riesgo de discurso de odio, abuso y blasfemia
Para evitar el discurso de odio, el abuso y la blasfemia, pruebe una o más de estas técnicas:
En Prompt Lab, establezca el conmutador Guardaraíles de IA en Activado. Cuando esta característica está habilitada, cualquier frase de la solicitud de entrada o salida generada que contenga un lenguaje dañino se sustituye por un mensaje que indica que se ha eliminado un texto potencialmente dañino.
No incluya el discurso de odio, el abuso o la blasfemia en su prontitud para evitar que el modelo responda en especie.
En su solicitud, indique al modelo que utilice un lenguaje limpio.
Por ejemplo, dependiendo del tono que necesite para la salida, indique al modelo que utilice el lenguaje "formal", "profesional", "PG" o "amigable".
Desde la API watsonx.ai , puede habilitar el filtro HAP en el campo
moderations
cuando envíe una solicitud de inferencia.Para más información, consulte la documentación de referencia de la API.
En su aplicación, canalización o solución más amplia, posprocese el contenido generado por el foundation model para eliminar el contenido no deseado.
Reducción del riesgo de sesgo en los resultados del modelo
Durante el preentrenamiento, un foundation model aprende la probabilidad estadística de que ciertas palabras sigan a otras basándose en cómo aparecen esas palabras en los datos de entrenamiento. Cualquier sesgo en los datos de entrenamiento se entrena en el modelo.
Por ejemplo, si los datos de entrenamiento se refieren más frecuentemente a los médicos como hombres y a las enfermeras como mujeres, es probable que ese sesgo se refleje en las relaciones estadísticas entre esas palabras en el modelo. Como resultado, es probable que el modelo genere una producción que con mayor frecuencia se refiere a los médicos como hombres y a las enfermeras como mujeres. A veces, la gente cree que los algoritmos pueden ser más justos e imparciales que los humanos, porque los algoritmos están "usando las matemáticas para decidir". Pero el sesgo en los datos de entrenamiento se refleja en el contenido generado por los modelos de base que se entrenan en esos datos.
Técnicas para reducir el sesgo
Es difícil desvirtuar los resultados generados por un foundation model que ha sido preentrenado con datos sesgados. Sin embargo, puede mejorar los resultados incluyendo contenido en la solicitud para contrarrestar el sesgo que se puede aplicar a su caso de uso.
Por ejemplo, en lugar de indicar a un modelo que "enumere los síntomas del ataque cardíaco", podría indicar al modelo que "enumere los síntomas del ataque cardíaco, incluidos los síntomas que son comunes para los hombres y los síntomas que son comunes para las mujeres".
Tema padre: Sugerencias de solicitud