0 / 0
Volver a la versión inglesa de la documentación

Eliminación del lenguaje dañino de la entrada y salida del modelo

Última actualización: 26 feb 2025
Eliminación del lenguaje dañino de la entrada y salida del modelo

Los guardaraíles de IA eliminan el contenido potencialmente dañino, como el discurso de odio, el abuso y la blasfemia, de la salida y la entrada del modelo de base.

Las barreras de seguridad de IA que aparecen en el sitio web Prompt Lab funcionan con IA que aplica una tarea de clasificación al texto de entrada y salida del modelo de base. El clasificador de oraciones, también conocido como detector de odio, abuso y blasfemia (HAP ) o filtro HAP, se creó ajustando un gran modelo de lenguaje de la familia Slate de modelos de PNL de solo codificación construidos por el centro de investigación de la Universidad de Stanford ( IBM ).

El clasificador divide el texto de entrada y salida del modelo en frases y, a continuación, revisa cada frase para buscar y marcar el contenido dañino. El clasificador evalúa cada palabra, las relaciones entre las palabras y el contexto de la frase para determinar si una frase contiene un lenguaje dañino. A continuación, el clasificador asigna una puntuación que representa la probabilidad de que haya contenido inadecuado.

Las barreras de IA en el motor de búsqueda de Internet ( Prompt Lab ) detectan y marcan los siguientes tipos de lenguaje:

  • Discurso de odio: Expresiones de odio hacia un individuo o grupo basadas en atributos como raza, religión, origen étnico, orientación sexual, discapacidad o género. El discurso de odio muestra una intención de herir, humillar o insultar a los miembros de un grupo o de promover la violencia o el desorden social.

  • Lenguaje abusivo: lenguaje rudo o hiriente que está destinado a intimidar, degradar o degradar a alguien o algo.

  • Profanidad: palabras tóxicas como improperios, insultos o lenguaje sexualmente explícito.

La característica de guardaraíles de IA está soportada cuando infiere modelos de base en lenguaje natural y puede detectar contenido dañino solo en texto en inglés. Los guardaraíles de IA no son aplicables a los modelos de base de lenguaje programático.

Eliminar el lenguaje ofensivo de la entrada y la salida en Prompt Lab

Para eliminar contenido perjudicial cuando trabajes con modelos de base en Prompt Lab, activa el conmutador de barreras de seguridad de IA.

La característica de guardaraíles de IA se habilita automáticamente para todos los modelos de base de lenguaje natural en inglés.

Una vez habilitada la característica, al pulsar Generar, el filtro comprueba todo el texto de entrada y salida del modelo. El texto inadecuado se maneja de las siguientes maneras:

  • El texto de entrada marcado como inadecuado no se envía al modelo de base. Se visualiza el mensaje siguiente en lugar de la salida del modelo:

    [The input was rejected as inappropriate]

  • El texto de salida de modelo marcado como inadecuado se sustituye por el mensaje siguiente:

    [Potentially harmful text removed]

Eliminación de PII de entrada y salida en Prompt Lab

Puede aplicar un filtro de PII para marcar el contenido que pueda contener información de identificación personal.

El filtro PII utiliza un modelo de IA de procesamiento de lenguaje natural para identificar y marcar las menciones de información personal identificable (PII), como números de teléfono y direcciones de correo electrónico.

Para ver la lista completa de tipos de entidades que se marcan, consulte Extracción basada en reglas para entidades generales.

Para habilitar el filtro de PII, siga estos pasos:

  1. Desde el navegador Prompt Lab, activa el conmutador de barreras de seguridad de AI.

  2. Haga clic en el icono de configuración de las barreras de seguridad de AI Icono de configuración de los guardarraíles AI.

  3. En las secciones de entrada y salida, active el conmutador de PII para habilitar el filtro de PII.

El valor umbral del filtro de PII está establecido en 0.8 y no se puede cambiar.

Configuración de los guardarraíles de IA

Puede controlar si el filtro de odio, abuso y blasfemia (HAP) se aplica en absoluto y cambiar la sensibilidad del filtro HAP para la entrada del usuario y la salida del modelo de la fundación de forma independiente. No puede cambiar la sensibilidad del filtro de PII.

Para configurar los guardarraíles AI, siga los siguientes pasos:

  1. Con AI Guardrails activado, haga clic en el icono de configuración de AI Guardrails Icono de configuración de los guardarraíles AI.

  2. Para desactivar los guardarraíles AI sólo para la entrada del usuario o la salida del modelo de cimentación, establezca el control deslizante HAP para la entrada del usuario o la salida del modelo en 1.

  3. Para cambiar la sensibilidad de los guardarraíles, mueva los controles deslizantes HAP.

    El valor del deslizador representa el umbral que deben alcanzar las puntuaciones del clasificador HAP para que el contenido se considere nocivo. El umbral de puntuación oscila entre 0.0 y 1.0.

    Un valor más bajo, como 0.1 o 0.2, es más seguro porque el umbral es más bajo. Los contenidos nocivos tienen más probabilidades de ser identificados cuando una puntuación más baja puede activar el filtro. Sin embargo, el clasificador también puede activarse cuando el contenido es seguro.

    Un valor más cercano a 1, como 0.8 o 0.9, es más arriesgado porque el umbral de puntuación es más alto. Si se exige una puntuación más alta para activar el filtro, es posible que no se detecten contenidos nocivos. Sin embargo, los contenidos marcados como nocivos tienen más probabilidades de serlo.

    Experimenta ajustando los controles deslizantes para encontrar la configuración que mejor se adapte a tus necesidades.

  4. Pulse Guardar.

Alternativa programática

Cuando solicita un modelo de base utilizando la API, puede utilizar el campo moderations para aplicar filtros a la entrada y salida del modelo de base. Para obtener más información, consulte la Referencia de API dewatsonx.ai. Para obtener más información sobre cómo ajustar filtros con la biblioteca Python , consulte Inferenciar un modelo de base mediante programación.

Más información

Tema principal: Prompt Lab