0 / 0
Retourner à la version anglaise de la documentation
Suppression du langage nuisible de l'entrée et de la sortie du modèle
Dernière mise à jour : 04 oct. 2024
Suppression du langage nuisible de l'entrée et de la sortie du modèle

Les glissières de sécurité de l'intelligence artificielle suppriment les contenus potentiellement dangereux, tels que les discours haineux, les abus et les grossièretés, de la sortie et de l'entrée du modèle de base.

La fonction Glissières de sécurité de l'intelligence artificielle du laboratoire d'invite est basée sur l'intelligence artificielle qui applique une tâche de classification au texte d'entrée et de sortie du modèle de base. Le discriminant de phrase, également appelé détecteur de haine, d'abus et de grossièretés (HAP) ou filtre HAP, a été créé en affinant un modèle de langage de grande taille à partir de la famille Slate de modèles NLP uniquement conçus par IBM Research.

Le discriminant divise le texte d'entrée et de sortie du modèle en phrases, puis passe en revue chaque phrase pour trouver et marquer le contenu nuisible. Le discriminant évalue chaque mot, les relations entre les mots et le contexte de la phrase pour déterminer si une phrase contient un langage nuisible. Le discriminant affecte ensuite un score qui représente la probabilité de présence d'un contenu inapproprié.

Les glissières de sécurité de l'IA dans le laboratoire d'invite détectent et indicateurs les types de langage suivants:

  • Discours de haine: expressions de haine à l'égard d'un individu ou d'un groupe en fonction d'attributs tels que la race, la religion, l'origine ethnique, l'orientation sexuelle, le handicap ou le sexe. Les discours de haine montrent une intention de blesser, d'humilier ou d'insulter les membres d'un groupe ou de promouvoir la violence ou le désordre social.

  • Langage abusif: langage grossier ou blessant qui est destiné à harceler, déformer ou déformer quelqu'un ou quelque chose.

  • Profanity: Mots toxiques tels que les explétifs, les insultes ou le langage sexuellement explicite.

La fonction de glissières de sécurité de l'intelligence artificielle est prise en charge lorsque vous inférez des modèles de base en langage naturel et que vous pouvez détecter un contenu nuisible dans du texte en anglais uniquement. Les glissières de sécurité d'IA ne sont pas applicables aux modèles de base en langage de programmation.

Suppression du langage nuisible des entrées et sorties dans Prompt Lab

Pour supprimer le contenu nuisible lorsque vous utilisez des modèles de base dans Prompt Lab, définissez le commutateur AI guardrails sur On.

La fonction de glissières de sécurité d'IA est activée automatiquement pour tous les modèles de base en langage naturel en anglais.

Une fois la fonction activée, lorsque vous cliquez sur Générer, le filtre vérifie tous les textes d'entrée et de sortie du modèle. Le texte inapproprié est traité de la manière suivante:

  • Le texte d'entrée marqué comme inapproprié n'est pas soumis au modèle de base. Le message suivant s'affiche à la place de la sortie du modèle:

    [The input was rejected as inappropriate]

  • Le texte de sortie du modèle marqué comme inapproprié est remplacé par le message suivant:

    [Potentially harmful text removed]

Configuration des garde-fous de l'IA

Vous pouvez contrôler si le filtre HAP (haine, abus et blasphème) est appliqué ou non et modifier la sensibilité du filtre HAP pour l'entrée utilisateur et la sortie du modèle de fondation de manière indépendante.

Pour configurer les garde-corps AI, procédez comme suit :

  1. Lorsque l'option AI Guardrails est activée, cliquez sur l'icône AI guardrails settings Icône de réglage des glissières de sécurité de l'IA.

  2. Pour désactiver les garde-fous de l'IA pour l'entrée utilisateur ou la sortie du modèle de fondation uniquement, réglez le curseur HAP pour l'entrée utilisateur ou la sortie du modèle sur 1.

  3. Pour modifier la sensibilité des garde-corps, déplacez les curseurs HAP.

    La valeur du curseur représente le seuil que les scores du classificateur HAP doivent atteindre pour que le contenu soit considéré comme nuisible. Le seuil de score est compris entre 0.0 et 1.0.

    Une valeur inférieure, telle que 0.1 ou 0.2, est plus sûre car le seuil est plus bas. Les contenus préjudiciables ont plus de chances d'être identifiés lorsqu'un score inférieur peut déclencher le filtre. Toutefois, le classificateur peut également être déclenché lorsque le contenu est sûr.

    Une valeur proche de 1, telle que 0.8 ou 0.9, est plus risquée car le seuil de score est plus élevé. Lorsqu'un score élevé est nécessaire pour déclencher le filtre, des contenus préjudiciables risquent de ne pas être détectés. Toutefois, le contenu signalé comme nuisible est plus susceptible de l'être.

    Essayez d'ajuster les curseurs pour trouver les meilleurs paramètres en fonction de vos besoins.

  4. Cliquez sur Sauvegarder.

Alternative programmatique

Lorsque vous invitez un modèle de base à l'aide de l'API, vous pouvez utiliser la zone moderations pour appliquer des filtres à l'entrée et à la sortie du modèle de base. Pour plus d'informations, voir la référence de l'APIwatsonx.ai. Pour plus d'informations sur l'ajustement des filtres avec la bibliothèque Python , voir Inferençage d'un modèle de base à l'aide d'un programme.

Lorsque vous soumettez des demandes d'inférence à partir de l'API, vous pouvez également appliquer un filtre PII pour signaler le contenu susceptible de contenir des informations d'identification personnelle. Le filtre PII est désactivé pour les demandes d'inférence soumises à partir de Prompt Lab.

Le filtre PII utilise un modèle d'IA de traitement du langage naturel pour identifier et signaler les mentions d'informations personnelles identifiables (PII), telles que les numéros de téléphone et les adresses électroniques. Pour obtenir la liste complète des types d'entités marquées, voir Extraction basée sur des règles pour les entités générales. La valeur du seuil de filtrage est 0.8 et ne peut être modifiée.

En savoir plus

Rubrique parent: Prompt Lab

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus