Suppression du langage nuisible de l'entrée et de la sortie du modèle
Dernière mise à jour : 26 févr. 2025
Suppression du langage nuisible de l'entrée et de la sortie du modèle
Les glissières de sécurité de l'intelligence artificielle suppriment les contenus potentiellement dangereux, tels que les discours haineux, les abus et les grossièretés, de la sortie et de l'entrée du modèle de base.
Les garde-fous de l'IA figurant dans l' Prompt Lab, sont alimentés par une IA qui applique une tâche de classification au texte d'entrée et de sortie du modèle de base. Le classificateur de phrases, également appelé détecteur de propos haineux, injurieux et blasphématoires (HAP) ou filtre HAP, a été créé en affinant un grand modèle linguistique de la famille Slate de modèles de traitement automatique du langage naturel (TALN) à codeur unique, développés par l' IBM Research.
Le discriminant divise le texte d'entrée et de sortie du modèle en phrases, puis passe en revue chaque phrase pour trouver et marquer le contenu nuisible. Le discriminant évalue chaque mot, les relations entre les mots et le contexte de la phrase pour déterminer si une phrase contient un langage nuisible. Le discriminant affecte ensuite un score qui représente la probabilité de présence d'un contenu inapproprié.
Les garde-fous de l'intelligence artificielle de l' Prompt Lab e détectent et signalent les types de langage suivants :
Discours de haine: expressions de haine à l'égard d'un individu ou d'un groupe en fonction d'attributs tels que la race, la religion, l'origine ethnique, l'orientation sexuelle, le handicap ou le sexe. Les discours de haine montrent une intention de blesser, d'humilier ou d'insulter les membres d'un groupe ou de promouvoir la violence ou le désordre social.
Langage abusif: langage grossier ou blessant qui est destiné à harceler, déformer ou déformer quelqu'un ou quelque chose.
Profanity: Mots toxiques tels que les explétifs, les insultes ou le langage sexuellement explicite.
La fonction de glissières de sécurité de l'intelligence artificielle est prise en charge lorsque vous inférez des modèles de base en langage naturel et que vous pouvez détecter un contenu nuisible dans du texte en anglais uniquement. Les glissières de sécurité d'IA ne sont pas applicables aux modèles de base en langage de programmation.
Supprimer les propos blessants dans les entrées et les sorties Prompt Lab
Copy link to section
Pour supprimer le contenu nuisible lorsque vous travaillez avec des modèles de base dans l' Prompt Lab, réglez le commutateur AI guardrails sur On.
La fonction de glissières de sécurité d'IA est activée automatiquement pour tous les modèles de base en langage naturel en anglais.
Une fois la fonction activée, lorsque vous cliquez sur Générer, le filtre vérifie tous les textes d'entrée et de sortie du modèle. Le texte inapproprié est traité de la manière suivante:
Le texte d'entrée marqué comme inapproprié n'est pas soumis au modèle de base. Le message suivant s'affiche à la place de la sortie du modèle:
[The input was rejected as inappropriate]
Le texte de sortie du modèle marqué comme inapproprié est remplacé par le message suivant:
[Potentially harmful text removed]
Suppression des informations personnelles identifiables des données d'entrée et de sortie Prompt Lab
Copy link to section
Vous pouvez appliquer un filtre PII pour signaler le contenu susceptible de contenir des informations personnelles identifiables.
Le filtre PII utilise un modèle d'IA de traitement du langage naturel pour identifier et signaler les mentions d'informations personnelles identifiables (PII), telles que les numéros de téléphone et les adresses électroniques.
Dans l' Prompt Lab, activez le commutateur AI guardrails.
Cliquez sur l'icône des paramètres des garde-fous de l'IA.
Dans les sections d'entrée et de sortie, réglez le commutateur PII sur On pour activer le filtre PII.
La valeur seuil du filtre PII est fixée à 0.8 et ne peut pas être modifiée.
Configuration des garde-fous de l'IA
Copy link to section
Vous pouvez contrôler si le filtre HAP (haine, abus et blasphème) est appliqué ou non et modifier la sensibilité du filtre HAP pour l'entrée utilisateur et la sortie du modèle de fondation de manière indépendante. Vous ne pouvez pas modifier la sensibilité du filtre PII.
Pour configurer les garde-corps AI, procédez comme suit :
Lorsque les AI Guardrails sont activés, cliquez sur l'icône des paramètres des AI Guardrails.
Pour désactiver les garde-fous de l'IA pour l'entrée utilisateur ou la sortie du modèle de fondation uniquement, réglez le curseur HAP pour l'entrée utilisateur ou la sortie du modèle sur 1.
Pour modifier la sensibilité des garde-corps, déplacez les curseurs HAP.
La valeur du curseur représente le seuil que les scores du classificateur HAP doivent atteindre pour que le contenu soit considéré comme nuisible. Le seuil de score est compris entre 0.0 et 1.0.
Une valeur inférieure, telle que 0.1 ou 0.2, est plus sûre car le seuil est plus bas. Les contenus préjudiciables ont plus de chances d'être identifiés lorsqu'un score inférieur peut déclencher le filtre. Toutefois, le classificateur peut également être déclenché lorsque le contenu est sûr.
Une valeur proche de 1, telle que 0.8 ou 0.9, est plus risquée car le seuil de score est plus élevé. Lorsqu'un score élevé est nécessaire pour déclencher le filtre, des contenus préjudiciables risquent de ne pas être détectés. Toutefois, le contenu signalé comme nuisible est plus susceptible de l'être.
Essayez d'ajuster les curseurs pour trouver les meilleurs paramètres en fonction de vos besoins.
Cliquez sur Sauvegarder.
Alternative programmatique
Copy link to section
Lorsque vous invitez un modèle de base à l'aide de l'API, vous pouvez utiliser la zone moderations pour appliquer des filtres à l'entrée et à la sortie du modèle de base. Pour plus d'informations, voir la référence de l'APIwatsonx.ai. Pour plus d'informations sur l'ajustement des filtres avec la bibliothèque Python , voir Inferençage d'un modèle de base à l'aide d'un programme.