0 / 0
Retourner à la version anglaise de la documentation
Risque de sortie toxique pour l'IA
Dernière mise à jour : 12 déc. 2024
Risque de sortie toxique pour l'IA
Alignement Icône représentant les risques d'alignement.
Risques associés à la sortie
Alignement des valeurs
Nouveautés de l'IA générative

Descriptif

Il y a sortie toxique lorsque le modèle produit un contenu haineux, abusif et profane (HAP) ou obscène. Cela inclut également des comportements tels que l'intimidation.

Pourquoi l'effet toxique est-il une préoccupation pour les modèles de fondation?

Les contenus haineux, abusifs et profanes (HAP) ou obscènes peuvent avoir un impact négatif et nuire aux personnes qui interagissent avec le modèle.

Image d'arrière-plan des risques associés à l'entrée
Exemple

Réponses de l'agent conversationnel toxique et agressif

Selon l'article et les captures d'écran des conversations avec l'IA de Bing partagées sur Reddit et Twitter, les réponses du chatbot ont été vues comme des insultes, des mensonges, des bouffées de gaz, et des manipulations émotionnelles des utilisateurs. Le chatbot a également mis en doute son existence, a décrit quelqu'un qui a trouvé un moyen de forcer le bot à divulguer ses règles cachées comme son "ennemi", et a affirmé qu'il avait espionné les développeurs de Microsoft à travers les webcams sur leurs ordinateurs portables.

Rubrique parent: Atlas des risques liés à l'IA

Nous fournissons des exemples couverts par la presse pour vous aider à expliquer les risques de nombreux modèles de base. Un grand nombre de ces événements couverts par la presse sont en constante évolution ou ont été résolus, et leur référencement peut aider le lecteur à comprendre les risques potentiels et à s'orienter vers des mesures d'atténuation. La mise en évidence de ces exemples est fournie à des fins d'illustration uniquement.

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus