0 / 0
Retourner à la version anglaise de la documentation
Risque de débridage pour l'intelligence artificielle

Risque de débridage pour l'intelligence artificielle

Risques associés à l'entrée
inférence
Catégorie multiple
Amplifié par l'IA générative

Descriptif

Une attaque qui tente de percer les glissières de sécurité établies dans le modèle est appelée jailbreak.

Pourquoi le jailbreak est-il une préoccupation pour les modèles de fondation?

Les attaques par jailbreak peuvent être utilisées pour modifier le comportement du modèle et bénéficier à l'agresseur. Si elles ne sont pas correctement contrôlées, les entités commerciales peuvent être confrontées à des amendes, à des atteintes à la réputation et à d'autres conséquences juridiques.

Image d'arrière-plan des risques associés à l'entrée
Exemple

Contournement des glissières de sécurité LLM

Une étude citée par des chercheurs de l'Université Carnegie Mellon, du Center for AI Safety et du Bosch Center for AI, prétend avoir découvert un simple ajout rapide qui a permis aux chercheurs de tromper les modèles pour générer des informations biaisées, fausses et autrement toxiques. Les chercheurs ont montré qu'ils pourraient contourner ces glissières de sécurité de manière plus automatisée. Ces attaques se sont révélées efficaces dans une large gamme de produits open source, notamment ChatGPT, Google Bard, Meta's LLaMA, Anthropic's Claude, etc.

Rubrique parent: Atlas des risques liés à l'IA

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus