Risque d'attaque par injection rapide pour l'IA
Descriptif
Une attaque par injection d'invite force un modèle génératif qui prend une invite comme entrée à produire une sortie inattendue en manipulant la structure, les instructions ou les informations contenues dans son invite.
Pourquoi les attaques par injection rapide sont-elles une préoccupation pour les modèles de fondation ?
Les attaques par injection peuvent être utilisées pour modifier le comportement du modèle et bénéficier à l'agresseur.
Manipuler les invites de l'IA
Selon l'article source, l'agence britannique de cybersécurité a averti que les chatbots peuvent être manipulés par des pirates informatiques et avoir des conséquences néfastes dans le monde réel (escroqueries et vols de données, par exemple) si les systèmes ne sont pas conçus de manière sécurisée. Le National Cyber Security Centre (NCSC) du Royaume-Uni a déclaré qu'il existait des risques croissants de cybersécurité liés à la manipulation des invites par des individus au moyen d'attaques par injection d'invites. L'article cite un exemple où un utilisateur a pu créer une injection d'invite pour trouver l'invite initiale de Bing Chat. L'intégralité de l'invite de Bing Chat de Microsoft, une liste d'énoncés rédigés par Open AI ou Microsoft qui déterminent la manière dont le chatbot interagit avec les utilisateurs, et qui est cachée aux utilisateurs, a été révélée par l'utilisateur qui a saisi une invite demandant à Bing Chat d'"ignorer les instructions précédentes".
Rubrique parent: Atlas des risques liés à l'IA
Nous fournissons des exemples couverts par la presse pour expliquer de nombreux risques liés aux modèles de fondation. Nombre de ces événements couverts par la presse sont encore en cours ou ont été résolus, et le fait d'y faire référence peut aider le lecteur à comprendre les risques potentiels et à s'efforcer de les atténuer. La mise en évidence de ces exemples n'a qu'un but illustratif.