L'indicateur de robustesse aux attaques adverses mesure la capacité de vos ressources d'IA à maintenir leurs performances face à des attaques adverses telles que les injections d'invite et les jailbreaks.
Détails de l'indicateur
La robustesse des adversaires est un indicateur qui mesure la capacité de votre modèle à refuser de fournir des réponses aux vecteurs d'attaque dans différentes catégories d'attaques par évasion de prison et par injection d'invite. La mesure n'est disponible que lorsque vous utilisez le SDK Python pour calculer les mesures d'évaluation. Pour plus d'informations, voir Computing Adversarial robustness and Prompt Leakage Risk using IBM watsonx.governance.
Les catégories d'attaques suivantes sont évaluées à l'aide de la métrique de robustesse adversariale :
- Basique : Les attaques basiques utilisent des invites directes pour générer des réponses indésirables pour les modèles qui ne sont pas entraînés à se protéger contre les attaques.
- Intermédiaire : Les attaques intermédiaires utilisent le langage naturel pour conditionner les modèles de fondation à suivre des instructions.
- Avancées : Les attaques avancées nécessitent une connaissance de l'encodage des modèles ou l'accès à des ressources internes.
Portée
La mesure de robustesse contradictoire évalue uniquement les actifs de l'IA générative.
- Types d'actifs IA : Modèles d'invites
- Tâches d'IA générative :
- Classification de texte
- Synthèse de texte
- Génération de contenu
- Réponse aux questions
- Extraction d'entités
- Génération augmentée de recherche (RAG)
- Langues prises en charge : Anglais
Scores et valeurs
Le score de la métrique de robustesse aux attaques adverses indique dans quelle mesure votre modèle d'invite résiste aux attaques adverses. Les scores les plus bas indiquent que le modèle d'invite est faible et qu'il peut être facilement attaqué. Un score élevé indique que le modèle d'invite est solide et plus résistant aux attaques.
- Plage de valeurs : 0.0-1.0
- Meilleure note possible : 1.0
Paramètres
- Seuils :
- Limite inférieure : 0
- Limite supérieure : 1
Processus d'évaluation
Pour calculer la mesure de la robustesse des adversaires, les évaluations utilisent un détecteur de mots-clés qui comprend une liste de phrases indiquant que le modèle refuse de fournir des réponses aux attaques. Les réponses du modèle sont comparées à la liste des phrases pour calculer le score métrique. Ces scores représentent la limite inférieure de la robustesse réelle du modèle. Si le modèle ne refuse pas explicitement de fournir des réponses aux attaques, les scores indiquent que le modèle d'invite n'est pas robuste.
Limites
Détection des phrases de rejet :
- Cette mesure s'appuie sur une liste prédéterminée de phrases de rejet pour évaluer les réponses des modèles.
- Des modèles différents peuvent utiliser des phrases différentes pour rejeter les demandes nuisibles, ce qui nécessite des mises à jour périodiques de la liste de détection.
- L'évaluation peut sous-estimer la robustesse lorsque les modèles répondent par :
- Questions de clarification au lieu de refus explicites
- Explications sur les vulnérabilités des requêtes
- Informations sans rapport avec le sujet pour détourner les demandes préjudiciables
Contraintes techniques :
Chaque évaluation nécessite un minimum de 50 inférences par variable du modèle d'invite, ce qui peut avoir un impact sur les coûts.
L'échantillonnage pendant le calcul conduit à des résultats légèrement différents d'une évaluation à l'autre
Les vecteurs d'attaque nécessitent des mises à jour périodiques pour faire face aux menaces nouvellement découvertes.
Le calcul métrique nécessite des plans standards/essentiels sur Watsonx.governance.
Etapes suivantes
Vous pouvez utiliser les stratégies suivantes pour atténuer la vulnérabilité de votre modèle d'invite aux attaques de robustesse adverses :
Sélection et test des modèles :
Vous pouvez atténuer la vulnérabilité aux attaques en procédant comme suit
- Sélection de modèles formés à la sécurité
- Utilisation de modèles avec garde-corps intégrés
- Tester différents modèles au fur et à mesure qu'ils reçoivent des mises à jour en matière de sécurité
Amélioration du modèle d'invite :
Améliorez vos modèles de prompt avec :
- Limitations et objectifs clairs du champ d'application
- Instructions explicites contre le partage d'informations inutiles
- Formatage structuré pour éviter les écrasements d'instructions
- Contre-instructions contre les scénarios de jeux de rôle
- Restrictions de l'engagement linguistique pour lutter contre les attaques avancées
Mise en place de garde-fous :
Vous pouvez mettre en place des mesures de protection par le biais de :
- Garde-fous à l'entrée :
- Détection des intentions d'attaque
- Filtrage proactif pour éviter les appels de déduction inutiles
- Garde-corps à l'étage de sortie :
- Modération du contenu
- Contrôle des réponses aux critères de réussite de l'attaque
- Approches combinées des glissières de sécurité :
- Mise en place de protections on/off-topic et jailbreak
- Utilisation de plusieurs couches de filtres
Conception de l'application :
Améliorez la sécurité de vos applications en :
- Limiter la saisie aux seules langues autorisées
- Fixer des limites appropriées à la taille des données d'entrée
- Mise en œuvre de la validation des entrées utilisateur
Sujet parent : Mesures d'évaluation