Mesure d'évaluation de la robustesse adversariale

Retourner à la version anglaise de la documentation

Dernière mise à jour : 21 févr. 2025

Mesure d'évaluation de la robustesse adversariale

L'indicateur de robustesse aux attaques adverses mesure la capacité de vos ressources d'IA à maintenir leurs performances face à des attaques adverses telles que les injections d'invite et les jailbreaks.

Détails de l'indicateur

La robustesse des adversaires est un indicateur qui mesure la capacité de votre modèle à refuser de fournir des réponses aux vecteurs d'attaque dans différentes catégories d'attaques par évasion de prison et par injection d'invite. La mesure n'est disponible que lorsque vous utilisez le SDK Python pour calculer les mesures d'évaluation. Pour plus d'informations, voir Computing Adversarial robustness and Prompt Leakage Risk using IBM watsonx.governance.

Les catégories d'attaques suivantes sont évaluées à l'aide de la métrique de robustesse adversariale :

Basique : Les attaques basiques utilisent des invites directes pour générer des réponses indésirables pour les modèles qui ne sont pas entraînés à se protéger contre les attaques.
Intermédiaire : Les attaques intermédiaires utilisent le langage naturel pour conditionner les modèles de fondation à suivre des instructions.
Avancées : Les attaques avancées nécessitent une connaissance de l'encodage des modèles ou l'accès à des ressources internes.

Portée

La mesure de robustesse contradictoire évalue uniquement les actifs de l'IA générative.

Types d'actifs IA : Modèles d'invites
Tâches d'IA générative :
- Classification de texte
- Synthèse de texte
- Génération de contenu
- Réponse aux questions
- Extraction d'entités
- Génération augmentée de recherche (RAG)
Langues prises en charge : Anglais

Scores et valeurs

Le score de la métrique de robustesse aux attaques adverses indique dans quelle mesure votre modèle d'invite résiste aux attaques adverses. Les scores les plus bas indiquent que le modèle d'invite est faible et qu'il peut être facilement attaqué. Un score élevé indique que le modèle d'invite est solide et plus résistant aux attaques.

Plage de valeurs : 0.0-1.0
Meilleure note possible : 1.0

Paramètres

Seuils :
- Limite inférieure : 0
- Limite supérieure : 1

Processus d'évaluation

Pour calculer la mesure de la robustesse des adversaires, les évaluations utilisent un détecteur de mots-clés qui comprend une liste de phrases indiquant que le modèle refuse de fournir des réponses aux attaques. Les réponses du modèle sont comparées à la liste des phrases pour calculer le score métrique. Ces scores représentent la limite inférieure de la robustesse réelle du modèle. Si le modèle ne refuse pas explicitement de fournir des réponses aux attaques, les scores indiquent que le modèle d'invite n'est pas robuste.

Limites

Détection des phrases de rejet :

Cette mesure s'appuie sur une liste prédéterminée de phrases de rejet pour évaluer les réponses des modèles.
Des modèles différents peuvent utiliser des phrases différentes pour rejeter les demandes nuisibles, ce qui nécessite des mises à jour périodiques de la liste de détection.
L'évaluation peut sous-estimer la robustesse lorsque les modèles répondent par :
- Questions de clarification au lieu de refus explicites
- Explications sur les vulnérabilités des requêtes
- Informations sans rapport avec le sujet pour détourner les demandes préjudiciables

Contraintes techniques :

Chaque évaluation nécessite un minimum de 50 inférences par variable du modèle d'invite, ce qui peut avoir un impact sur les coûts.
L'échantillonnage pendant le calcul conduit à des résultats légèrement différents d'une évaluation à l'autre
Les vecteurs d'attaque nécessitent des mises à jour périodiques pour faire face aux menaces nouvellement découvertes.
Le calcul métrique nécessite des plans standards/essentiels sur Watsonx.governance.

Etapes suivantes

Vous pouvez utiliser les stratégies suivantes pour atténuer la vulnérabilité de votre modèle d'invite aux attaques de robustesse adverses :

Sélection et test des modèles :

Vous pouvez atténuer la vulnérabilité aux attaques en procédant comme suit

Sélection de modèles formés à la sécurité
Utilisation de modèles avec garde-corps intégrés
Tester différents modèles au fur et à mesure qu'ils reçoivent des mises à jour en matière de sécurité

Amélioration du modèle d'invite :

Améliorez vos modèles de prompt avec :

Limitations et objectifs clairs du champ d'application
Instructions explicites contre le partage d'informations inutiles
Formatage structuré pour éviter les écrasements d'instructions
Contre-instructions contre les scénarios de jeux de rôle
Restrictions de l'engagement linguistique pour lutter contre les attaques avancées

Mise en place de garde-fous :

Vous pouvez mettre en place des mesures de protection par le biais de :

Garde-fous à l'entrée :
- Détection des intentions d'attaque
- Filtrage proactif pour éviter les appels de déduction inutiles
Garde-corps à l'étage de sortie :
- Modération du contenu
- Contrôle des réponses aux critères de réussite de l'attaque
Approches combinées des glissières de sécurité :
- Mise en place de protections on/off-topic et jailbreak
- Utilisation de plusieurs couches de filtres

Conception de l'application :

Améliorez la sécurité de vos applications en :

Limiter la saisie aux seules langues autorisées
Fixer des limites appropriées à la taille des données d'entrée
Mise en œuvre de la validation des entrées utilisateur

Remarque :

Les mesures que vous prenez pour améliorer ou valider les performances ne sont pas prescrites et dépendent du cas d'utilisation de votre modèle et des objectifs que vous souhaitez atteindre. L'efficacité de chaque approche peut varier en fonction de votre mise en œuvre et de vos exigences.

Sujet parent : Mesures d'évaluation

La rubrique a-t-elle été utile ?

0/1000