Configuration des évaluations de l' v2

Dernière mise à jour : 11 mars 2025
Configuration des évaluations de l' v2

Vous pouvez configurer les évaluations de drift v2 pour mesurer les changements dans vos données au fil du temps afin de garantir des résultats cohérents pour votre modèle. Utilisez les évaluations de la dérive v2 pour identifier les changements dans les résultats de votre modèle, la précision de vos prédictions et la distribution de vos données d'entrée.

Les sections suivantes décrivent comment configurer les évaluations de dérive v2 :

Configuration des évaluations drift v2 pour les modèles d'apprentissage automatique

Si vous enregistrez des données de charge utile lorsque vous préparez des évaluations de modèles, vous pouvez configurer des évaluations drift v2 pour les modèles d'apprentissage automatique afin de vous aider à comprendre comment les changements dans vos données affectent les résultats du modèle.

Calculer l'archive de dérive

Vous devez choisir la méthode que vous souhaitez utiliser pour analyser vos données d'apprentissage afin de déterminer les distributions de données des caractéristiques de votre modèle. Si vous connectez des données d'entraînement et que la taille de vos données est inférieure à 500 Mo, vous pouvez choisir de calculer l'archive drift v2.

Si vous ne connectez pas vos données d'entraînement, ou si la taille de vos données est supérieure à 500 Mo, vous devez choisir de calculer l'archive drift v2 dans un ordinateur portable. Vous devez également calculer l'archive drift v2 dans les carnets si vous souhaitez évaluer des modèles d'images ou de textes.

Vous pouvez limiter la taille de vos données d'entraînement en définissant des tailles d'échantillon maximales pour la quantité de données d'entraînement utilisées pour la notation et le calcul de l'archive de dérive v2. Pour les déploiements de Runtime non-watsonx.ai, le calcul de l'archive drift v2 a un coût associé à l'évaluation des données d'entraînement par rapport au point final d'évaluation de votre modèle.

Définir des seuils de dérive

Vous devez définir des valeurs seuils pour chaque mesure afin d'identifier les problèmes liés aux résultats de votre évaluation. Les valeurs que vous définissez créent des alertes sur le tableau de bord Insights qui apparaissent lorsque les scores des indicateurs ne respectent pas vos seuils. Vous devez définir les valeurs comprises entre 0 et 1. Les scores des indicateurs doivent être inférieurs aux valeurs de seuil pour éviter les violations.

Sélectionner des caractéristiques importantes

Pour les modèles tabulaires uniquement, l'importance des caractéristiques est calculée pour déterminer l'impact de la dérive des caractéristiques sur votre modèle. Pour calculer l'importance des caractéristiques, vous pouvez sélectionner les caractéristiques importantes et les plus importantes de votre modèle qui ont le plus grand impact sur les résultats de votre modèle.

Lorsque vous configurez les explications SHAP, les caractéristiques importantes sont automatiquement détectées à l'aide d'explications globales.

Vous pouvez également télécharger une liste de fonctions importantes en téléchargeant un fichier JSON. Des exemples de snippets sont fournis, que vous pouvez utiliser pour télécharger un fichier JSON. Pour plus d'informations, voir Fragments d'importance des fonctions.

Fixer la taille d'échantillon

La taille des échantillons est utilisée pour comprendre comment traiter le nombre de transactions évaluées lors des évaluations. Vous devez définir une taille d'échantillon minimale pour indiquer le plus petit nombre de transactions que vous souhaitez évaluer. Vous pouvez également définir une taille d'échantillon maximale pour indiquer le nombre maximum de transactions que vous souhaitez évaluer.

Configuration des évaluations drift v2 pour les modèles génératifs d'IA

Lorsque vous évaluez les modèles d'invite, vous pouvez consulter un récapitulatif des résultats d'évaluation de la dérive v2 pour les types de tâche suivants:

  • Synthèse de texte
  • Classification de texte
  • Génération de contenu
  • Extraction d'entités
  • Réponse aux questions
  • Récupération de la génération augmentée (RAG)

Définir des seuils de dérive

Pour configurer les évaluations de dérive v2 avec vos propres paramètres, vous pouvez définir une taille d'échantillon minimale et maximale pour chaque métrique. La taille d'échantillon minimale ou maximale indique le nombre minimal ou maximal de transactions de modèle que vous souhaitez évaluer.

Vous pouvez également configurer des données de référence et définir des valeurs de seuil pour chaque métrique. Les valeurs de seuil créent des alertes sur la page de récapitulatif d'évaluation qui s'appliquent lorsque les scores de métrique ne respectent pas vos seuils. Vous devez définir les valeurs comprises entre 0 et 1. Les scores des indicateurs doivent être inférieurs aux valeurs de seuil pour éviter les violations.

Calculer l'archive de dérive

Watsonx.governance utilise des enregistrements de contenu utile pour établir la version de référence des évaluations de dérive v2 . Vous devez configurer le nombre d'enregistrements que vous souhaitez calculer comme données de référence. Vous pouvez utiliser un bloc-notes pour générer votre archive de données de référence v2 de dérive afin de configurer des évaluations.

Calculer les encastrements

Pour calculer les mesures de dérive de l'intégration, vous devez fournir des intégrations avec vos données de test. Vous pouvez utiliser des notebooks pour vous aider à générer et à conserver des embeddings.

Sujet parent : Évaluer les modèles d'IA