0 / 0
Retourner à la version anglaise de la documentation
Evaluations de dérive v2
Dernière mise à jour : 21 nov. 2024
Evaluations de dérive v2

Vous pouvez configurer les évaluations de drift v2 pour mesurer les changements dans vos données au fil du temps afin de garantir des résultats cohérents pour votre modèle. Utilisez les évaluations de la dérive v2 pour identifier les changements dans les résultats de votre modèle, la précision de vos prédictions et la distribution de vos données d'entrée.

Les sections suivantes décrivent comment configurer les évaluations de dérive v2 :

Configuration des évaluations drift v2 pour les modèles d'apprentissage automatique

Si vous enregistrez des données de charge utile lorsque vous préparez des évaluations de modèles, vous pouvez configurer des évaluations drift v2 pour les modèles d'apprentissage automatique afin de vous aider à comprendre comment les changements dans vos données affectent les résultats du modèle.

Calculer l'archive de dérive

Vous devez choisir la méthode que vous souhaitez utiliser pour analyser vos données d'apprentissage afin de déterminer les distributions de données des caractéristiques de votre modèle. Si vous connectez des données d'entraînement et que la taille de vos données est inférieure à 500 Mo, vous pouvez choisir de calculer l'archive drift v2.

Si vous ne connectez pas vos données d'entraînement, ou si la taille de vos données est supérieure à 500 Mo, vous devez choisir de calculer l'archive drift v2 dans un ordinateur portable. Vous devez également calculer l'archive drift v2 dans les carnets si vous souhaitez évaluer des modèles d'images ou de textes.

Vous pouvez limiter la taille de vos données d'entraînement en définissant des tailles d'échantillon maximales pour la quantité de données d'entraînement utilisées pour la notation et le calcul de l'archive de dérive v2. Pour les déploiements de Runtime non-watsonx.ai, le calcul de l'archive drift v2 a un coût associé à l'évaluation des données d'entraînement par rapport au point final d'évaluation de votre modèle.

Définir des seuils de dérive

Vous devez définir des valeurs seuils pour chaque mesure afin d'identifier les problèmes liés aux résultats de votre évaluation. Les valeurs que vous définissez créent des alertes sur le tableau de bord Insights qui apparaissent lorsque les scores des indicateurs ne respectent pas vos seuils. Vous devez définir les valeurs comprises entre 0 et 1. Les scores des indicateurs doivent être inférieurs aux valeurs de seuil pour éviter les violations.

Sélectionner des caractéristiques importantes

Pour les modèles tabulaires uniquement, l'importance des caractéristiques est calculée pour déterminer l'impact de la dérive des caractéristiques sur votre modèle. Pour calculer l'importance des caractéristiques, vous pouvez sélectionner les caractéristiques importantes et les plus importantes de votre modèle qui ont le plus grand impact sur les résultats de votre modèle.

Lorsque vous configurez les explications SHAP, les caractéristiques importantes sont automatiquement détectées à l'aide d'explications globales.

Vous pouvez également télécharger une liste de fonctions importantes en téléchargeant un fichier JSON. Des exemples de snippets sont fournis, que vous pouvez utiliser pour télécharger un fichier JSON. Pour plus d'informations, voir Fragments d'importance des fonctions.

Fixer la taille d'échantillon

La taille des échantillons est utilisée pour comprendre comment traiter le nombre de transactions évaluées lors des évaluations. Vous devez définir une taille d'échantillon minimale pour indiquer le plus petit nombre de transactions que vous souhaitez évaluer. Vous pouvez également définir une taille d'échantillon maximale pour indiquer le nombre maximum de transactions que vous souhaitez évaluer.

Configuration des évaluations drift v2 pour les modèles génératifs d'IA

Lorsque vous évaluez les modèles d'invite, vous pouvez consulter un récapitulatif des résultats d'évaluation de la dérive v2 pour les types de tâche suivants:

  • Synthèse de texte
  • Classification de texte
  • Génération de contenu
  • Extraction d'entités
  • Réponse aux questions
  • Récupération de la génération augmentée (RAG)

Définir des seuils de dérive

Pour configurer les évaluations de dérive v2 avec vos propres paramètres, vous pouvez définir une taille d'échantillon minimale et maximale pour chaque métrique. La taille d'échantillon minimale ou maximale indique le nombre minimal ou maximal de transactions de modèle que vous souhaitez évaluer.

Vous pouvez également configurer des données de référence et définir des valeurs de seuil pour chaque métrique. Les valeurs de seuil créent des alertes sur la page de récapitulatif d'évaluation qui s'appliquent lorsque les scores de métrique ne respectent pas vos seuils. Vous devez définir les valeurs comprises entre 0 et 1. Les scores des indicateurs doivent être inférieurs aux valeurs de seuil pour éviter les violations.

Calculer l'archive de dérive

Watsonx.governance utilise des enregistrements de contenu utile pour établir la version de référence des évaluations de dérive v2 . Vous devez configurer le nombre d'enregistrements que vous souhaitez calculer comme données de référence. Vous pouvez utiliser un bloc-notes pour générer votre archive de données de référence v2 de dérive afin de configurer des évaluations.

Calculer les encastrements

Pour calculer les mesures de dérive de l'intégration, vous devez fournir des intégrations avec vos données de test. Vous pouvez utiliser des notebooks pour vous aider à générer et à conserver des embeddings.

Métriques de dérive v2 prises en charge

Lorsque vous activez les évaluations drift v2 pour les modèles d'apprentissage automatique ou les modèles d'IA générative, vous pouvez afficher un résumé des résultats d'évaluation avec des métriques pour le type de modèle que vous évaluez.

Si vous évaluez des modèles d'apprentissage automatique, vous pouvez consulter les résultats de vos évaluations drift v2 sur le tableau de bord Insights. Pour plus d'informations, voir Examiner les résultats de la dérive v2.

Les métriques suivantes sont prises en charge par les évaluations de dérive v2 :

Dérive de l'intégration

La dérive d'intégration détecte le pourcentage d'enregistrements aberrants par rapport aux données de base.

  • Comment ça marche : Vous devez fournir des embeddings avec vos données de base lorsque vous activez la métrique de dérive des embeddings pour générer des résultats d'évaluation. Watsonx.governance construit un auto-encodeur qui traite les enchâssements dans vos données de base et calcule des métriques prédéfinies de cosinus et de distance euclidienne pour la sortie du modèle. Watsonx.governance identifie la distribution des mesures de distance pour fixer un seuil de détection des valeurs aberrantes et détecte une dérive si la valeur de la mesure de distance est supérieure au seuil. Pour les tâches RAG, les embeddings de toutes les colonnes de contexte de votre enregistrement modèle sont combinés en un seul vecteur pour déterminer la dérive.
  • Faites le calcul : Watsonx.governance utilise les formules suivantes pour calculer la dérive d'encastrement :
  • Modèles pris en charge: LLM
  • S'applique aux évaluations de modèle d'invite: Oui
    • Types de tâche:
      • Synthèse de texte
      • Classification de texte
      • Génération de contenu
      • Extraction d'entités
      • Réponse aux questions
      • Récupération de la génération augmentée (RAG)

Dérive de sortie

La dérive de la sortie mesure le changement dans la distribution de confiance du modèle.

  • Comment ça marche
    La quantité de données de sortie de votre modèle qui change à partir du moment où vous formez le modèle est mesurée. Pour les modèles de régression, la dérive des résultats est calculée en mesurant le changement dans la distribution des prédictions sur les données d'entraînement et de charge utile. Pour les modèles de classification, la dérive de sortie est calculée pour chaque probabilité de classe en mesurant le changement de distribution des probabilités de classe sur les données d'entraînement et de charge utile. Pour les modèles de multi-classification, la dérive de sortie est agrégée pour chaque probabilité de classe en mesurant une moyenne pondérée.

  • Faites le calcul
    Les formules suivantes sont utilisées pour calculer la dérive de la sortie :

  • Modèles pris en charge: apprentissage automatique traditionnel et LLM

  • S'applique aux évaluations de modèle d'invite: Oui

    • Types de tâche:
      • Synthèse de texte
      • Classification de texte
      • Génération de contenu
      • Extraction d'entités
      • Réponse aux questions

Dérive de la qualité du modèle

La dérive de la qualité du modèle compare la précision estimée en cours d'exécution à la précision de l'entraînement pour mesurer la baisse de la précision.

  • Fonctionnement:

Un modèle de détection de dérive est construit qui traite vos données de charge utile lorsque vous configurez les évaluations de dérive v2 pour prédire si votre modèle génère des prédictions exactes sans la vérité de terrain. Le modèle de détection de dérive utilise les fonctions d'entrée et les probabilités de classe de votre modèle pour créer ses propres fonctions d'entrée.

  • Effectuer les fonctions mathématiques:

La formule suivante est utilisée pour calculer la dérive de la qualité du modèle :

la formule de dérive de la qualité du modèle est affichée

La précision de votre modèle est calculée comme la base_accuracy en mesurant la fraction de transactions correctement prédites dans vos données d'apprentissage. Lors des évaluations, vos transactions sont évaluées par rapport au modèle de détection de dérive afin de mesurer le nombre de transactions qui sont probablement prédites correctement par votre modèle. Ces transactions sont comparées au nombre total de transactions traitées pour calculer le predicted_accuracy Si le predicted_accuracy est inférieur au base_accuracy, un score de dérive de la qualité du modèle est généré.

  • Modèles pris en charge: apprentissage automatique traditionnel
  • S'applique aux évaluations de modèle d'invite: Non

Dérive des caractéristiques

La dérive des caractéristiques mesure le changement dans la distribution des valeurs pour les caractéristiques importantes.

  • Fonctionnement:

La dérive est calculée pour les caractéristiques catégorielles et numériques en mesurant la distribution de probabilité des valeurs continues et discrètes. Pour identifier les valeurs discrètes des caractéristiques numériques, un logarithme binaire est utilisé pour comparer le nombre de valeurs distinctes de chaque caractéristique au nombre total de valeurs de chaque caractéristique. La formule du logarithme binaire suivante est utilisée pour identifier les caractéristiques numériques discrètes :

La formule du logarithme binaire est affichée

Si distinct_values_count est inférieur au logarithme binaire de total_count, la fonction est identifiée comme discrète.

  • Effectuer les fonctions mathématiques:

Les formules suivantes sont utilisées pour calculer la dérive des caractéristiques :

Dérive des prévisions

La dérive des prévisions mesure le changement dans la distribution des classes prédites LLM.

  • Effectuer les fonctions mathématiques:

Watsonx.governance utilise la formule Jensen Shannon distance pour calculer la dérive des prévisions.

  • S'applique aux évaluations de modèle d'invite: Oui

    • Types de tâche: Classification de texte
  • Modèles pris en charge: LLM

Dérive des métadonnées d'entrée

La dérive des métadonnées d'entrée mesure le changement dans la distribution des métadonnées de texte d'entrée LLM.

  • Fonctionnement:
    Watsonx.governance calcule les métadonnées suivantes avec le texte d'entrée LLM:
    Nombre de caractères: Nombre total de caractères dans le texte d'entrée
    Nombre de mots: Nombre total de mots dans le texte d'entrée
    Nombre de jetons: Nombre total de jetons dans le texte d'entrée
    Nombre d'éléments: Nombre total de phrases dans le texte d'entrée
    Longueur moyenne des mots: Longueur moyenne des mots dans le texte d'entrée
    Longueur totale des mots: Longueur totale des mots dans le texte d'entrée
    Longueur moyenne des phrases: Longueur moyenne des phrases dans le texte d'entrée

    Watsonx.governance calcule la dérive des métadonnées d'entrée en mesurant la modification de la distribution des colonnes de métadonnées. La colonne du nombre de jetons d'entrée, si elle est présente dans le contenu, est également utilisée pour calculer la dérive des métadonnées d'entrée. Vous pouvez également choisir de spécifier des méta-zones lors de l'ajout d'enregistrements à la table de contenu. Ces méta-zones sont également utilisées pour calculer la dérive des métadonnées d'entrée. Pour identifier les colonnes de métadonnées d'entrée numériques discrètes, watsonx.governance utilise la formule de logarithme binaire suivante:

    La formule du logarithme binaire est affichée

    Si distinct_values_count est inférieur au logarithme binaire de total_count, la fonction est identifiée comme discrète.

    Pour les colonnes de métadonnées d'entrée discrètes, watsonx.governance utilise la formule distance de Jensen Shannon pour calculer la dérive des métadonnées d'entrée.

    Pour les colonnes de métadonnées d'entrée continues, watsonx.governance utilise les formules de distance de variation totale et de coefficient de chevauchement pour calculer la dérive des métadonnées d'entrée.

  • S'applique aux évaluations de modèle d'invite: Oui

    • Types de tâche:
      • Synthèse de texte
      • Classification de texte
      • Génération de contenu
      • Extraction d'entités
      • Réponse aux questions
  • Modèles pris en charge: LLM

Dérive des métadonnées de sortie

La dérive des métadonnées de sortie mesure le changement dans la distribution des métadonnées de texte de sortie LLM.

  • Fonctionnement:
    Watsonx.governance calcule les métadonnées suivantes avec le texte de sortie LLM:
    Nombre de caractères: Nombre total de caractères dans le texte de sortie
    Nombre de mots: Nombre total de mots dans le texte de sortie
    Nombre de jetons: Nombre total de jetons dans le texte de sortie
    Nombre d'éléments: Nombre total de phrases dans le texte de sortie
    Longueur moyenne des mots: Longueur moyenne des mots dans le texte de sortie
    Longueur moyenne des phrases: Longueur moyenne des phrases dans le texte de sortie
    Longueur totale des mots: Longueur totale des mots dans le texte de sortie

    Watsonx.governance calcule la dérive des métadonnées de sortie en mesurant la modification de la distribution des colonnes de métadonnées. La colonne du nombre de jetons de sortie, si elle est présente dans le contenu, est également utilisée pour calculer la dérive des métadonnées de sortie. Vous pouvez également choisir de spécifier des méta-zones lors de l'ajout d'enregistrements à la table de contenu. Ces méta-zones sont également utilisées pour calculer la dérive des métadonnées de sortie. Pour identifier les colonnes de métadonnées de sortie numériques discrètes, watsonx.governance utilise la formule de logarithme binaire suivante:

    La formule du logarithme binaire est affichée

    Si distinct_values_count est inférieur au logarithme binaire de total_count, la fonction est identifiée comme discrète.

    Pour les colonnes de métadonnées de sortie discrètes, watsonx.governance utilise la formule Jensen Shannon distance pour calculer la dérive des métadonnées d'entrée.

    Pour les colonnes de métadonnées de sortie continues, watsonx.governance utilise les formules de distance de variation totale et de coefficient de chevauchement pour calculer la dérive des métadonnées de sortie:

  • S'applique aux évaluations de modèle d'invite: Oui

    • Types de tâche:
      • Synthèse de texte
      • Classification de texte
      • Génération de contenu
      • Réponse aux questions
  • Modèles pris en charge: LLM

Les formules suivantes sont utilisées pour calculer les indicateurs d'évaluation de la dérive v2 :

Distance de variation totale

La distance de variation totale mesure la différence maximale entre les probabilités que deux distributions de probabilité, de référence (B) et de production (P), affectent à la même transaction, comme indiqué dans la formule suivante:

La formule de distribution des probabilités est affichée

Si les deux distributions sont égales, la distance totale de variation entre elles devient 0.

La formule suivante permet de calculer la distance de variation totale:

La formule de la distance de variation totale est affichée

  • 𝑥 est une série d'échantillons équidistants qui couvrent le domaine de L'accent circonflexe est affiché et qui vont du minimum combiné des données de base et de production au maximum combiné des données de base et de production.

  • Le symbole d (x) est affiché est la différence entre deux échantillons 𝑥 consécutifs.

  • explication de la formule est la valeur de la fonction de densité pour les données de production à un échantillon 𝑥.

  • explication de la formule est la valeur de la fonction de densité pour les données de base pour un échantillon 𝑥.

Le explication de la formule dénominateur représente la surface totale sous les graphiques de la fonction de densité pour la production et les données de base. Ces sommations sont une approximation des intégrations sur l'espace de domaine et ces deux termes doivent être 1 et le total doit être 2.

Coefficient de chevauchement

Le coefficient de recouvrement est calculé en mesurant l'aire totale de l'intersection entre deux distributions de probabilité. Pour mesurer la dissimilarité entre les distributions, l'intersection ou la zone de chevauchement est soustraite de 1 pour calculer la quantité de dérive. La formule suivante est utilisée pour calculer le coefficient de chevauchement:

La formule de coefficient de chevauchement est affichée

  • 𝑥 est une série d'échantillons équidistants qui couvrent le domaine de L'accent circonflexe est affiché et qui vont du minimum combiné des données de base et de production au maximum combiné des données de base et de production.

  • Le symbole d (x) est affiché est la différence entre deux échantillons 𝑥 consécutifs.

  • explication de la formule est la valeur de la fonction de densité pour les données de production à un échantillon 𝑥.

  • explication de la formule est la valeur de la fonction de densité pour les données de base pour un échantillon 𝑥.

Distance Jensen Shannon

La distance de Jensen Shannon est la forme normalisée de la divergence de Kullback-Leibler (KL) qui mesure à quel point une distribution de probabilité diffère de la deuxième distribution de probabillité. La distance de Jensen Shannon est un score symétrique et a toujours une valeur finie.

La formule suivante est utilisée pour calculer la distance de Jensen Shannon pour deux distributions de probabilité, la ligne de base (B) et la production (P):

La formule de distance de Jensen Shannon est affichée

Divergence KL affichée est la divergence KL.

Distance en cosinus

La distance cosinusienne mesure la différence entre les vecteurs d'intégration. La formule suivante est utilisée pour mesurer la distance en cosinus :

La formule de la distance en cosinus est affichée

La description de la formule de la distance en cosinus est affichée

La distance cosinus varie entre 0, qui indique des vecteurs identiques, 1, qui indique l'absence de corrélation entre les vecteurs, et 2, qui indique des vecteurs opposés.

distance euclidienne

La distance euclidienne est la distance la plus courte entre les vecteurs d'intégration dans l'espace euclidien. La formule suivante est utilisée pour mesurer la distance euclidienne :

La formule de la distance euclidienne est affichée

La description de la formule de la distance euclidienne est affichée

La distance euclidienne est comprise entre 0, qui indique des vecteurs totalement identiques, et l'infini. Cependant, pour les vecteurs normalisés de longueur unitaire, la distance euclidienne maximale est la le symbole de la formule de la distance euclidienne est affiché.

Rubrique parent: Configuration des évaluations de modèle