0 / 0
Retourner à la version anglaise de la documentation
Evaluations de dérive v2
Dernière mise à jour : 22 nov. 2024
Evaluations de dérive v2

Distance en cosinus

La distance cosinusienne mesure la différence entre les vecteurs d'intégration. La formule suivante est utilisée pour mesurer la distance en cosinus :

La formule de la distance en cosinus est affichée

La description de la formule de la distance en cosinus est affichée

La distance cosinus varie entre 0, qui indique des vecteurs identiques, 1, qui indique l'absence de corrélation entre les vecteurs, et 2, qui indique des vecteurs opposés.

distance euclidienne

La distance euclidienne est la distance la plus courte entre les vecteurs d'intégration dans l'espace euclidien. La formule suivante est utilisée pour mesurer la distance euclidienne :

La formule de la distance euclidienne est affichée

La description de la formule de la distance euclidienne est affichée

La distance euclidienne est comprise entre 0, qui indique des vecteurs totalement identiques, et l'infini. Toutefois, pour les vecteurs normalisés de longueur unitaire, la distance euclidienne maximale est la le symbole de la formule de la distance euclidienne est affiché.

Vous pouvez configurer des évaluations de dérive v2 pour mesurer les changements dans vos données au fil du temps afin de garantir des résultats cohérents pour votre modèle. Utilisez les évaluations de dérive v2 pour identifier les changements dans la sortie de votre modèle, l'exactitude de vos prévisions et la distribution de vos données d'entrée.

Les sections suivantes décrivent comment configurer les évaluations de dérive v2 :

Configuration des évaluations de dérive v2

Si vous enregistrez des données de charge utile lorsque vous préparez des évaluations de modèles, vous pouvez configurer les évaluations de drift v2 pour vous aider à comprendre comment les changements dans vos données affectent les résultats du modèle.

Calculer l'archive de dérive

Vous devez choisir la méthode utilisée pour analyser vos données d'apprentissage afin de déterminer les distributions de données des caractéristiques de votre modèle. Si vous connectez des données d'entraînement et que la taille de vos données est inférieure à 500 Mo, vous pouvez choisir de calculer l'archive drift v2.

Si vous ne connectez pas vos données d'entraînement, ou si la taille de vos données est supérieure à 500 Mo, vous devez choisir de calculer l'archive drift v2 dans un ordinateur portable. Vous devez également calculer l'archive drift v2 dans les carnets si vous souhaitez évaluer des modèles d'images ou de textes.

Vous pouvez limiter la taille de vos données d'entraînement en définissant des tailles d'échantillon maximales pour la quantité de données d'entraînement utilisées pour la notation et le calcul de l'archive de dérive v2. Pour les déploiements de Runtime non-watsonx.ai, le calcul de l'archive drift v2 a un coût associé à l'évaluation des données d'entraînement par rapport au point final d'évaluation de votre modèle.

Définir des seuils de dérive

Vous devez définir des valeurs seuils pour chaque mesure afin d'identifier les problèmes liés aux résultats de votre évaluation. Les valeurs que vous définissez créent des alertes sur le tableau de bord Insights qui apparaissent lorsque les scores des indicateurs ne respectent pas vos seuils. Vous devez définir les valeurs comprises entre 0 et 1. Les scores des indicateurs doivent être inférieurs aux valeurs de seuil pour éviter les violations.

Sélectionner des caractéristiques importantes

Pour les modèles tabulaires uniquement, l'importance des caractéristiques est calculée pour déterminer l'impact de la dérive des caractéristiques sur votre modèle. Pour calculer l'importance des caractéristiques, vous pouvez sélectionner les caractéristiques importantes et les plus importantes de votre modèle qui ont le plus grand impact sur les résultats de votre modèle.

Lorsque vous configurez les explications SHAP, les caractéristiques importantes sont automatiquement détectées à l'aide d'explications globales.

Vous pouvez également télécharger une liste de fonctions importantes en téléchargeant un fichier JSON. Des exemples de snippets sont fournis, que vous pouvez utiliser pour télécharger un fichier JSON. Pour plus d'informations, voir Fragments d'importance des fonctions.

Fixer la taille d'échantillon

Les tailles d'échantillon sont fournies pour traiter le nombre de transactions évaluées lors des évaluations. Vous devez définir une taille d'échantillon minimale pour indiquer le plus petit nombre de transactions que vous souhaitez évaluer. Vous pouvez également définir une taille d'échantillon maximale pour indiquer le nombre maximum de transactions que vous souhaitez évaluer.

Métriques de dérive v2 prises en charge

Lorsque vous activez les évaluations de la dérive v2, vous pouvez afficher un résumé des résultats de l'évaluation avec des mesures pour le type de modèle que vous évaluez.

Vous pouvez consulter les résultats de vos évaluations de la dérive v2 sur le tableau de bord Insights. Pour plus d'informations, voir Examiner les résultats de la dérive v2.

Les métriques suivantes sont prises en charge par les évaluations de dérive v2 :

Dérive de sortie

La dérive de la sortie mesure le changement dans la distribution de confiance du modèle.

  • Comment ça marche
    La quantité de données de sortie de votre modèle qui change à partir du moment où vous formez le modèle est mesurée. Pour les modèles de régression, la dérive des résultats est calculée en mesurant le changement dans la distribution des prédictions sur les données d'entraînement et de charge utile. Pour les modèles de classification, la dérive de sortie est calculée pour chaque probabilité de classe en mesurant le changement de distribution des probabilités de classe sur les données d'entraînement et de charge utile. Pour les modèles de multi-classification, la dérive de sortie est agrégée pour chaque probabilité de classe en mesurant une moyenne pondérée.

  • Faites le calcul
    Les formules suivantes sont utilisées pour calculer la dérive de la sortie :

Dérive de la qualité du modèle

La dérive de la qualité du modèle compare la précision estimée en cours d'exécution à la précision de l'entraînement pour mesurer la baisse de la précision.

  • Fonctionnement:

Un modèle de détection de dérive est construit qui traite vos données de charge utile lorsque vous configurez les évaluations de dérive v2 pour prédire si votre modèle génère des prédictions exactes sans la vérité de terrain. Le modèle de détection de dérive utilise les fonctions d'entrée et les probabilités de classe de votre modèle pour créer ses propres fonctions d'entrée.

  • Effectuer les fonctions mathématiques:

La formule suivante est utilisée pour calculer la dérive de la qualité du modèle :

la formule de dérive de la qualité du modèle est affichée

La précision de votre modèle est calculée comme la base_accuracy en mesurant la fraction de transactions correctement prédites dans vos données d'apprentissage. Lors des évaluations, vos transactions sont évaluées par rapport au modèle de détection de dérive afin de mesurer le nombre de transactions qui sont probablement prédites correctement par votre modèle. Ces transactions sont comparées au nombre total de transactions traitées pour calculer le predicted_accuracy Si le predicted_accuracy est inférieur au base_accuracy, un score de dérive de la qualité du modèle est généré.

Dérive des caractéristiques

La dérive des caractéristiques mesure le changement dans la distribution des valeurs des caractéristiques importantes.

  • Fonctionnement:

La dérive est calculée pour les caractéristiques catégorielles et numériques en mesurant la distribution de probabilité des valeurs continues et discrètes. Pour identifier les valeurs discrètes des caractéristiques numériques, un logarithme binaire est utilisé pour comparer le nombre de valeurs distinctes de chaque caractéristique au nombre total de valeurs de chaque caractéristique. La formule du logarithme binaire suivante est utilisée pour identifier les caractéristiques numériques discrètes :

La formule du logarithme binaire est affichée

Si distinct_values_count est inférieur au logarithme binaire de total_count, la fonction est identifiée comme discrète.

  • Effectuer les fonctions mathématiques:

Les formules suivantes sont utilisées pour calculer la dérive des caractéristiques :

Les formules suivantes sont utilisées pour calculer les indicateurs d'évaluation de la dérive v2 :

Distance de variation totale

La distance de variation totale mesure la différence maximale entre les probabilités que deux distributions de probabilité, de référence (B) et de production (P), affectent à la même transaction, comme indiqué dans la formule suivante:

La formule de distribution des probabilités est affichée

Si les deux distributions sont égales, la distance totale de variation entre elles devient 0.

La formule suivante permet de calculer la distance de variation totale:

La formule de la distance de variation totale est affichée

  • 𝑥 est une série d'échantillons équidistants qui couvrent le domaine de L'accent circonflexe est affiché et qui vont du minimum combiné des données de base et de production au maximum combiné des données de base et de production.

  • Le symbole d (x) est affiché est la différence entre deux échantillons 𝑥 consécutifs.

  • explication de la formule est la valeur de la fonction de densité pour les données de production à un échantillon 𝑥.

  • explication de la formule est la valeur de la fonction de densité pour les données de base pour un échantillon 𝑥.

Le explication de la formule dénominateur représente la surface totale sous les graphiques de la fonction de densité pour la production et les données de base. Ces sommations sont une approximation des intégrations sur l'espace de domaine et ces deux termes doivent être 1 et le total doit être 2.

Coefficient de chevauchement

Le coefficient de recouvrement est calculé en mesurant l'aire totale de l'intersection entre deux distributions de probabilité. Pour mesurer la dissimilarité entre les distributions, l'intersection ou la zone de chevauchement est soustraite de 1 pour calculer la quantité de dérive. La formule suivante est utilisée pour calculer le coefficient de chevauchement:

La formule de coefficient de chevauchement est affichée

  • 𝑥 est une série d'échantillons équidistants qui couvrent le domaine de L'accent circonflexe est affiché et qui vont du minimum combiné des données de base et de production au maximum combiné des données de base et de production.

  • Le symbole d (x) est affiché est la différence entre deux échantillons 𝑥 consécutifs.

  • explication de la formule est la valeur de la fonction de densité pour les données de production à un échantillon 𝑥.

  • explication de la formule est la valeur de la fonction de densité pour les données de base pour un échantillon 𝑥.

Distance Jensen Shannon

La distance de Jensen Shannon est la forme normalisée de la divergence de Kullback-Leibler (KL) qui mesure à quel point une distribution de probabilité diffère de la deuxième distribution de probabillité. La distance de Jensen Shannon est un score symétrique et a toujours une valeur finie.

La formule suivante est utilisée pour calculer la distance de Jensen Shannon pour deux distributions de probabilité, la ligne de base (B) et la production (P):

La formule de distance de Jensen Shannon est affichée

Divergence KL affichée est la divergence KL.

Rubrique parent: Configuration des évaluations de modèle

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus