0 / 0
Retourner à la version anglaise de la documentation
Métrique d'évaluation de la dérive des caractéristiques
Dernière mise à jour : 26 févr. 2025
Métrique d'évaluation de la dérive des caractéristiques

La mesure d'évaluation de la dérive des caractéristiques mesure le changement dans la distribution des valeurs pour les caractéristiques importantes.

Détails de l'indicateur

La dérive des caractéristiques est une mesure d'évaluation de la dérive de l' v2, qui évalue les changements de distribution des données pour les modèles d'apprentissage automatique.

Portée

La mesure de dérive des fonctionnalités évalue uniquement les modèles d'apprentissage automatique.

Types d'actifs d'IA : Modèles d'apprentissage automatique

Scores et valeurs

Le score de la mesure de dérive des caractéristiques indique le changement dans la distribution des valeurs pour les caractéristiques importantes.

  • Meilleur score possible : 0.0
  • Ratios :
    • À 0 : Pas de changement dans la répartition des valeurs
    • Plus de 0 : augmentation de la variation de la distribution des valeurs

Processus d'évaluation

La dérive est calculée pour les caractéristiques catégoriques et numériques en mesurant la distribution de probabilité des valeurs continues et discrètes. Pour identifier les valeurs discrètes des caractéristiques numériques, un logarithme binaire est utilisé pour comparer le nombre de valeurs distinctes de chaque caractéristique au nombre total de valeurs de chaque caractéristique.

Calculs

La formule de logarithme binaire suivante est utilisée pour identifier les caractéristiques numériques discrètes :

La formule du logarithme binaire s'affiche

Si l' distinct_values_count e est inférieur au logarithme binaire de l' total_count, la caractéristique est identifiée comme discrète.

La distance de Jensen-Shannon est la forme normalisée de la divergence de Kullback-Leibler (KL) qui mesure l'écart entre une distribution de probabilité et une deuxième distribution de probabilité. Jensen Shannon Distance est un score symétrique et a toujours une valeur finie.

La formule suivante est utilisée pour calculer la distance de Jensen-Shannon pour deux distributions de probabilité, la distribution de référence (B) et la distribution de production (P) :

La formule de Jensen-Shannon est affichée

Le coefficient de recouvrement est calculé en mesurant la surface totale de l'intersection entre deux distributions de probabilité. Pour mesurer la dissemblance entre les distributions, l'intersection ou la zone de chevauchement est soustraite de 1 pour calculer le degré de dérive.

La formule suivante est utilisée pour calculer le coefficient de chevauchement :

La formule du coefficient de recouvrement est affichée

  • 𝑥 est une série d'échantillons équidistants qui couvrent le domaine de l' circumflex f est affiché , allant du minimum combiné des données de référence et de production au maximum combiné des données de référence et de production.

  • d(x) s'affiche est la différence entre deux échantillons 𝑥 consécutifs.

  • explication de la formule est la valeur de la fonction de densité pour les données de production à un échantillon 𝑥.

  • explication de la formule est la valeur de la fonction de densité pour les données de base pour un échantillon à 𝑥.

La distance de variation totale mesure la différence maximale entre les probabilités que deux distributions de probabilités, de référence (B) et de production (P), attribuent à la même transaction, comme indiqué dans la formule suivante :

La formule de distribution de probabilité s'affiche

Si les deux distributions sont égales, la distance de variation totale entre elles devient 0.

La formule suivante est utilisée pour calculer la distance de variation totale :

La formule de la distance de variation totale est affichée

  • 𝑥 est une série d'échantillons équidistants qui couvrent le domaine de l' circumflex f est affiché , allant du minimum combiné des données de référence et de production au maximum combiné des données de référence et de production.

  • d(x) s'affiche est la différence entre deux échantillons 𝑥 consécutifs.

  • explication de la formule est la valeur de la fonction de densité pour les données de production à un échantillon 𝑥.

  • explication de la formule est la valeur de la fonction de densité pour les données de base pour un échantillon à 𝑥.

Le dénominateur « explication de la formule » représente la surface totale sous les courbes de la fonction de densité pour les données de production et de référence. Ces sommes sont une approximation des intégrales sur l'espace des domaines et ces deux termes devraient être égaux à 1 et le total devrait être

Sujet parent : Indicateurs d'évaluation