La mesure d'évaluation de la dérive des caractéristiques mesure le changement dans la distribution des valeurs pour les caractéristiques importantes.
Détails de l'indicateur
La dérive des caractéristiques est une mesure d'évaluation de la dérive de l' v2, qui évalue les changements de distribution des données pour les modèles d'apprentissage automatique.
Portée
La mesure de dérive des fonctionnalités évalue uniquement les modèles d'apprentissage automatique.
Types d'actifs d'IA : Modèles d'apprentissage automatique
Scores et valeurs
Le score de la mesure de dérive des caractéristiques indique le changement dans la distribution des valeurs pour les caractéristiques importantes.
- Meilleur score possible : 0.0
- Ratios :
- À 0 : Pas de changement dans la répartition des valeurs
- Plus de 0 : augmentation de la variation de la distribution des valeurs
Processus d'évaluation
La dérive est calculée pour les caractéristiques catégoriques et numériques en mesurant la distribution de probabilité des valeurs continues et discrètes. Pour identifier les valeurs discrètes des caractéristiques numériques, un logarithme binaire est utilisé pour comparer le nombre de valeurs distinctes de chaque caractéristique au nombre total de valeurs de chaque caractéristique.
Calculs
La formule de logarithme binaire suivante est utilisée pour identifier les caractéristiques numériques discrètes :
Si l' distinct_values_count
e est inférieur au logarithme binaire de l' total_count
, la caractéristique est identifiée comme discrète.
La distance de Jensen-Shannon est la forme normalisée de la divergence de Kullback-Leibler (KL) qui mesure l'écart entre une distribution de probabilité et une deuxième distribution de probabilité. Jensen Shannon Distance est un score symétrique et a toujours une valeur finie.
La formule suivante est utilisée pour calculer la distance de Jensen-Shannon pour deux distributions de probabilité, la distribution de référence (B) et la distribution de production (P) :
Le coefficient de recouvrement est calculé en mesurant la surface totale de l'intersection entre deux distributions de probabilité. Pour mesurer la dissemblance entre les distributions, l'intersection ou la zone de chevauchement est soustraite de 1 pour calculer le degré de dérive.
La formule suivante est utilisée pour calculer le coefficient de chevauchement :
𝑥 est une série d'échantillons équidistants qui couvrent le domaine de l'
, allant du minimum combiné des données de référence et de production au maximum combiné des données de référence et de production.
est la différence entre deux échantillons 𝑥 consécutifs.
est la valeur de la fonction de densité pour les données de production à un échantillon 𝑥.
est la valeur de la fonction de densité pour les données de base pour un échantillon à 𝑥.
La distance de variation totale mesure la différence maximale entre les probabilités que deux distributions de probabilités, de référence (B) et de production (P), attribuent à la même transaction, comme indiqué dans la formule suivante :
Si les deux distributions sont égales, la distance de variation totale entre elles devient 0.
La formule suivante est utilisée pour calculer la distance de variation totale :
𝑥 est une série d'échantillons équidistants qui couvrent le domaine de l'
, allant du minimum combiné des données de référence et de production au maximum combiné des données de référence et de production.
est la différence entre deux échantillons 𝑥 consécutifs.
est la valeur de la fonction de densité pour les données de production à un échantillon 𝑥.
est la valeur de la fonction de densité pour les données de base pour un échantillon à 𝑥.
Le dénominateur « » représente la surface totale sous les courbes de la fonction de densité pour les données de production et de référence. Ces sommes sont une approximation des intégrales sur l'espace des domaines et ces deux termes devraient être égaux à 1 et le total devrait être
Sujet parent : Indicateurs d'évaluation