La mesure de la dérive des métadonnées d'entrée mesure le changement dans la distribution des métadonnées de texte d'entrée LLM.
Détails de l'indicateur
La dérive des métadonnées d'entrée est une mesure d'évaluation de la dérive d' v2 s qui peut aider à mesurer les changements de vos données au fil du temps afin de garantir des résultats cohérents pour votre modèle.
Les types suivants de métadonnées de texte d'entrée LLM sont mesurés avec la dérive des métadonnées d'entrée :
Nombre de caractères : Nombre total de caractères dans le texte saisi
Nombre de mots : Nombre total de mots dans le texte d'entrée
Nombre de jetons : nombre total de jetons dans le texte saisi
Nombre de phrases : nombre total de phrases dans le texte d'entrée
Longueur moyenne des mots : Longueur moyenne des mots dans le texte d'entrée
Longueur totale des mots : Longueur totale des mots dans le texte d'entrée
Longueur moyenne des phrases : Longueur moyenne des phrases dans le texte d'entrée
Portée
La dérive des métadonnées d'entrée n'évalue que les ressources d'IA générative.
- Types d'actifs IA : modèles de messages
- Tâches d'IA générative :
- Synthèse de texte
- Classification de texte
- Génération de contenu
- Extraction d'entités
- Réponse aux questions
- Langues prises en charge : anglais
Scores et valeurs
Le score de dérive des métadonnées d'entrée indique le changement dans la distribution des métadonnées du texte d'entrée du LLM.
- Plage de valeurs : 0.0-1.0
- Meilleur score possible : 0.0
- Ratios :
- À 0 : Aucun changement n'est détecté.
- Plus de 0 : un changement croissant est détecté.
Processus d'évaluation
Watsonx.governance calcule la dérive des métadonnées d'entrée en mesurant le changement dans la distribution des colonnes de métadonnées. La colonne du nombre de jetons d'entrée, si elle est présente dans la charge utile, est également utilisée pour calculer la dérive des métadonnées d'entrée. Vous pouvez également choisir de spécifier des méta-champs lors de l'ajout d'enregistrements dans la table de données utiles. Ces méta-champs sont également utilisés pour calculer la dérive des métadonnées d'entrée.
Calculs
La formule de logarithme binaire suivante est utilisée pour identifier les colonnes de métadonnées d'entrée numériques discrètes :
Si l' distinct_values_count
e est inférieur au logarithme binaire de l' total_count
, la caractéristique est identifiée comme discrète.
La formule de distance de Jensen-Shannon suivante est utilisée pour calculer la dérive des métadonnées d'entrée pour les colonnes de métadonnées d'entrée discrètes :
La distance de Jensen-Shannon est la forme normalisée de la divergence de Kullback-Leibler (KL) qui mesure dans quelle mesure une distribution de probabilité diffère de la seconde distribution de probabilité. Jensen Shannon Distance est un score symétrique et a toujours une valeur finie.
est la divergence KL.
Les formules de distance de variation totale et de coefficient de chevauchement sont utilisées pour calculer la dérive des métadonnées d'entrée pour les colonnes de métadonnées d'entrée continues.
La distance de variation totale mesure la différence maximale entre les probabilités que deux distributions de probabilités, de référence (B) et de production (P), attribuent à la même transaction, comme indiqué dans la formule suivante :
Si les deux distributions sont égales, la distance de variation totale entre elles devient 0.
La formule suivante est utilisée pour calculer la distance de variation totale :
𝑥 est une série d'échantillons équidistants qui couvrent le domaine de l'
, allant du minimum combiné des données de référence et de production au maximum combiné des données de référence et de production.
est la différence entre deux échantillons 𝑥 consécutifs.
est la valeur de la fonction de densité pour les données de production à un échantillon 𝑥.
est la valeur de la fonction de densité pour les données de base pour un échantillon à 𝑥.
Le dénominateur « » représente la surface totale sous les courbes de densité pour les données de production et de référence. Ces sommes sont une approximation des intégrations sur l'espace des domaines et ces deux termes devraient être égaux à 1 et le total devrait être égal à 2.
Le coefficient de recouvrement est calculé en mesurant la surface totale de l'intersection entre deux distributions de probabilité. Pour mesurer la dissemblance entre les distributions, l'intersection ou la zone de chevauchement est soustraite de 1 pour calculer le degré de dérive. La formule suivante est utilisée pour calculer le coefficient de chevauchement :
𝑥 est une série d'échantillons équidistants qui couvrent le domaine de l'
, allant du minimum combiné des données de référence et de production au maximum combiné des données de référence et de production.
est la différence entre deux échantillons 𝑥 consécutifs.
est la valeur de la fonction de densité pour les données de production à un échantillon 𝑥.
est la valeur de la fonction de densité pour les données de base pour un échantillon à 𝑥.
Sujet parent : Indicateurs d'évaluation