0 / 0
Retourner à la version anglaise de la documentation
Entrée métrique d'évaluation de la dérive des métadonnées
Dernière mise à jour : 21 févr. 2025
Entrée métrique d'évaluation de la dérive des métadonnées

La mesure de la dérive des métadonnées d'entrée mesure le changement dans la distribution des métadonnées de texte d'entrée LLM.

Détails de l'indicateur

La dérive des métadonnées d'entrée est une mesure d'évaluation de la dérive d' v2 s qui peut aider à mesurer les changements de vos données au fil du temps afin de garantir des résultats cohérents pour votre modèle.

Les types suivants de métadonnées de texte d'entrée LLM sont mesurés avec la dérive des métadonnées d'entrée :

Nombre de caractères : Nombre total de caractères dans le texte saisi
Nombre de mots : Nombre total de mots dans le texte d'entrée
Nombre de jetons : nombre total de jetons dans le texte saisi
Nombre de phrases : nombre total de phrases dans le texte d'entrée
Longueur moyenne des mots : Longueur moyenne des mots dans le texte d'entrée
Longueur totale des mots : Longueur totale des mots dans le texte d'entrée
Longueur moyenne des phrases : Longueur moyenne des phrases dans le texte d'entrée

Portée

La dérive des métadonnées d'entrée n'évalue que les ressources d'IA générative.

  • Types d'actifs IA : modèles de messages
  • Tâches d'IA générative :
    • Synthèse de texte
    • Classification de texte
    • Génération de contenu
    • Extraction d'entités
    • Réponse aux questions
  • Langues prises en charge : anglais

Scores et valeurs

Le score de dérive des métadonnées d'entrée indique le changement dans la distribution des métadonnées du texte d'entrée du LLM.

  • Plage de valeurs : 0.0-1.0
  • Meilleur score possible : 0.0
  • Ratios :
    • À 0 : Aucun changement n'est détecté.
    • Plus de 0 : un changement croissant est détecté.

Processus d'évaluation

Watsonx.governance calcule la dérive des métadonnées d'entrée en mesurant le changement dans la distribution des colonnes de métadonnées. La colonne du nombre de jetons d'entrée, si elle est présente dans la charge utile, est également utilisée pour calculer la dérive des métadonnées d'entrée. Vous pouvez également choisir de spécifier des méta-champs lors de l'ajout d'enregistrements dans la table de données utiles. Ces méta-champs sont également utilisés pour calculer la dérive des métadonnées d'entrée.

Calculs

La formule de logarithme binaire suivante est utilisée pour identifier les colonnes de métadonnées d'entrée numériques discrètes :

La formule du logarithme binaire s'affiche

Si l' distinct_values_count e est inférieur au logarithme binaire de l' total_count, la caractéristique est identifiée comme discrète.

La formule de distance de Jensen-Shannon suivante est utilisée pour calculer la dérive des métadonnées d'entrée pour les colonnes de métadonnées d'entrée discrètes :

La formule de Jensen-Shannon est affichée

La distance de Jensen-Shannon est la forme normalisée de la divergence de Kullback-Leibler (KL) qui mesure dans quelle mesure une distribution de probabilité diffère de la seconde distribution de probabilité. Jensen Shannon Distance est un score symétrique et a toujours une valeur finie.

KL Divergence s'affiche est la divergence KL.

Les formules de distance de variation totale et de coefficient de chevauchement sont utilisées pour calculer la dérive des métadonnées d'entrée pour les colonnes de métadonnées d'entrée continues.

La distance de variation totale mesure la différence maximale entre les probabilités que deux distributions de probabilités, de référence (B) et de production (P), attribuent à la même transaction, comme indiqué dans la formule suivante :

La formule de distribution de probabilité est affichée

Si les deux distributions sont égales, la distance de variation totale entre elles devient 0.

La formule suivante est utilisée pour calculer la distance de variation totale :

La formule de la distance de variation totale est affichée

  • 𝑥 est une série d'échantillons équidistants qui couvrent le domaine de l' circumflex f est affiché , allant du minimum combiné des données de référence et de production au maximum combiné des données de référence et de production.

  • d(x) s'affiche est la différence entre deux échantillons 𝑥 consécutifs.

  • explication de la formule est la valeur de la fonction de densité pour les données de production à un échantillon 𝑥.

  • explication de la formule est la valeur de la fonction de densité pour les données de base pour un échantillon à 𝑥.

Le dénominateur « explication de la formule » représente la surface totale sous les courbes de densité pour les données de production et de référence. Ces sommes sont une approximation des intégrations sur l'espace des domaines et ces deux termes devraient être égaux à 1 et le total devrait être égal à 2.

Le coefficient de recouvrement est calculé en mesurant la surface totale de l'intersection entre deux distributions de probabilité. Pour mesurer la dissemblance entre les distributions, l'intersection ou la zone de chevauchement est soustraite de 1 pour calculer le degré de dérive. La formule suivante est utilisée pour calculer le coefficient de chevauchement :

La formule du coefficient de recouvrement s'affiche

  • 𝑥 est une série d'échantillons équidistants qui couvrent le domaine de l' circumflex f est affiché , allant du minimum combiné des données de référence et de production au maximum combiné des données de référence et de production.

  • d(x) s'affiche est la différence entre deux échantillons 𝑥 consécutifs.

  • explication de la formule est la valeur de la fonction de densité pour les données de production à un échantillon 𝑥.

  • explication de la formule est la valeur de la fonction de densité pour les données de base pour un échantillon à 𝑥.

Sujet parent : Indicateurs d'évaluation