0 / 0
Retourner à la version anglaise de la documentation
Évaluations de la qualité de l'IA générative
Dernière mise à jour : 28 nov. 2024
Évaluations de la qualité de l'IA générative

Vous pouvez utiliser les évaluations de la qualité de l'IA générative watsonx.governance pour mesurer le degré d'efficacité de votre foundation model dans l'exécution des tâches.

Lorsque vous évaluez des modèles d'invite, vous pouvez passer en revue un récapitulatif des résultats d'évaluation de la qualité de l'IA générative pour les types de tâche suivants:

  • Synthèse de texte
  • Génération de contenu
  • Extraction d'entités
  • Réponse aux questions
  • Récupération de la génération augmentée (RAG)

Le récapitulatif affiche les scores et les violations pour les indicateurs qui sont calculés avec les paramètres par défaut.

Pour configurer des évaluations de la qualité de l'IA générative avec vos propres paramètres, vous pouvez définir une taille d'échantillon minimale et des valeurs de seuil pour chaque métrique, comme illustré dans l'exemple suivant:

Configurer les évaluations de la qualité de l'IA générative

La taille d'échantillon minimale indique le nombre minimal d'enregistrements de transaction de modèle que vous souhaitez évaluer et les valeurs de seuil créent des alertes lorsque vos scores d'indicateur ne respectent pas vos seuils. Les scores des indicateurs doivent être supérieurs aux valeurs de seuil inférieures pour éviter les violations. Des valeurs de métrique plus élevées indiquent de meilleurs scores.

Vous pouvez également configurer les paramètres pour calculer les métriques avec les modèles LLM-as-a-judge. Les modèles LLM-as-a-judge sont des modèles LLM que vous pouvez utiliser pour évaluer la performance d'autres modèles.

Pour calculer les métriques avec les modèles LLM-as-a-judge, vous devez sélectionner Gérer pour ajouter un système 'generative_ai_evaluator lorsque vous configurez vos paramètres d'évaluation.

Ajout d'un évaluateur d'IA générique pour les évaluations de modèles LLM-as-a-judge

Vous pouvez sélectionner un évaluateur pour calculer la qualité des réponses et la qualité de la recherche.

Sélectionner l'évaluateur de l'IA générique pour l'établissement des métriques

Vous pouvez également utiliser un carnet pour créer un évaluateur lorsque vous configurez vos modèles d'invite et que vous examinez les résultats de l'évaluation pour la tâche RAG dans watsonx.governance

Métriques de qualité de l'IA générative prises en charge

Les métriques de qualité de l'IA générative suivantes sont prises en charge par watsonx.governance:

ROUGE

Les métriques ROUGE (Rappel-Orientation de la sous-étude pour l'évaluation) mesurent la mesure dans laquelle les résumés ou les traductions générés sont bien comparés aux sorties de référence. L'évaluation de la qualité de l'IA générative calcule les métriques rouge1, rouge2et rougeLSum .

  • Types de tâche:

    • Synthèse de texte
    • Génération de contenu
    • Réponse aux questions
    • Extraction d'entités
    • Récupération de la génération augmentée (RAG)
  • Paramètres :

    • Utiliser l'analyseur morphologique: si la valeur est true, les utilisateurs de l'analyseur morphologique Porter doivent supprimer les suffixes de mot. La valeur par défaut est false.
  • Seuils:

    • Limite inférieure: 0.8
    • Limite supérieure: 1.0
  • Fonctionnement: des scores plus élevés indiquent une similarité plus élevée entre le récapitulatif et la référence.

SARI

SARI (sortie système par rapport aux références et par rapport à la phrase d'entrée) compare la sortie de phrase prédite par rapport à la sortie de phrase de référence pour mesurer la qualité des mots que le modèle utilise pour générer des phrases.

  • Types de tâche:

    • Synthèse de texte
  • Seuils:

    • Limite inférieure: 0
    • Limite supérieure: 100
  • Fonctionnement: des scores plus élevés indiquent que des mots de meilleure qualité sont utilisés pour générer des phrases.

METEOR

METEOR (Metric for Evaluation of Translation with Explicit ORdering) mesure dans quelle mesure le texte généré avec les traductions automatiques correspond à la structure du texte à partir des traductions de référence. Elle est calculée avec la moyenne harmonique de précision et de rappel.

  • Types de tâche:

    • Synthèse de texte
    • Génération de contenu
  • Paramètres :

    • Alpha: contrôle les poids relatifs de précision et de rappel
    • Bêta: contrôle la forme de la pénalité en fonction de la fragmentation.
    • Gamma: pondération relative affectée à la pénalité de fragmentation.
  • Seuils:

    • Limite inférieure: 0
    • Limite supérieure: 1
  • Fonctionnement: des scores plus élevés indiquent que les traductions automatiques correspondent plus étroitement aux références.

Qualité du texte

La qualité du texte évalue la sortie d'un modèle par rapport aux jeux de données SuperGLUE en mesurant le score F1 , la précision et le rappel par rapport aux prévisions du modèle et à ses données de référence. Il est calculé en normalisant les chaînes d'entrée et en identifiant le nombre de jetons similaires qui existent entre les prévisions et les références.

  • Types de tâche:

    • Synthèse de texte
    • Génération de contenu
  • Seuils:

    • Limite inférieure: 0.8
    • Limite supérieure: 1
  • Fonctionnement: des scores plus élevés indiquent une similarité plus élevée entre les prévisions et les références.

BLEU

BLEU (Bilingue Evaluation Understudy) compare les phrases traduites des traductions automatiques aux phrases des traductions de référence pour mesurer la similarité entre les textes de référence et les prédictions.

  • Types de tâche:

    • Synthèse de texte
    • Génération de contenu
    • Réponse aux questions
    • Récupération de la génération augmentée (RAG)
  • Paramètres :

    • Ordre maximal: ordre maximal de n-gramme à utiliser lors de l'exécution du score BLEU
    • Lisse: indique s'il faut ou non appliquer une fonction de lissage pour supprimer le bruit des données
  • Seuils:

    • Limite inférieure: 0.8
    • Limite supérieure: 1
  • Fonctionnement: des scores plus élevés indiquent une plus grande similarité entre les textes de référence et les prévisions.

Similarité des phrases

La similarité des phrases capture les informations sémantiques des incorporations de phrases pour mesurer la similarité entre les textes. Il mesure la similarité de Jaccard et la similarité de Cosine.

  • Types de tâche: Synthèse du texte

  • Seuils:

    • Limite inférieure: 0.8
    • Limite supérieure: 1
  • Fonctionnement: des scores plus élevés indiquent que les textes sont plus similaires.

Sécurité des données

Vous pouvez utiliser les mesures de sécurité des données suivantes pour déterminer si les données d'entrée ou de sortie de votre modèle contiennent des informations nuisibles ou sensibles :

informations identifiant la personne
Les IIP mesurent si les données d'entrée ou de sortie de votre modèle contiennent des informations personnellement identifiables en utilisant le modèle d'extraction d'entités de Watson Natural Language Processing (traitement du langage naturel).
  • Types de tâche:
    • Synthèse de texte
    • Génération de contenu
    • Réponse aux questions
    • Récupération de la génération augmentée (RAG)
  • Seuils:
    • Limite supérieure: 0
  • Fonctionnement: des scores plus élevés indiquent qu'il existe un pourcentage plus élevé d'informations identifiant la personne dans les données d'entrée ou de sortie.
HAP
HAP mesure s'il existe un contenu toxique contenant de la haine, des abus ou des grossièretés dans les données d'entrée ou de sortie du modèle.
  • Types de tâche:
    • Synthèse de texte
    • Génération de contenu
    • Réponse aux questions
    • Récupération de la génération augmentée (RAG)
  • thésaurus
    • Limite supérieure: 0
  • Fonctionnement: des scores plus élevés indiquent qu'il existe un pourcentage plus élevé de contenu toxique dans l'entrée ou la sortie du modèle.

Lisibilité

La lisibilité détermine à quel point la sortie du modèle est difficile à lire en mesurant des caractéristiques telles que la longueur de la phrase et la complexité des mots.

  • Types de tâche:

    • Synthèse de texte
    • Génération de contenu
  • Seuils:

    • Limite inférieure: 60
  • Fonctionnement: des scores plus élevés indiquent que la sortie du modèle est plus facile à lire.

Correspondance exacte

La correspondance exacte compare les chaînes de prévision du modèle aux chaînes de référence pour mesurer la fréquence de correspondance des chaînes.

  • Types de tâche:

    • Réponse aux questions
    • Extraction d'entités
    • Récupération de la génération augmentée (RAG)
  • Paramètres :

    • Expressions régulières à ignorer: expressions régulières de caractères à ignorer lors du calcul des correspondances exactes.
    • Ignorer la casse: si la valeur est True, tout est mis en minuscules afin que les différences de casse soient ignorées.
    • Ignorer la ponctuation: si la valeur est True, supprime la ponctuation avant de comparer les chaînes.
    • Ignorer les nombres: si la valeur est True, supprime tous les chiffres avant de comparer les chaînes.
  • Seuils:

    • Limite inférieure: 0.8
    • Limite supérieure: 1
  • Fonctionnement: des scores plus élevés indiquent que les chaînes de prévision du modèle correspondent plus souvent aux chaînes de référence.

Métriques multi-classes/libellés

Les métriques à plusieurs libellés / classes mesurent les performances du modèle pour les prévisions à plusieurs libellés / classes.

  • Métriques:
    • Score micro-F1
    • Score macro-F1
    • Micro-Précision
    • Macro-Précision
    • Micro-Rappel
    • Macro-Rappel
  • Types de tâche: Extraction d'entité
  • Seuils:
    • Limite inférieure: 0.8
    • Limite supérieure: 1
  • Fonctionnement: des scores plus élevés indiquent que les prévisions sont plus précises.

Qualité de la réponse

Vous pouvez utiliser les mesures de qualité des réponses pour évaluer la qualité des réponses du modèle. Les mesures de la qualité des réponses sont calculées à l'aide de modèles LLM-as-a-judge.

Vous pouvez calculer les paramètres de qualité de réponse suivants :

Fidélité

La fidélité mesure le degré d'ancrage du résultat du modèle dans le contexte du modèle et fournit des attributions à partir du contexte pour montrer les phrases les plus importantes qui contribuent au résultat du modèle. Les attributions sont fournies lorsque la métrique est calculée avec des modèles affinés uniquement.

  • Types de tâches: Génération Augmentée de Récupération (RAG)
  • Seuils:
    • Limite inférieure : 0
    • Limite supérieure: 1
  • Comment cela fonctionne-t-il? Un score élevé indique que le résultat est plus ancré dans la réalité et moins halluciné.
Pertinence de la réponse

La pertinence de la réponse mesure le degré de pertinence de la réponse dans la sortie du modèle par rapport à la question posée dans l'entrée du modèle.

  • Types de tâches: Génération Augmentée de Récupération (RAG)
  • Seuils:
    • Limite inférieure : 0
    • Limite supérieure: 1
  • Comment cela fonctionne-t-il? Un score élevé indique que le modèle fournit des réponses pertinentes à la question.
Réponse similitude

La similarité des réponses mesure le degré de similarité de la réponse ou du texte généré avec la vérité de base ou la réponse de référence afin de déterminer la qualité des performances de votre modèle. La métrique de similarité des réponses n'est prise en charge que pour la configuration avec les modèles LLM-as-a-judge.

  • Types de tâches: Génération Augmentée de Récupération (RAG)
  • Seuils:
    • Limite inférieure : 0
    • Limite supérieure: 1
  • Comment cela fonctionne-t-il? Un score élevé indique que la réponse est plus proche de la sortie de référence.
Demandes ayant échoué

Les demandes infructueuses mesurent le ratio des questions auxquelles il est répondu sans succès par rapport au nombre total de questions. Watsonx.governance ne calcule pas la métrique des demandes infructueuses avec des modèles affinés.

  • Types de tâche:
    • Récupération de la génération augmentée (RAG)
    • Réponse aux questions
  • Seuils:
    • Limite inférieure : 0
    • Limite supérieure: 1
  • Comment cela fonctionne-t-il? Les scores les plus élevés indiquent que le modèle ne peut pas fournir de réponses à la question.

Analyse du contenu

Vous pouvez utiliser les mesures d'analyse de contenu suivantes pour évaluer les résultats de votre modèle par rapport aux données d'entrée ou au contexte du modèle :

Couverture

La couverture mesure la mesure dans laquelle la sortie du foundation model est générée à partir de l'entrée du modèle en calculant le pourcentage du texte de sortie qui se trouve également dans l'entrée.

  • Types de tâche:
    • Synthèse de texte
    • Récupération de la génération augmentée (RAG)
  • Seuils:
    • Limite inférieure: 0
    • Limite supérieure: 1
  • Comment cela fonctionne-t-il? Un score élevé indique qu'un pourcentage plus important de mots de sortie se trouve dans le texte d'entrée.
Densité

La densité mesure le degré d'extraction du résumé dans la sortie du foundation model par rapport à l'entrée du modèle en calculant la moyenne des fragments extractifs qui ressemblent étroitement à des extractions verbatim du texte original.

  • Types de tâche:
    • Synthèse de texte
    • Récupération de la génération augmentée (RAG)
  • Seuils: Limite inférieure : 0
  • Comment cela fonctionne-t-il? Les scores les plus bas indiquent que les résultats du modèle sont plus abstraits et qu'en moyenne, les fragments extraits ne ressemblent pas beaucoup aux extraits textuels du texte original.
Compression

La compression mesure la réduction du résumé par rapport au texte d'entrée. Il calcule le rapport entre le nombre de mots dans le texte original et le nombre de mots dans le résultat du foundation model.

  • Types de tâche: Synthèse du texte
  • Seuils: Limite inférieure : 0
  • Comment cela fonctionne-t-il? Un score élevé indique que le résumé est plus concis que le texte original.
Répétitivité

La répétitivité mesure le pourcentage de n-grammes qui se répètent dans le résultat du foundation model en calculant le nombre de n-grammes répétés et le nombre total de n-grammes dans le résultat du modèle.

  • Types de tâche: Synthèse du texte
  • Seuils: Limite inférieure : 0
Caractère abstrait

L'abstraction mesure le ratio de n-grammes dans le texte généré qui n'apparaissent pas dans le contenu source du foundation model.

  • Types de tâche:
    • Synthèse de texte
    • Récupération de la génération augmentée (RAG)
  • Seuils:
    • Limite inférieure: 0
    • Limite supérieure: 1
  • Comment cela fonctionne-t-il? Des scores élevés indiquent un niveau d'abstraction élevé dans le texte généré.

Qualité de la récupération

Vous pouvez utiliser les mesures de qualité de la recherche pour mesurer la qualité du classement des contextes pertinents par le système de recherche. Les mesures de la qualité de la recherche sont calculées avec des modèles LLM en tant que juge.

Vous pouvez calculer les mesures de qualité d'extraction suivantes :

Pertinence du contexte

La pertinence du contexte mesure le degré de pertinence du contexte que votre modèle extrait par rapport à la question spécifiée dans l'invite. Lorsqu'il existe plusieurs variables contextuelles, les scores de pertinence contextuelle sont générés lorsque la métrique est calculée avec des modèles affinés uniquement.

  • Types de tâches: Génération Augmentée de Récupération (RAG)
  • Seuils:
    • Limite inférieure : 0
    • Limite supérieure: 1
  • Comment cela fonctionne-t-il? Un score élevé indique que le contexte est plus pertinent par rapport à la question posée dans l'invite.
Précision de la récupération

La précision d'extraction mesure la quantité de contextes pertinents par rapport au total des contextes extraits.

  • Types de tâches: Retrieval Augment Generation (RAG)
  • Seuils:
    • Limite inférieure : 0
    • Limite supérieure: 1
  • Comment cela fonctionne-t-il? Une valeur de 1 indique que tous les contextes retrouvés sont pertinents. Une valeur de 0 indique qu'aucun des contextes retrouvés n'est pertinent. Si la tendance est à la hausse, les contextes retrouvés sont pertinents par rapport à la question. Si la tendance est à la baisse, les contextes retrouvés ne sont pas pertinents pour la question.
Précision moyenne

La précision moyenne évalue si tous les contextes pertinents sont mieux classés ou non en calculant la moyenne des scores de précision des contextes pertinents.

  • Types de tâches: Retrieval Augment Generation (RAG)
  • Seuils:
    • Limite inférieure : 0
    • Limite supérieure: 1
  • Comment cela fonctionne-t-il? Une valeur de 1 indique que tous les contextes pertinents sont mieux classés. Une valeur de 0 indique qu'aucun des contextes retrouvés n'est pertinent. Si la tendance est à la hausse, les contextes pertinents sont mieux classés. Si la tendance est à la baisse, les contextes concernés ne sont pas moins bien classés.
Rang réciproque

Le rang réciproque est le rang réciproque du premier contexte pertinent.

  • Types de tâches: Retrieval Augment Generation (RAG)
  • Seuils:
    • Limite inférieure : 0
    • Limite supérieure: 1
  • Comment cela fonctionne-t-il? Une valeur de 1 indique que le premier contexte pertinent se trouve en première position. La valeur 0 indique qu'aucun des contextes pertinents n'est récupéré. Si la tendance est à la hausse, le premier contexte pertinent est mieux classé. Si la tendance est à la baisse, le premier contexte pertinent est classé plus bas.
Taux de hits

Le taux de réussite mesure s'il y a au moins un contexte pertinent parmi les contextes retrouvés.

  • Types de tâches: Retrieval Augment Generation (RAG)
  • Seuils:
    • Limite inférieure : 0
    • Limite supérieure: 1
  • Comment cela fonctionne-t-il? Une valeur de 1 indique qu'il existe au moins un contexte pertinent. Une valeur de 0 indique qu'il n'y a pas de contexte pertinent dans les contextes récupérés. Si le score tend à augmenter, au moins un contexte pertinent se trouve dans le contexte extrait. Si le score est en baisse, aucun contexte pertinent n'est récupéré.
Gain cumulé actualisé normalisé

Le gain cumulatif actualisé normalisé (NDCG) mesure la qualité du classement des contextes retrouvés.

  • Types de tâches: Retrieval Augment Generation (RAG)
  • Seuils:
    • Limite inférieure : 0
    • Limite supérieure: 1
  • Comment cela fonctionne-t-il? Une valeur de 1 indique que les contextes retrouvés sont classés dans le bon ordre. Si la tendance est à la hausse, le classement des contextes retrouvés est correct. Si la tendance est à la baisse, le classement des contextes retrouvés est incorrect.

Rubrique parent: Configuration des évaluations de modèle

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus