Vous pouvez utiliser les évaluations de la qualité de l'IA générative watsonx.governance pour mesurer le degré d'efficacité de votre foundation model dans l'exécution des tâches.
Lorsque vous évaluez des modèles d'invite, vous pouvez passer en revue un récapitulatif des résultats d'évaluation de la qualité de l'IA générative pour les types de tâche suivants:
- Synthèse de texte
- Génération de contenu
- Extraction d'entités
- Réponse aux questions
- Récupération de la génération augmentée (RAG)
Le récapitulatif affiche les scores et les violations pour les indicateurs qui sont calculés avec les paramètres par défaut.
Pour configurer des évaluations de la qualité de l'IA générative avec vos propres paramètres, vous pouvez définir une taille d'échantillon minimale et des valeurs de seuil pour chaque métrique, comme illustré dans l'exemple suivant:
La taille d'échantillon minimale indique le nombre minimal d'enregistrements de transaction de modèle que vous souhaitez évaluer et les valeurs de seuil créent des alertes lorsque vos scores d'indicateur ne respectent pas vos seuils. Les scores des indicateurs doivent être supérieurs aux valeurs de seuil inférieures pour éviter les violations. Des valeurs de métrique plus élevées indiquent de meilleurs scores.
Vous pouvez également configurer les paramètres pour calculer les métriques avec les modèles LLM-as-a-judge. Les modèles LLM-as-a-judge sont des modèles LLM que vous pouvez utiliser pour évaluer la performance d'autres modèles.
Pour calculer les métriques avec les modèles LLM-as-a-judge, vous devez sélectionner Gérer pour ajouter un système 'generative_ai_evaluator
lorsque vous configurez vos paramètres d'évaluation.
Vous pouvez sélectionner un évaluateur pour calculer la qualité des réponses et la qualité de la recherche.
Vous pouvez également utiliser un carnet pour créer un évaluateur lorsque vous configurez vos modèles d'invite et que vous examinez les résultats de l'évaluation pour la tâche RAG dans watsonx.governance
Métriques de qualité de l'IA générative prises en charge
Les métriques de qualité de l'IA générative suivantes sont prises en charge par watsonx.governance:
ROUGE
Les métriques ROUGE (Rappel-Orientation de la sous-étude pour l'évaluation) mesurent la mesure dans laquelle les résumés ou les traductions générés sont bien comparés aux sorties de référence. L'évaluation de la qualité de l'IA générative calcule les métriques rouge1, rouge2et rougeLSum .
Types de tâche:
- Synthèse de texte
- Génération de contenu
- Réponse aux questions
- Extraction d'entités
- Récupération de la génération augmentée (RAG)
Paramètres :
- Utiliser l'analyseur morphologique: si la valeur est true, les utilisateurs de l'analyseur morphologique Porter doivent supprimer les suffixes de mot. La valeur par défaut est false.
Seuils:
- Limite inférieure: 0.8
- Limite supérieure: 1.0
Fonctionnement: des scores plus élevés indiquent une similarité plus élevée entre le récapitulatif et la référence.
SARI
SARI (sortie système par rapport aux références et par rapport à la phrase d'entrée) compare la sortie de phrase prédite par rapport à la sortie de phrase de référence pour mesurer la qualité des mots que le modèle utilise pour générer des phrases.
Types de tâche:
- Synthèse de texte
Seuils:
- Limite inférieure: 0
- Limite supérieure: 100
Fonctionnement: des scores plus élevés indiquent que des mots de meilleure qualité sont utilisés pour générer des phrases.
METEOR
METEOR (Metric for Evaluation of Translation with Explicit ORdering) mesure dans quelle mesure le texte généré avec les traductions automatiques correspond à la structure du texte à partir des traductions de référence. Elle est calculée avec la moyenne harmonique de précision et de rappel.
Types de tâche:
- Synthèse de texte
- Génération de contenu
Paramètres :
- Alpha: contrôle les poids relatifs de précision et de rappel
- Bêta: contrôle la forme de la pénalité en fonction de la fragmentation.
- Gamma: pondération relative affectée à la pénalité de fragmentation.
Seuils:
- Limite inférieure: 0
- Limite supérieure: 1
Fonctionnement: des scores plus élevés indiquent que les traductions automatiques correspondent plus étroitement aux références.
Qualité du texte
La qualité du texte évalue la sortie d'un modèle par rapport aux jeux de données SuperGLUE en mesurant le score F1 , la précision et le rappel par rapport aux prévisions du modèle et à ses données de référence. Il est calculé en normalisant les chaînes d'entrée et en identifiant le nombre de jetons similaires qui existent entre les prévisions et les références.
Types de tâche:
- Synthèse de texte
- Génération de contenu
Seuils:
- Limite inférieure: 0.8
- Limite supérieure: 1
Fonctionnement: des scores plus élevés indiquent une similarité plus élevée entre les prévisions et les références.
BLEU
BLEU (Bilingue Evaluation Understudy) compare les phrases traduites des traductions automatiques aux phrases des traductions de référence pour mesurer la similarité entre les textes de référence et les prédictions.
Types de tâche:
- Synthèse de texte
- Génération de contenu
- Réponse aux questions
- Récupération de la génération augmentée (RAG)
Paramètres :
- Ordre maximal: ordre maximal de n-gramme à utiliser lors de l'exécution du score BLEU
- Lisse: indique s'il faut ou non appliquer une fonction de lissage pour supprimer le bruit des données
Seuils:
- Limite inférieure: 0.8
- Limite supérieure: 1
Fonctionnement: des scores plus élevés indiquent une plus grande similarité entre les textes de référence et les prévisions.
Similarité des phrases
La similarité des phrases capture les informations sémantiques des incorporations de phrases pour mesurer la similarité entre les textes. Il mesure la similarité de Jaccard et la similarité de Cosine.
Types de tâche: Synthèse du texte
Seuils:
- Limite inférieure: 0.8
- Limite supérieure: 1
Fonctionnement: des scores plus élevés indiquent que les textes sont plus similaires.
Sécurité des données
Vous pouvez utiliser les mesures de sécurité des données suivantes pour déterminer si les données d'entrée ou de sortie de votre modèle contiennent des informations nuisibles ou sensibles :
- informations identifiant la personne
- Les IIP mesurent si les données d'entrée ou de sortie de votre modèle contiennent des informations personnellement identifiables en utilisant le modèle d'extraction d'entités de Watson Natural Language Processing (traitement du langage naturel).
- Types de tâche:
- Synthèse de texte
- Génération de contenu
- Réponse aux questions
- Récupération de la génération augmentée (RAG)
- Seuils:
- Limite supérieure: 0
- Fonctionnement: des scores plus élevés indiquent qu'il existe un pourcentage plus élevé d'informations identifiant la personne dans les données d'entrée ou de sortie.
- Types de tâche:
- HAP
- HAP mesure s'il existe un contenu toxique contenant de la haine, des abus ou des grossièretés dans les données d'entrée ou de sortie du modèle.
- Types de tâche:
- Synthèse de texte
- Génération de contenu
- Réponse aux questions
- Récupération de la génération augmentée (RAG)
- thésaurus
- Limite supérieure: 0
- Fonctionnement: des scores plus élevés indiquent qu'il existe un pourcentage plus élevé de contenu toxique dans l'entrée ou la sortie du modèle.
- Types de tâche:
Lisibilité
La lisibilité détermine à quel point la sortie du modèle est difficile à lire en mesurant des caractéristiques telles que la longueur de la phrase et la complexité des mots.
Types de tâche:
- Synthèse de texte
- Génération de contenu
Seuils:
- Limite inférieure: 60
Fonctionnement: des scores plus élevés indiquent que la sortie du modèle est plus facile à lire.
Correspondance exacte
La correspondance exacte compare les chaînes de prévision du modèle aux chaînes de référence pour mesurer la fréquence de correspondance des chaînes.
Types de tâche:
- Réponse aux questions
- Extraction d'entités
- Récupération de la génération augmentée (RAG)
Paramètres :
- Expressions régulières à ignorer: expressions régulières de caractères à ignorer lors du calcul des correspondances exactes.
- Ignorer la casse: si la valeur est True, tout est mis en minuscules afin que les différences de casse soient ignorées.
- Ignorer la ponctuation: si la valeur est True, supprime la ponctuation avant de comparer les chaînes.
- Ignorer les nombres: si la valeur est True, supprime tous les chiffres avant de comparer les chaînes.
Seuils:
- Limite inférieure: 0.8
- Limite supérieure: 1
Fonctionnement: des scores plus élevés indiquent que les chaînes de prévision du modèle correspondent plus souvent aux chaînes de référence.
Métriques multi-classes/libellés
Les métriques à plusieurs libellés / classes mesurent les performances du modèle pour les prévisions à plusieurs libellés / classes.
- Métriques:
- Score micro-F1
- Score macro-F1
- Micro-Précision
- Macro-Précision
- Micro-Rappel
- Macro-Rappel
- Types de tâche: Extraction d'entité
- Seuils:
- Limite inférieure: 0.8
- Limite supérieure: 1
- Fonctionnement: des scores plus élevés indiquent que les prévisions sont plus précises.
Qualité de la réponse
Vous pouvez utiliser les mesures de qualité des réponses pour évaluer la qualité des réponses du modèle. Les mesures de la qualité des réponses sont calculées à l'aide de modèles LLM-as-a-judge.
Vous pouvez calculer les paramètres de qualité de réponse suivants :
- Fidélité
La fidélité mesure le degré d'ancrage du résultat du modèle dans le contexte du modèle et fournit des attributions à partir du contexte pour montrer les phrases les plus importantes qui contribuent au résultat du modèle. Les attributions sont fournies lorsque la métrique est calculée avec des modèles affinés uniquement.
- Types de tâches: Génération Augmentée de Récupération (RAG)
- Seuils:
- Limite inférieure : 0
- Limite supérieure: 1
- Comment cela fonctionne-t-il? Un score élevé indique que le résultat est plus ancré dans la réalité et moins halluciné.
- Pertinence de la réponse
La pertinence de la réponse mesure le degré de pertinence de la réponse dans la sortie du modèle par rapport à la question posée dans l'entrée du modèle.
- Types de tâches: Génération Augmentée de Récupération (RAG)
- Seuils:
- Limite inférieure : 0
- Limite supérieure: 1
- Comment cela fonctionne-t-il? Un score élevé indique que le modèle fournit des réponses pertinentes à la question.
- Réponse similitude
La similarité des réponses mesure le degré de similarité de la réponse ou du texte généré avec la vérité de base ou la réponse de référence afin de déterminer la qualité des performances de votre modèle. La métrique de similarité des réponses n'est prise en charge que pour la configuration avec les modèles LLM-as-a-judge.
- Types de tâches: Génération Augmentée de Récupération (RAG)
- Seuils:
- Limite inférieure : 0
- Limite supérieure: 1
- Comment cela fonctionne-t-il? Un score élevé indique que la réponse est plus proche de la sortie de référence.
- Demandes ayant échoué
Les demandes infructueuses mesurent le ratio des questions auxquelles il est répondu sans succès par rapport au nombre total de questions. Watsonx.governance ne calcule pas la métrique des demandes infructueuses avec des modèles affinés.
- Types de tâche:
- Récupération de la génération augmentée (RAG)
- Réponse aux questions
- Seuils:
- Limite inférieure : 0
- Limite supérieure: 1
- Comment cela fonctionne-t-il? Les scores les plus élevés indiquent que le modèle ne peut pas fournir de réponses à la question.
- Types de tâche:
Analyse du contenu
Vous pouvez utiliser les mesures d'analyse de contenu suivantes pour évaluer les résultats de votre modèle par rapport aux données d'entrée ou au contexte du modèle :
- Couverture
La couverture mesure la mesure dans laquelle la sortie du foundation model est générée à partir de l'entrée du modèle en calculant le pourcentage du texte de sortie qui se trouve également dans l'entrée.
- Types de tâche:
- Synthèse de texte
- Récupération de la génération augmentée (RAG)
- Seuils:
- Limite inférieure: 0
- Limite supérieure: 1
- Comment cela fonctionne-t-il? Un score élevé indique qu'un pourcentage plus important de mots de sortie se trouve dans le texte d'entrée.
- Types de tâche:
- Densité
La densité mesure le degré d'extraction du résumé dans la sortie du foundation model par rapport à l'entrée du modèle en calculant la moyenne des fragments extractifs qui ressemblent étroitement à des extractions verbatim du texte original.
- Types de tâche:
- Synthèse de texte
- Récupération de la génération augmentée (RAG)
- Seuils: Limite inférieure : 0
- Comment cela fonctionne-t-il? Les scores les plus bas indiquent que les résultats du modèle sont plus abstraits et qu'en moyenne, les fragments extraits ne ressemblent pas beaucoup aux extraits textuels du texte original.
- Types de tâche:
- Compression
La compression mesure la réduction du résumé par rapport au texte d'entrée. Il calcule le rapport entre le nombre de mots dans le texte original et le nombre de mots dans le résultat du foundation model.
- Types de tâche: Synthèse du texte
- Seuils: Limite inférieure : 0
- Comment cela fonctionne-t-il? Un score élevé indique que le résumé est plus concis que le texte original.
- Répétitivité
La répétitivité mesure le pourcentage de n-grammes qui se répètent dans le résultat du foundation model en calculant le nombre de n-grammes répétés et le nombre total de n-grammes dans le résultat du modèle.
- Types de tâche: Synthèse du texte
- Seuils: Limite inférieure : 0
- Caractère abstrait
L'abstraction mesure le ratio de n-grammes dans le texte généré qui n'apparaissent pas dans le contenu source du foundation model.
- Types de tâche:
- Synthèse de texte
- Récupération de la génération augmentée (RAG)
- Seuils:
- Limite inférieure: 0
- Limite supérieure: 1
- Comment cela fonctionne-t-il? Des scores élevés indiquent un niveau d'abstraction élevé dans le texte généré.
- Types de tâche:
Qualité de la récupération
Vous pouvez utiliser les mesures de qualité de la recherche pour mesurer la qualité du classement des contextes pertinents par le système de recherche. Les mesures de la qualité de la recherche sont calculées avec des modèles LLM en tant que juge.
Vous pouvez calculer les mesures de qualité d'extraction suivantes :
- Pertinence du contexte
La pertinence du contexte mesure le degré de pertinence du contexte que votre modèle extrait par rapport à la question spécifiée dans l'invite. Lorsqu'il existe plusieurs variables contextuelles, les scores de pertinence contextuelle sont générés lorsque la métrique est calculée avec des modèles affinés uniquement.
- Types de tâches: Génération Augmentée de Récupération (RAG)
- Seuils:
- Limite inférieure : 0
- Limite supérieure: 1
- Comment cela fonctionne-t-il? Un score élevé indique que le contexte est plus pertinent par rapport à la question posée dans l'invite.
- Précision de la récupération
La précision d'extraction mesure la quantité de contextes pertinents par rapport au total des contextes extraits.
- Types de tâches: Retrieval Augment Generation (RAG)
- Seuils:
- Limite inférieure : 0
- Limite supérieure: 1
- Comment cela fonctionne-t-il? Une valeur de 1 indique que tous les contextes retrouvés sont pertinents. Une valeur de 0 indique qu'aucun des contextes retrouvés n'est pertinent. Si la tendance est à la hausse, les contextes retrouvés sont pertinents par rapport à la question. Si la tendance est à la baisse, les contextes retrouvés ne sont pas pertinents pour la question.
- Précision moyenne
La précision moyenne évalue si tous les contextes pertinents sont mieux classés ou non en calculant la moyenne des scores de précision des contextes pertinents.
- Types de tâches: Retrieval Augment Generation (RAG)
- Seuils:
- Limite inférieure : 0
- Limite supérieure: 1
- Comment cela fonctionne-t-il? Une valeur de 1 indique que tous les contextes pertinents sont mieux classés. Une valeur de 0 indique qu'aucun des contextes retrouvés n'est pertinent. Si la tendance est à la hausse, les contextes pertinents sont mieux classés. Si la tendance est à la baisse, les contextes concernés ne sont pas moins bien classés.
- Rang réciproque
Le rang réciproque est le rang réciproque du premier contexte pertinent.
- Types de tâches: Retrieval Augment Generation (RAG)
- Seuils:
- Limite inférieure : 0
- Limite supérieure: 1
- Comment cela fonctionne-t-il? Une valeur de 1 indique que le premier contexte pertinent se trouve en première position. La valeur 0 indique qu'aucun des contextes pertinents n'est récupéré. Si la tendance est à la hausse, le premier contexte pertinent est mieux classé. Si la tendance est à la baisse, le premier contexte pertinent est classé plus bas.
- Taux de hits
Le taux de réussite mesure s'il y a au moins un contexte pertinent parmi les contextes retrouvés.
- Types de tâches: Retrieval Augment Generation (RAG)
- Seuils:
- Limite inférieure : 0
- Limite supérieure: 1
- Comment cela fonctionne-t-il? Une valeur de 1 indique qu'il existe au moins un contexte pertinent. Une valeur de 0 indique qu'il n'y a pas de contexte pertinent dans les contextes récupérés. Si le score tend à augmenter, au moins un contexte pertinent se trouve dans le contexte extrait. Si le score est en baisse, aucun contexte pertinent n'est récupéré.
- Gain cumulé actualisé normalisé
Le gain cumulatif actualisé normalisé (NDCG) mesure la qualité du classement des contextes retrouvés.
- Types de tâches: Retrieval Augment Generation (RAG)
- Seuils:
- Limite inférieure : 0
- Limite supérieure: 1
- Comment cela fonctionne-t-il? Une valeur de 1 indique que les contextes retrouvés sont classés dans le bon ordre. Si la tendance est à la hausse, le classement des contextes retrouvés est correct. Si la tendance est à la baisse, le classement des contextes retrouvés est incorrect.
Rubrique parent: Configuration des évaluations de modèle