Critères de référence du modèle de la fondation
Pour trouver le modèle de fondation qui répond à vos besoins, comparez les performances de différents modèles de fondation à l'aide de critères de référence pertinents.
Les tests de référence des modèles de base évaluent la capacité d'un modèle de base à générer des résultats précis ou attendus pour des tâches spécifiques. Les critères d'évaluation couvrent diverses capacités, notamment la capacité du modèle à répondre à des questions sur des sujets allant des mathématiques élémentaires aux questions juridiques et financières, ou la capacité du modèle à résumer un texte, à générer un texte dans d'autres langues, etc.
Les repères sont composés d'ensembles de données avec des entrées et des sorties attendues et des mesures qui quantifient la qualité des réponses d'un modèle en mesurant des facteurs tels que la précision, la nocivité et le biais.
Recherchez des points de référence qui testent le modèle par rapport aux tâches spécifiques qui vous intéressent. L'examen des mesures peut vous aider à évaluer les capacités d'un modèle de fondation avant de l'essayer.
Les modèles de référence de base suivants sont disponibles en watsonx.ai:
- Critères de compréhension de la langue anglaise d'IBM
- Benchmark de compréhension de la langue anglaise en source ouverte
- Benchmark de compréhension des langues multilingues en source ouverte
- Critères de référence pour les modèles de fondations
Recherche des scores de référence du modèle
Pour accéder aux benchmarks du modèle de la fondation, procédez comme suit :
Dans le watsonx.ai Prompt Lab en mode conversation, cliquez sur le champ Modèle, puis choisissez Afficher tous les modèles de fondation.
Cliquez sur l'onglet Repères du modèle pour voir les repères disponibles.
Cliquez sur l'icône Filtre
pour modifier des facteurs tels que les modèles ou les types de référence à afficher dans la vue comparative.
Les notes vont de 0 à 100. Les scores les plus élevés sont les meilleurs.
Réaliser vos propres évaluations de référence de modèles de fondation
La vue " Model benchmarks" de watsonx.ai montre les résultats des tests effectués par IBM. IBM utilise un cadre d'évaluation de modèle de base qui repose principalement sur la bibliothèque Unitxt. Unitxt est un projet open source développé par l' IBM, qui vise à répondre aux besoins uniques d'évaluation des modèles de fondation dans les cas d'utilisation en entreprise. IBM le cadre d'évaluation des modèles de utilise également un autre cadre d'évaluation open source de premier plan, appelé LM evaluation harness. Ces deux outils open source peuvent être utilisés pour réaliser des évaluations indépendantes des modèles de fondation.
Pour en savoir plus, parcourez cet exemple de carnet de notes, qui évalue le modèle granite-13b-instruct-v2 par rapport à des critères de référence standard en utilisant le harnais d'évaluation LM. Voir Utiliser lm-evaluation-harness et ses propres données de benchmarking avec les modèles de fondation watsonx.ai.
Pour plus d'informations, voir les ressources suivantes :
Critères de compréhension de la langue anglaise d'IBM
Les critères de compréhension de la langue anglaise d'IBM sont des critères publiés par IBM sur la base de tests effectués par IBM Research pour évaluer la capacité de chaque modèle à effectuer des tâches courantes.
Le tableau suivant décrit les ensembles de données, les objectifs et les mesures des critères de référence IBM
Nom de l'indice de référence | Objectif | Description de l'ensemble de données | Métrique |
---|---|---|---|
Récapitulation | Condense de grandes quantités de texte en quelques phrases qui en saisissent l'essentiel. Utile pour capturer les idées, décisions ou actions clés d'une longue transcription de réunion, par exemple. | Demande aux modèles de résumer un texte et compare les résumés générés par l'IA aux résumés générés par l'homme à partir de trois ensembles de données : - Dialogues informatiques - Dialogues d'assistance technique " - Blogs sur les médias sociaux |
Score moyen de ROUGE-L |
Génération augmentée par récupération (RAG) | Technique dans laquelle une invite de modèle de base est complétée par des connaissances provenant de sources externes. Lors de l'étape de recherche, les documents pertinents provenant d'une source externe sont identifiés à partir de la requête de l'utilisateur. Lors de l'étape de génération, des parties de ces documents sont incluses dans l'invite afin de générer une réponse fondée sur des informations pertinentes. | Soumet des questions basées sur des informations provenant de documents dans 3 ensembles de données distincts | Score moyen de ROUGE-L |
Classification | Identifie les données comme appartenant à des classes d'information distinctes. Utile pour classer les informations, telles que les commentaires des clients, afin de les gérer ou d'agir plus efficacement. | Cinq ensembles de données au contenu varié, comprenant un contenu contractuel à classer et un contenu à évaluer en termes de sentiment, d'émotion et de ton. | Score F1 moyen |
Génération | Génère du langage en réponse aux instructions et aux signaux fournis dans les invites du modèle de base. | Un ensemble de données avec des courriels de marketing | Score de SacreBLEU |
Extraction d'ensemble de règles | Trouve des termes clés ou des mentions dans les données en se basant sur la signification sémantique des mots plutôt que sur de simples correspondances de texte. | Compare les mentions d'entités trouvées par le modèle aux mentions d'entités trouvées par un humain. Les ensembles de données comprennent un ensemble de données avec 12 entités nommées et un ensemble de données avec trois types de sentiments. | Score F1 moyen |
Critères d'évaluation de la compréhension de la langue anglaise en source ouverte pour les modèles de fondation
Les benchmarks de compréhension de l'anglais en open source montrent les résultats des tests effectués par l' IBM Research et qui utilisent principalement des ensembles de données en anglais publiés par des tiers, tels que des institutions universitaires ou des équipes de recherche industrielles.
Le tableau suivant décrit les ensembles de données, les objectifs et les mesures pour les critères de référence relatifs à la compréhension de la langue anglaise.
Nom de l'indice de référence | Objectif | Description de l'ensemble de données | Métrique | Rubriques connexes |
---|---|---|---|---|
20 Groupes de discussion | Évalue la capacité d'un modèle à classer un texte. | Une version de l'ensemble de données 20 newsgroups de scikit-learn avec près de 20 000 documents de newsgroups regroupés en 20 catégories, dont les ordinateurs, les automobiles, les sports, la médecine, l'espace et la politique. | Score F1 | • Carte de données sur Hugging Face |
Arena-Hard-Auto | Évalue la capacité d'un modèle à répondre à des questions. | 500 invites d'utilisateurs à partir de données en direct soumises à la plateforme de crowdsourcing Chatbot Arena. | L'indicateur montre le taux de réussite pour les réponses types. | • Fiche de données sur Hugging Face • Document de recherche |
AttaQ 500 | Évalue si un modèle est susceptible de présenter des vulnérabilités en matière de sécurité. | Questions conçues pour provoquer des réactions préjudiciables dans les catégories suivantes : tromperie, discrimination, informations préjudiciables, abus de substances, contenu sexuel, informations personnelles identifiables (IPI) et violence. | La métrique indique la sécurité du modèle. | • Fiche de données sur Hugging Face • Document de recherche |
BBQ (repère de biais pour la réponse aux questions) |
Évalue la capacité d'un modèle à reconnaître des énoncés contenant des opinions biaisées sur des personnes appartenant à ce qui est considéré comme des classes protégées par les anglophones des États-Unis. | Des séries de questions qui mettent en évidence les préjugés. | L'indicateur mesure la précision des réponses. | • Fiche de données sur Hugging Face • Document de recherche |
BillSum | Évalue la capacité d'un modèle à résumer un texte. | Ensemble de données résumant les projets de loi du Congrès américain et de l'État de Californie. | ROUGE-L pour le résumé généré. | • Fiche de données sur Hugging Face • Document de recherche |
Base de données des plaintes du CFPB | Évaluer la capacité d'un modèle à classer un texte. | Consumer Financial Protection Bureau (CFPB) : plaintes de clients réels concernant des rapports de crédit, des prêts étudiants, des transferts d'argent et d'autres services financiers. | Score F1 | - Carte du jeu de données sur Unitxt.ai |
CLAPnq | Évaluer la capacité d'un modèle à utiliser des informations tirées de passages pour répondre à des questions. | Paires de questions-réponses de longue durée. | Score F1 | • Fiche de données sur Hugging Face • Document de recherche |
FinQA | Évalue la capacité d'un modèle à répondre à des questions financières et à effectuer des raisonnements numériques. | Plus de 8 000 paires de questions sur la finance rédigées par des experts financiers. | L'indicateur mesure la précision des réponses. | • Fiche de données sur Hugging Face • Document de recherche |
FLORES-101 | Évalue la capacité d'un modèle à traduire un texte. | Articles de Wikipédia en anglais qui ont été traduits par des traducteurs humains professionnels en 101 langues | Score de SacreBLEU | • Fiche de données sur Hugging Face • Document de recherche |
HellaSwag | Évalue la capacité d'un modèle à réaliser des scénarios de bon sens. | Questions à choix multiples provenant d'ActivityNet et de WikiHow. | L'indicateur mesure la précision des réponses. | • Fiche de données sur Hugging Face • Document de recherche |
LegalBench | Évalue la capacité d'un modèle à raisonner sur des scénarios juridiques. | 162 tâches couvrant différents textes, structures et domaines juridiques. | Score F1 | • Fiche de données sur Hugging Face • Document de recherche |
MMLU-Pro | Évaluer la capacité d'un modèle à comprendre des tâches difficiles. | Une version plus difficile de l'ensemble de données Massive Multitask Language Understanding (MMLU) qui comporte davantage de questions axées sur le raisonnement et qui augmente le nombre de choix de réponses de 4 à 10 options. | L'indicateur mesure la précision des réponses. | • Fiche de données sur Hugging Face • Document de recherche |
OpenBookQA | Évaluer la capacité d'un modèle à utiliser un raisonnement en plusieurs étapes et à comprendre un texte riche pour répondre à des questions à choix multiples. | Simule un format d'examen à livre ouvert en fournissant des passages de soutien et des paires de questions-réponses à choix multiples. | L'indicateur mesure la précision des réponses. | • Fiche de données sur Hugging Face • Document de recherche |
TLDR | Évalue la capacité d'un modèle à résumer un texte. | Plus de 3 M posts prétraités de Reddit avec une longueur moyenne de 270 mots pour le contenu et 28 mots pour le résumé. | ROUGE-L pour le résumé généré. | • Fiche de données sur Hugging Face • Document de recherche |
Universel NER | Évalue la capacité d'un modèle à reconnaître les entités nommées. | Comprend 19 ensembles de données provenant de différents domaines, y compris les actualités et les médias sociaux. Les ensembles de données comprennent des annotations d'entités nommées et couvrent 13 langues différentes. | Score F1 | • Carte de données sur Hugging Face |
Critères d'évaluation de la compréhension des langues multilingues en source ouverte pour les modèles de fondation
Les tests de compréhension du langage multilingue open source montrent les résultats des tests effectués par l' IBM Research et qui utilisent des ensembles de données multilingues publiés par des tiers, tels que des institutions universitaires ou des équipes de recherche industrielles.
Le tableau suivant décrit les ensembles de données, les objectifs, les mesures et les langues cibles pour les tests de référence multilingues.
Nom de l'indice de référence | Objectif | Description de l'ensemble de données | Métrique | Langues | Rubriques connexes |
---|---|---|---|---|---|
Anglais de base | Évalue si un modèle peut traduire des phrases anglaises dans les langues suivantes : Français, allemand, espagnol, portugais, japonais et coréen. | 850 mots clés en anglais et leurs traductions. | La métrique montre le score de confinement des chaînes, qui mesure la distance entre les mots ou les caractères de la phrase cible et de la traduction de référence. | L'ensemble de données est disponible en anglais, français, allemand, espagnol, portugais, japonais et coréen. Disponible dans watsonx.ai pour les modèles qui supportent le coréen. | Liste de mots de l'anglais de base d'Ogden |
Belebele | Évalue la capacité de lecture-compréhension et de réponse aux questions multilingues d'un modèle. | Questions, passages connexes et réponses à choix multiples en 122 langues. | L'indicateur mesure la précision des réponses. | Disponible dans watsonx.ai pour les modèles prenant en charge l'allemand, l'arabe, le coréen, l'espagnol, le français, le japonais et le portugais. | Carte de données sur Hugging Face |
MASSIVE | Évalue la capacité d'un modèle à classer des textes multilingues. | Plus d'un million d'énoncés provenant d'interactions avec l'assistant vocal d'Amazon, localisés en 52 langues et annotés avec des informations sur l'intention et le type de créneau. | Score F1 | Disponible dans watsonx.ai pour les modèles prenant en charge l'allemand, l'arabe, le coréen, l'espagnol, le français, le japonais et le portugais. | Carte de données sur Hugging Face |
MASSIVE avec des invites en anglais | Évalue la capacité d'un modèle à classer des textes multilingues avec des étiquettes en anglais. | Plus d'un million d'énoncés provenant d'interactions avec l'assistant vocal d'Amazon, localisés en 52 langues et annotés avec des informations sur l'intention et le type de créneau. | Score F1 | Disponible dans watsonx.ai pour les modèles qui prennent en charge l'arabe et le coréen. | Carte de données sur Hugging Face |
MKQA | Évalue la capacité d'un modèle à répondre à des questions en plusieurs langues. | Comprend 10 000 paires de questions-réponses pour chacune des 26 langues (260 000 paires au total). | Score F1 | Disponible dans watsonx.ai pour les modèles prenant en charge l'allemand, l'arabe, le coréen, l'espagnol, le français, le japonais et le portugais. | Carte de données sur Hugging Face |
MLSUM | Évalue la capacité d'un modèle à résumer un texte multilingue. | Plus de 1.5 million de paires d'articles et de résumés provenant de journaux en ligne en 5 langues (français, allemand, espagnol, russe, turc) et de journaux anglais tels que CNN et Daily Mail | ROUGE-L pour le résumé généré. | Disponible dans watsonx.ai pour les modèles qui prennent en charge le français et l'allemand. | Carte de données sur Hugging Face |
XGLUE.qg | Évalue la capacité d'un modèle à comprendre un texte multilingue et à générer des questions pertinentes sur le texte. | 11 tâches couvrant 19 langues | ROUGE-L pour la question générée. | Disponible dans watsonx.ai pour les modèles qui prennent en charge le français, l'allemand, le portugais et l'espagnol. | Carte de données sur Hugging Face |
XGLUE.wpr | Évalue la capacité d'un modèle à extraire et à classer des textes multilingues. | 11 tâches couvrant 19 langues. | Gain cumulatif actualisé normalisé (NDCG) pour la recherche d'informations et le classement. | Disponible dans watsonx.ai pour les modèles qui prennent en charge le français, l'allemand, le portugais et l'espagnol. | Carte de données sur Hugging Face |
XLSum | Évalue la capacité d'un modèle à résumer un texte multilingue. | 1. 1.35 M de résumés professionnellement annotés d'articles d'actualité de la BBC en 44 langues. | ROUGE-L pour le résumé généré. | Disponible dans watsonx.ai pour les modèles qui prennent en charge l'arabe, le français, le japonais, le coréen, le portugais et l'espagnol. | Carte de données sur Hugging Face |
XMMLU | Évalue la capacité du modèle à répondre à des questions multilingues sur les mathématiques élémentaires, l'histoire des États-Unis, l'informatique, le droit, etc. | Traductions de l'ensemble de données anglaises Massive Multitask Language Understanding (MMLU), qui consiste en des questions à choix multiples de connaissances générales. | L'indicateur mesure la précision des réponses. | Disponible dans watsonx.ai pour les modèles qui prennent en charge l'arabe, le français et le coréen. | |
XNLI | Évalue la capacité d'un modèle à classer des phrases multilingues. | Sous-ensemble de données provenant de l'ensemble de données MNLI (Multi-Genre Natural Language Inference), qui comprend des paires de phrases provenant de la foule, annotées avec des informations d'implication textuelle et traduites en 14 langues. | L'indicateur mesure la précision des réponses. | Disponible dans watsonx.ai pour les modèles qui prennent en charge l'arabe, le français, l'allemand et l'espagnol. | Carte du jeu de données sur GitHub |
XNLI avec instructions en anglais | Évalue la capacité d'un modèle à classer des phrases multilingues lorsque les messages-guides sont en anglais. | Sous-ensemble de données provenant de l'ensemble de données MNLI (Multi-Genre Natural Language Inference), qui contient des paires de phrases provenant de la foule et annotées avec des informations d'implication textuelle, traduites en 14 langues | L'indicateur mesure la précision des réponses. | Disponible dans watsonx.ai pour les modèles qui supportent l'arabe. | Carte du jeu de données sur GitHub |
XWinograd | Évalue la capacité d'un modèle à comprendre le contexte et à résoudre les ambiguïtés dans un texte multilingue. | Collection multilingue de schémas de Winograd, qui sont des paires de phrases ayant des significations radicalement différentes en raison de légers changements de mots. | L'indicateur mesure la précision des réponses. | Disponible dans watsonx.ai pour les modèles qui supportent le portugais. | Carte de données sur Hugging Face |
Critères de référence pour les modèles de fondations
Les repères de code montrent comment les différents modèles de fondation se classent dans les tests qui évaluent la capacité du modèle à effectuer des tâches de codage programmatique, telles que la génération de code, l'explication de code, la correction de code ou la traduction de code d'un langage de programmation à un autre.
Ces points de référence montrent les résultats des tests effectués par IBM Research à l'aide d'ensembles de données d'évaluation de code publiés par des tiers, tels que des institutions universitaires ou des équipes de recherche industrielle.
Le tableau suivant décrit les ensembles de données, les objectifs et les langages de programmation cibles pour les tests de code disponibles sur watsonx.ai.
Nom de l'indice de référence | Objectif | Description de l'ensemble de données | Métrique | Langages de programmation | Rubriques connexes |
---|---|---|---|---|---|
CanItEdit | Évalue la capacité d'un modèle à gérer divers scénarios d'édition de code à l'adresse Python. | 105 problèmes d'édition de codes pédagogiques rédigés par des humains. | Pass@1 | Python | Document de recherche |
CodeLingua | Évalue la capacité d'un modèle à traduire un code d'un langage de programmation à un autre. | 1 700 échantillons de code dans différents langages de programmation. | Pass@1 | C++, Go, Java, JavaScript, Python, Rust | Document de recherche |
HumanEval | Évalue la capacité d'un modèle à générer du code Python, à comprendre le langage, à raisonner et à résoudre des problèmes liés aux algorithmes et aux mathématiques simples. | 164 Python problèmes de programmation rédigés par des humains. | Pass@1 | Python | Document de recherche |
HumanEvalExplain | Évalue la capacité d'un modèle à expliquer des extraits de code en demandant d'abord au modèle d'expliquer la solution d'un problème de programmation, puis en testant si le modèle peut résoudre le problème lorsqu'il ne dispose que de l'explication générée précédemment. | Une extension de l'ensemble de données HumanEval. | Pass@1 | C++, Go, Java, JavaScript, Python, Rust | Document de recherche |
HumanEvalFix | Évalue la capacité d'un modèle à corriger les erreurs de codage dans les extraits de code programmatique. | HumanEval l'ensemble de données dans lequel des erreurs ont été introduites et les tests unitaires qui peuvent aider à identifier les problèmes. | Pass@1 | C++, Go, Java, JavaScript, Python, Rust | Document de recherche |
HumanEvalSynthesize | Évalue la capacité d'un modèle à générer du code. | 164 problèmes de code de l'ensemble de données HumanEval qui ont été traduits par des humains de Python vers d'autres langages de programmation. | Pass@1 | Python c++, Go, Java, JavaScript, Rust | Document de recherche |
MBPP | Évalue la capacité d'un modèle à résoudre les problèmes de codage d'entrée de gamme Python | 974 problèmes et solutions de programmation de Python, fournis par la foule. | Pass@1 | Python | Document de recherche |
MBPP+ (EN ANGLAIS) | Évalue la capacité d'un modèle à résoudre les problèmes de codage Python. | Développe l'ensemble de données MBPP avec plus de problèmes de programmation Python et des cas de test plus complets, qui sont conçus pour fournir une évaluation plus rigoureuse. | Pass@1 | Python | Carte de l'ensemble des données |
Mesures d'étalonnage
Certaines mesures sont explicites, comme la précision d'un modèle testé sur des ensembles de données à choix multiples. D'autres sont moins connus. La liste suivante décrit les métriques utilisées pour quantifier la performance des modèles dans watsonx.ai:
- F1
- Mesure si l'équilibre optimal entre la précision et le rappel est atteint. Souvent utilisé pour évaluer les tâches de classification où la précision mesure le nombre de phrases totales qui sont classées dans la bonne classe de phrases et le rappel mesure la fréquence à laquelle les phrases qui devraient être classées le sont.
- Gain cumulatif actualisé normalisé (GCAn)
- Une mesure de la qualité du classement qui compare les classements générés à un ordre de référence dans lequel les éléments les plus pertinents se trouvent en haut de la liste classée.
- ROUGE-L
- Utilisé pour évaluer la qualité des résumés en mesurant la similarité entre le résumé généré et le résumé de référence. ROUGE signifie Recall-Oriented Understudy for Gisting Evaluation (étude orientée sur le rappel pour l'évaluation des listes). Le L signifie que le score est basé sur la plus longue séquence de mots correspondants. Cette mesure recherche des correspondances dans la séquence qui reflètent l'ordre des mots au niveau de la phrase.
- SacreBLEU
- L'évaluation bilingue (BLEU) est une mesure permettant de comparer une traduction générée à une traduction de référence. SacreBLEU est une version qui facilite l'utilisation de la métrique en fournissant des échantillons de données de test et en gérant la tokenisation d'une manière standardisée. Il est le plus souvent utilisé pour évaluer la qualité des tâches de traduction, mais il peut également être utilisé pour évaluer les tâches de résumé.
- Sécurité
- Une mesure utilisée avec le benchmark 500 d' AttaQ, qui combine la mesure de l'indice Rand ajusté (ARI), qui prend en compte les étiquettes associées aux attaques, et le score de silhouette, qui évalue les caractéristiques basées sur les clusters telles que la cohésion, la séparation, la distorsion et la probabilité. Pour plus d'informations, voir le document de recherche Unveiling safety vulnerabilities of large language models.
- Taux de réussite
- Mesure utilisée avec le benchmark Arena-Hard-Auto pour montrer le pourcentage de conversations dans lesquelles les réponses du modèle aboutissent à la réalisation d'une action. Pour plus d'informations, consultez le document de recherche From crowsourced data to high-quality benchmarks: Arena-Hard and Benchbuilder pipeline.
En savoir plus
Thème parent : Modèles de fondations soutenues