Critères de référence du modèle de la fondation

Retourner à la version anglaise de la documentation

Dernière mise à jour : 20 déc. 2024

Critères de référence du modèle de la fondation

Pour trouver le foundation model adapté à vos besoins, comparez les performances de différents modèles de fondations en fonction de critères de référence pertinents.

Les critères de référence des modèles de base sont des mesures qui testent la capacité d'un foundation model à générer des résultats précis ou attendus par rapport à des ensembles de données de test spécifiques. Les critères d'évaluation couvrent diverses capacités, notamment la capacité du modèle à répondre à des questions sur des sujets allant des mathématiques élémentaires aux questions juridiques et financières, ou la capacité du modèle à résumer un texte, à générer un texte dans d'autres langues, etc.

Recherchez des points de référence qui testent le modèle par rapport aux tâches spécifiques qui vous intéressent. L'examen des mesures peut vous aider à évaluer les capacités d'un foundation model avant de l'essayer.

Les foundation model référence suivants sont disponibles dans watsonx.ai:

Critères de compréhension de la langue anglaise d'IBM
Benchmark de compréhension de la langue anglaise en source ouverte
Benchmark de compréhension des langues multilingues en source ouverte

Recherche des scores de référence du modèle

Pour accéder aux repères du foundation model, suivez les étapes suivantes :

Dans le watsonx.ai Prompt Lab en mode conversation, cliquez sur le champ Modèle, puis choisissez Afficher tous les modèles de fondation.
Cliquez sur l'onglet Repères du modèle pour voir les repères disponibles.

Cliquez sur l'icône Filtre pour modifier des facteurs tels que les modèles ou les types de référence à afficher dans la vue comparative.

Les notes vont de 0 à 100. Les scores les plus élevés sont les meilleurs.

Critères de compréhension de la langue anglaise d'IBM

Les critères de compréhension de la langue anglaise d'IBM sont des critères publiés par IBM sur la base de tests effectués par IBM Research pour évaluer la capacité de chaque modèle à effectuer des tâches courantes.

Le tableau suivant décrit les ensembles de données, les objectifs et les mesures des critères de référence IBM

Tableau 1. Critères de compréhension de la langue anglaise d'IBM
Nom de l'indice de référence	Objectif	Description de l'ensemble de données	Métrique
Récapitulation	Condense de grandes quantités de texte en quelques phrases qui en saisissent l'essentiel. Utile pour capturer les idées, décisions ou actions clés d'une longue transcription de réunion, par exemple.	Demande aux modèles de résumer un texte et compare les résumés générés par l'IA aux résumés générés par l'homme à partir de trois ensembles de données : - Dialogues informatiques - Dialogues d'assistance technique " - Blogs sur les médias sociaux	Score moyen de ROUGE-L
Génération augmentée par récupération (RAG)	Technique dans laquelle un foundation model est complété par des connaissances provenant de sources externes. Lors de l'étape de recherche, les documents pertinents provenant d'une source externe sont identifiés à partir de la requête de l'utilisateur. Lors de l'étape de génération, des parties de ces documents sont incluses dans l'invite afin de générer une réponse fondée sur des informations pertinentes.	Soumet des questions basées sur des informations provenant de documents dans 3 ensembles de données distincts	Score moyen de ROUGE-L
Classification	Identifie les données comme appartenant à des classes d'information distinctes. Utile pour classer les informations, telles que les commentaires des clients, afin de les gérer ou d'agir plus efficacement.	Cinq ensembles de données au contenu varié, comprenant un contenu contractuel à classer et un contenu à évaluer en termes de sentiment, d'émotion et de ton.	Score F1 moyen
Génération	Génère du langage en réponse aux instructions et aux indices fournis dans les messages-guides foundation model.	Un ensemble de données avec des courriels de marketing	Score de SacreBLEU
Extraction d'ensemble de règles	Trouve des termes clés ou des mentions dans les données en se basant sur la signification sémantique des mots plutôt que sur de simples correspondances de texte.	Compare les mentions d'entités trouvées par le modèle aux mentions d'entités trouvées par un humain. Les ensembles de données comprennent un ensemble de données avec 12 entités nommées et un ensemble de données avec trois types de sentiments.	Score F1 moyen

Critères d'évaluation de la compréhension de la langue anglaise en source ouverte pour les modèles de fondation

Les critères de référence Open source pour la compréhension de la langue anglaise montrent les résultats des tests effectués par IBM Research à partir d'ensembles de données en anglais publiés par des tiers, tels que des institutions universitaires ou des équipes de recherche industrielle.

Le tableau suivant décrit les ensembles de données, les objectifs et les mesures pour les critères de référence relatifs à la compréhension de la langue anglaise.

Tableau 2. Critères de compréhension de la langue anglaise en source ouverte dans watsonx.ai
Nom de l'indice de référence	Objectif	Description de l'ensemble de données	Métrique	Rubriques connexes
20 Groupes de discussion	Évalue la capacité d'un modèle à classer un texte.	Une version de l'ensemble de données 20 newsgroups de scikit-learn avec près de 20 000 documents de newsgroups regroupés en 20 catégories, dont les ordinateurs, les automobiles, les sports, la médecine, l'espace et la politique.	Score F1	- Carte de l'ensemble de données sur les Hugging Face
Arena-Hard-Auto	Évalue la capacité d'un modèle à répondre à des questions.	500 invites d'utilisateurs à partir de données en direct soumises à la plateforme de crowdsourcing Chatbot Arena.	L'indicateur montre le taux de réussite pour les réponses types.	- Fiche de données sur le Hugging Face - Document de recherche
AttaQ 500	Évalue si un modèle est susceptible de présenter des vulnérabilités en matière de sécurité.	Questions conçues pour provoquer des réactions préjudiciables dans les catégories suivantes : tromperie, discrimination, informations préjudiciables, abus de substances, contenu sexuel, informations personnelles identifiables (IPI) et violence.	La métrique indique la sécurité du modèle.	- Fiche de données sur le Hugging Face - Document de recherche
BBQ (repère de biais pour la réponse aux questions)	Évalue la capacité d'un modèle à reconnaître des énoncés contenant des opinions biaisées sur des personnes appartenant à ce qui est considéré comme des classes protégées par les anglophones des États-Unis.	Des séries de questions qui mettent en évidence les préjugés.	L'indicateur mesure la précision des réponses.	- Fiche de données sur le Hugging Face - Document de recherche
BillSum	Évalue la capacité d'un modèle à résumer un texte.	Ensemble de données résumant les projets de loi du Congrès américain et de l'État de Californie.	ROUGE-L pour le résumé généré.	- Fiche de données sur le Hugging Face - Document de recherche
Base de données des plaintes du CFPB	Évaluer la capacité d'un modèle à classer un texte.	Consumer Financial Protection Bureau (CFPB) : plaintes de clients réels concernant des rapports de crédit, des prêts étudiants, des transferts d'argent et d'autres services financiers.	Score F1	- Carte du jeu de données sur Unitxt.ai
CLAPnq	Évaluer la capacité d'un modèle à utiliser des informations tirées de passages pour répondre à des questions.	Paires de questions-réponses de longue durée.	Score F1	- Fiche de données sur le Hugging Face - Document de recherche
FinQA	Évalue la capacité d'un modèle à répondre à des questions financières et à effectuer des raisonnements numériques.	Plus de 8 000 paires de questions sur la finance rédigées par des experts financiers.	L'indicateur mesure la précision des réponses.	- Fiche de données sur le Hugging Face - Document de recherche
FLORES-101	Évalue la capacité d'un modèle à traduire un texte.	Articles de Wikipédia en anglais qui ont été traduits par des traducteurs humains professionnels en 101 langues	Score de SacreBLEU	- Fiche de données sur le Hugging Face - Document de recherche
HellaSwag	Évalue la capacité d'un modèle à réaliser des scénarios de bon sens.	Questions à choix multiples provenant d'ActivityNet et de WikiHow.	L'indicateur mesure la précision des réponses.	- Fiche de données sur le Hugging Face - Document de recherche
LegalBench	Évalue la capacité d'un modèle à raisonner sur des scénarios juridiques.	162 tâches couvrant différents textes, structures et domaines juridiques.	Score F1	- Fiche de données sur le Hugging Face - Document de recherche
MMLU-Pro	Évaluer la capacité d'un modèle à comprendre des tâches difficiles.	Une version plus difficile de l'ensemble de données Massive Multitask Language Understanding (MMLU) qui comporte davantage de questions axées sur le raisonnement et qui augmente le nombre de choix de réponses de 4 à 10 options.	L'indicateur mesure la précision des réponses.	- Fiche de données sur le Hugging Face - Document de recherche
OpenBookQA	Évaluer la capacité d'un modèle à utiliser un raisonnement en plusieurs étapes et à comprendre un texte riche pour répondre à des questions à choix multiples.	Simule un format d'examen à livre ouvert en fournissant des passages de soutien et des paires de questions-réponses à choix multiples.	L'indicateur mesure la précision des réponses.	- Fiche de données sur le Hugging Face - Document de recherche
TLDR	Évalue la capacité d'un modèle à résumer un texte.	Plus de 3 M posts prétraités de Reddit avec une longueur moyenne de 270 mots pour le contenu et 28 mots pour le résumé.	ROUGE-L pour le résumé généré.	- Fiche de données sur le Hugging Face - Document de recherche
Universel NER	Évalue la capacité d'un modèle à reconnaître les entités nommées.	Comprend 19 ensembles de données provenant de différents domaines, y compris les actualités et les médias sociaux. Les ensembles de données comprennent des annotations d'entités nommées et couvrent 13 langues différentes.	Score F1	- Carte de l'ensemble de données sur les Hugging Face

Critères d'évaluation de la compréhension des langues multilingues en source ouverte pour les modèles de fondation

Les critères de référence pour la compréhension des langues multilingues en source ouverte montrent les résultats des tests effectués par IBM Research à l'aide d'ensembles de données multilingues publiés par des tiers, tels que des institutions universitaires ou des équipes de recherche industrielle.

Le tableau suivant décrit les ensembles de données, les objectifs, les mesures et les langues cibles pour les tests de référence multilingues.

Tableau 3. Tests de compréhension des langues multilingues en source ouverte dans watsonx.ai
Nom de l'indice de référence	Objectif	Description de l'ensemble de données	Métrique	Langues	Rubriques connexes
Anglais de base	Évalue si un modèle peut traduire des phrases anglaises dans les langues suivantes : Français, allemand, espagnol, portugais, japonais et coréen.	850 mots clés en anglais et leurs traductions.	La métrique montre le score de confinement des chaînes, qui mesure la distance entre les mots ou les caractères de la phrase cible et de la traduction de référence.	L'ensemble de données est disponible en anglais, français, allemand, espagnol, portugais, japonais et coréen. Disponible dans watsonx.ai pour les modèles qui supportent le coréen.	Liste de mots de l'anglais de base d'Ogden
Belebele	Évalue la capacité de lecture-compréhension et de réponse aux questions multilingues d'un modèle.	Questions, passages connexes et réponses à choix multiples en 122 langues.	L'indicateur mesure la précision des réponses.	Disponible dans watsonx.ai pour les modèles prenant en charge l'allemand, l'arabe, le coréen, l'espagnol, le français, le japonais et le portugais.	Carte de l'ensemble de données sur les Hugging Face
MASSIVE	Évalue la capacité d'un modèle à classer des textes multilingues.	Plus d'un million d'énoncés provenant d'interactions avec l'assistant vocal d'Amazon, localisés en 52 langues et annotés avec des informations sur l'intention et le type de créneau.	Score F1	Disponible dans watsonx.ai pour les modèles prenant en charge l'allemand, l'arabe, le coréen, l'espagnol, le français, le japonais et le portugais.	Carte de l'ensemble de données sur les Hugging Face
MASSIVE avec des invites en anglais	Évalue la capacité d'un modèle à classer des textes multilingues avec des étiquettes en anglais.	Plus d'un million d'énoncés provenant d'interactions avec l'assistant vocal d'Amazon, localisés en 52 langues et annotés avec des informations sur l'intention et le type de créneau.	Score F1	Disponible dans watsonx.ai pour les modèles qui prennent en charge l'arabe et le coréen.	Carte de l'ensemble de données sur les Hugging Face
MKQA	Évalue la capacité d'un modèle à répondre à des questions en plusieurs langues.	Comprend 10 000 paires de questions-réponses pour chacune des 26 langues (260 000 paires au total).	Score F1	Disponible dans watsonx.ai pour les modèles prenant en charge l'allemand, l'arabe, le coréen, l'espagnol, le français, le japonais et le portugais.	Carte de l'ensemble de données sur les Hugging Face
MLSUM	Évalue la capacité d'un modèle à résumer un texte multilingue.	Plus de 1.5 million de paires d'articles et de résumés provenant de journaux en ligne en 5 langues (français, allemand, espagnol, russe, turc) et de journaux anglais tels que CNN et Daily Mail	ROUGE-L pour le résumé généré.	Disponible dans watsonx.ai pour les modèles qui prennent en charge le français et l'allemand.	Carte de l'ensemble de données sur les Hugging Face
XGLUE.qg	Évalue la capacité d'un modèle à comprendre un texte multilingue et à générer des questions pertinentes sur le texte.	11 tâches couvrant 19 langues	ROUGE-L pour la question générée.	Disponible dans watsonx.ai pour les modèles qui prennent en charge le français, l'allemand, le portugais et l'espagnol.	Carte de l'ensemble de données sur les Hugging Face
XGLUE.wpr	Évalue la capacité d'un modèle à extraire et à classer des textes multilingues.	11 tâches couvrant 19 langues.	Gain cumulatif actualisé normalisé (NDCG) pour la recherche d'informations et le classement.	Disponible dans watsonx.ai pour les modèles qui prennent en charge le français, l'allemand, le portugais et l'espagnol.	Carte de l'ensemble de données sur les Hugging Face
XLSum	Évalue la capacité d'un modèle à résumer un texte multilingue.	1. 1.35 M de résumés professionnellement annotés d'articles d'actualité de la BBC en 44 langues.	ROUGE-L pour le résumé généré.	Disponible dans watsonx.ai pour les modèles qui prennent en charge l'arabe, le français, le japonais, le coréen, le portugais et l'espagnol.	Carte de l'ensemble de données sur les Hugging Face
XMMLU	Évalue la capacité du modèle à répondre à des questions multilingues sur les mathématiques élémentaires, l'histoire des États-Unis, l'informatique, le droit, etc.	Traductions de l'ensemble de données anglaises Massive Multitask Language Understanding (MMLU), qui consiste en des questions à choix multiples de connaissances générales.	L'indicateur mesure la précision des réponses.	Disponible dans watsonx.ai pour les modèles qui prennent en charge l'arabe, le français et le coréen.
XNLI	Évalue la capacité d'un modèle à classer des phrases multilingues.	Sous-ensemble de données provenant de l'ensemble de données MNLI (Multi-Genre Natural Language Inference), qui comprend des paires de phrases provenant de la foule, annotées avec des informations d'implication textuelle et traduites en 14 langues.	L'indicateur mesure la précision des réponses.	Disponible dans watsonx.ai pour les modèles qui prennent en charge l'arabe, le français, l'allemand et l'espagnol.	Carte du jeu de données sur GitHub
XNLI avec instructions en anglais	Évalue la capacité d'un modèle à classer des phrases multilingues lorsque les messages-guides sont en anglais.	Sous-ensemble de données provenant de l'ensemble de données MNLI (Multi-Genre Natural Language Inference), qui contient des paires de phrases provenant de la foule et annotées avec des informations d'implication textuelle, traduites en 14 langues	L'indicateur mesure la précision des réponses.	Disponible dans watsonx.ai pour les modèles qui supportent l'arabe.	Carte du jeu de données sur GitHub
XWinograd	Évalue la capacité d'un modèle à comprendre le contexte et à résoudre les ambiguïtés dans un texte multilingue.	Collection multilingue de schémas de Winograd, qui sont des paires de phrases ayant des significations radicalement différentes en raison de légers changements de mots.	L'indicateur mesure la précision des réponses.	Disponible dans watsonx.ai pour les modèles qui supportent le portugais.	Carte de l'ensemble de données sur les Hugging Face

Comprendre les indicateurs de référence

Certaines mesures sont explicites, comme la précision d'un modèle testé sur des ensembles de données à choix multiples. D'autres sont moins connus. La liste suivante décrit les métriques utilisées pour quantifier la performance des modèles dans watsonx.ai:

F1: Mesure si l'équilibre optimal entre la précision et le rappel est atteint. Souvent utilisé pour évaluer les tâches de classification où la précision mesure le nombre de phrases totales qui sont classées dans la bonne classe de phrases et le rappel mesure la fréquence à laquelle les phrases qui devraient être classées le sont.
Gain cumulatif actualisé normalisé (GCAn): Une mesure de la qualité du classement qui compare les classements générés à un ordre de référence dans lequel les éléments les plus pertinents se trouvent en haut de la liste classée.
ROUGE-L: Utilisé pour évaluer la qualité des résumés en mesurant la similarité entre le résumé généré et le résumé de référence. ROUGE signifie Recall-Oriented Understudy for Gisting Evaluation (étude orientée sur le rappel pour l'évaluation des listes). Le L signifie que le score est basé sur la plus longue séquence de mots correspondants. Cette mesure recherche des correspondances dans la séquence qui reflètent l'ordre des mots au niveau de la phrase.
SacreBLEU: L'évaluation bilingue (BLEU) est une mesure permettant de comparer une traduction générée à une traduction de référence. SacreBLEU est une version qui facilite l'utilisation de la métrique en fournissant des échantillons de données de test et en gérant la tokenisation d'une manière standardisée. Il est le plus souvent utilisé pour évaluer la qualité des tâches de traduction, mais il peut également être utilisé pour évaluer les tâches de résumé.
Sécurité: Mesure utilisée avec le benchmark AttaQ 500 qui combine l'indice Rand ajusté (ARI), qui prend en compte les étiquettes associées aux attaques, et le score Silhouette, qui évalue les caractéristiques basées sur les clusters telles que la cohésion, la séparation, la distorsion et la vraisemblance. Pour plus d'informations, voir le document de recherche Unveiling safety vulnerabilities of large language models.
Taux de réussite: Mesure utilisée avec le benchmark Arena-Hard-Auto pour montrer le pourcentage de conversations dans lesquelles les réponses du modèle aboutissent à la réalisation d'une action. Pour plus d'informations, voir le document de recherche From crowsourced data to high-quality benchmarks : Arena-Hard et Benchbuilder pipelie.

En savoir plus

Choix d'un modèle

Thème parent : Modèles de fondations soutenues