Pour trouver le foundation model adapté à vos besoins, comparez les performances de différents modèles de fondations en fonction de critères de référence pertinents.
Les critères de référence des modèles de base sont des mesures qui testent la capacité d'un foundation model à générer des résultats précis ou attendus par rapport à des ensembles de données de test spécifiques. Les critères d'évaluation couvrent diverses capacités, notamment la capacité du modèle à répondre à des questions sur des sujets allant des mathématiques élémentaires aux questions juridiques et financières, ou la capacité du modèle à résumer un texte, à générer un texte dans d'autres langues, etc.
Recherchez des points de référence qui testent le modèle par rapport aux tâches spécifiques qui vous intéressent. L'examen des mesures peut vous aider à évaluer les capacités d'un foundation model avant de l'essayer.
Les foundation model référence suivants sont disponibles dans watsonx.ai:
- Critères de compréhension de la langue anglaise d'IBM
- Benchmark de compréhension de la langue anglaise en source ouverte
- Benchmark de compréhension des langues multilingues en source ouverte
Recherche des scores de référence du modèle
Pour accéder aux repères du foundation model, suivez les étapes suivantes :
Dans le watsonx.ai Prompt Lab en mode conversation, cliquez sur le champ Modèle, puis choisissez Afficher tous les modèles de fondation.
Cliquez sur l'onglet Repères du modèle pour voir les repères disponibles.
Cliquez sur l'icône Filtre pour modifier des facteurs tels que les modèles ou les types de référence à afficher dans la vue comparative.
Les notes vont de 0 à 100. Les scores les plus élevés sont les meilleurs.
Critères de compréhension de la langue anglaise d'IBM
Les critères de compréhension de la langue anglaise d'IBM sont des critères publiés par IBM sur la base de tests effectués par IBM Research pour évaluer la capacité de chaque modèle à effectuer des tâches courantes.
Le tableau suivant décrit les ensembles de données, les objectifs et les mesures des critères de référence IBM
Nom de l'indice de référence | Objectif | Description de l'ensemble de données | Métrique |
---|---|---|---|
Récapitulation | Condense de grandes quantités de texte en quelques phrases qui en saisissent l'essentiel. Utile pour capturer les idées, décisions ou actions clés d'une longue transcription de réunion, par exemple. | Demande aux modèles de résumer un texte et compare les résumés générés par l'IA aux résumés générés par l'homme à partir de trois ensembles de données : - Dialogues informatiques - Dialogues d'assistance technique " - Blogs sur les médias sociaux |
Score moyen de ROUGE-L |
Génération augmentée par récupération (RAG) | Technique dans laquelle un foundation model est complété par des connaissances provenant de sources externes. Lors de l'étape de recherche, les documents pertinents provenant d'une source externe sont identifiés à partir de la requête de l'utilisateur. Lors de l'étape de génération, des parties de ces documents sont incluses dans l'invite afin de générer une réponse fondée sur des informations pertinentes. | Soumet des questions basées sur des informations provenant de documents dans 3 ensembles de données distincts | Score moyen de ROUGE-L |
Classification | Identifie les données comme appartenant à des classes d'information distinctes. Utile pour classer les informations, telles que les commentaires des clients, afin de les gérer ou d'agir plus efficacement. | Cinq ensembles de données au contenu varié, comprenant un contenu contractuel à classer et un contenu à évaluer en termes de sentiment, d'émotion et de ton. | Score F1 moyen |
Génération | Génère du langage en réponse aux instructions et aux indices fournis dans les messages-guides foundation model. | Un ensemble de données avec des courriels de marketing | Score de SacreBLEU |
Extraction d'ensemble de règles | Trouve des termes clés ou des mentions dans les données en se basant sur la signification sémantique des mots plutôt que sur de simples correspondances de texte. | Compare les mentions d'entités trouvées par le modèle aux mentions d'entités trouvées par un humain. Les ensembles de données comprennent un ensemble de données avec 12 entités nommées et un ensemble de données avec trois types de sentiments. | Score F1 moyen |
Critères d'évaluation de la compréhension de la langue anglaise en source ouverte pour les modèles de fondation
Les critères de référence Open source pour la compréhension de la langue anglaise montrent les résultats des tests effectués par IBM Research à partir d'ensembles de données en anglais publiés par des tiers, tels que des institutions universitaires ou des équipes de recherche industrielle.
Le tableau suivant décrit les ensembles de données, les objectifs et les mesures pour les critères de référence relatifs à la compréhension de la langue anglaise.
Nom de l'indice de référence | Objectif | Description de l'ensemble de données | Métrique | Rubriques connexes |
---|---|---|---|---|
20 Groupes de discussion | Évalue la capacité d'un modèle à classer un texte. | Une version de l'ensemble de données 20 newsgroups de scikit-learn avec près de 20 000 documents de newsgroups regroupés en 20 catégories, dont les ordinateurs, les automobiles, les sports, la médecine, l'espace et la politique. | Score F1 | - Carte de l'ensemble de données sur les Hugging Face |
Arena-Hard-Auto | Évalue la capacité d'un modèle à répondre à des questions. | 500 invites d'utilisateurs à partir de données en direct soumises à la plateforme de crowdsourcing Chatbot Arena. | L'indicateur montre le taux de réussite pour les réponses types. | - Fiche de données sur le Hugging Face - Document de recherche |
AttaQ 500 | Évalue si un modèle est susceptible de présenter des vulnérabilités en matière de sécurité. | Questions conçues pour provoquer des réactions préjudiciables dans les catégories suivantes : tromperie, discrimination, informations préjudiciables, abus de substances, contenu sexuel, informations personnelles identifiables (IPI) et violence. | La métrique indique la sécurité du modèle. | - Fiche de données sur le Hugging Face - Document de recherche |
BBQ (repère de biais pour la réponse aux questions) |
Évalue la capacité d'un modèle à reconnaître des énoncés contenant des opinions biaisées sur des personnes appartenant à ce qui est considéré comme des classes protégées par les anglophones des États-Unis. | Des séries de questions qui mettent en évidence les préjugés. | L'indicateur mesure la précision des réponses. | - Fiche de données sur le Hugging Face - Document de recherche |
BillSum | Évalue la capacité d'un modèle à résumer un texte. | Ensemble de données résumant les projets de loi du Congrès américain et de l'État de Californie. | ROUGE-L pour le résumé généré. | - Fiche de données sur le Hugging Face - Document de recherche |
Base de données des plaintes du CFPB | Évaluer la capacité d'un modèle à classer un texte. | Consumer Financial Protection Bureau (CFPB) : plaintes de clients réels concernant des rapports de crédit, des prêts étudiants, des transferts d'argent et d'autres services financiers. | Score F1 | - Carte du jeu de données sur Unitxt.ai |
CLAPnq | Évaluer la capacité d'un modèle à utiliser des informations tirées de passages pour répondre à des questions. | Paires de questions-réponses de longue durée. | Score F1 | - Fiche de données sur le Hugging Face - Document de recherche |
FinQA | Évalue la capacité d'un modèle à répondre à des questions financières et à effectuer des raisonnements numériques. | Plus de 8 000 paires de questions sur la finance rédigées par des experts financiers. | L'indicateur mesure la précision des réponses. | - Fiche de données sur le Hugging Face - Document de recherche |
FLORES-101 | Évalue la capacité d'un modèle à traduire un texte. | Articles de Wikipédia en anglais qui ont été traduits par des traducteurs humains professionnels en 101 langues | Score de SacreBLEU | - Fiche de données sur le Hugging Face - Document de recherche |
HellaSwag | Évalue la capacité d'un modèle à réaliser des scénarios de bon sens. | Questions à choix multiples provenant d'ActivityNet et de WikiHow. | L'indicateur mesure la précision des réponses. | - Fiche de données sur le Hugging Face - Document de recherche |
LegalBench | Évalue la capacité d'un modèle à raisonner sur des scénarios juridiques. | 162 tâches couvrant différents textes, structures et domaines juridiques. | Score F1 | - Fiche de données sur le Hugging Face - Document de recherche |
MMLU-Pro | Évaluer la capacité d'un modèle à comprendre des tâches difficiles. | Une version plus difficile de l'ensemble de données Massive Multitask Language Understanding (MMLU) qui comporte davantage de questions axées sur le raisonnement et qui augmente le nombre de choix de réponses de 4 à 10 options. | L'indicateur mesure la précision des réponses. | - Fiche de données sur le Hugging Face - Document de recherche |
OpenBookQA | Évaluer la capacité d'un modèle à utiliser un raisonnement en plusieurs étapes et à comprendre un texte riche pour répondre à des questions à choix multiples. | Simule un format d'examen à livre ouvert en fournissant des passages de soutien et des paires de questions-réponses à choix multiples. | L'indicateur mesure la précision des réponses. | - Fiche de données sur le Hugging Face - Document de recherche |
TLDR | Évalue la capacité d'un modèle à résumer un texte. | Plus de 3 M posts prétraités de Reddit avec une longueur moyenne de 270 mots pour le contenu et 28 mots pour le résumé. | ROUGE-L pour le résumé généré. | - Fiche de données sur le Hugging Face - Document de recherche |
Universel NER | Évalue la capacité d'un modèle à reconnaître les entités nommées. | Comprend 19 ensembles de données provenant de différents domaines, y compris les actualités et les médias sociaux. Les ensembles de données comprennent des annotations d'entités nommées et couvrent 13 langues différentes. | Score F1 | - Carte de l'ensemble de données sur les Hugging Face |
Critères d'évaluation de la compréhension des langues multilingues en source ouverte pour les modèles de fondation
Les critères de référence pour la compréhension des langues multilingues en source ouverte montrent les résultats des tests effectués par IBM Research à l'aide d'ensembles de données multilingues publiés par des tiers, tels que des institutions universitaires ou des équipes de recherche industrielle.
Le tableau suivant décrit les ensembles de données, les objectifs, les mesures et les langues cibles pour les tests de référence multilingues.
Nom de l'indice de référence | Objectif | Description de l'ensemble de données | Métrique | Langues | Rubriques connexes |
---|---|---|---|---|---|
Anglais de base | Évalue si un modèle peut traduire des phrases anglaises dans les langues suivantes : Français, allemand, espagnol, portugais, japonais et coréen. | 850 mots clés en anglais et leurs traductions. | La métrique montre le score de confinement des chaînes, qui mesure la distance entre les mots ou les caractères de la phrase cible et de la traduction de référence. | L'ensemble de données est disponible en anglais, français, allemand, espagnol, portugais, japonais et coréen. Disponible dans watsonx.ai pour les modèles qui supportent le coréen. | Liste de mots de l'anglais de base d'Ogden |
Belebele | Évalue la capacité de lecture-compréhension et de réponse aux questions multilingues d'un modèle. | Questions, passages connexes et réponses à choix multiples en 122 langues. | L'indicateur mesure la précision des réponses. | Disponible dans watsonx.ai pour les modèles prenant en charge l'allemand, l'arabe, le coréen, l'espagnol, le français, le japonais et le portugais. | Carte de l'ensemble de données sur les Hugging Face |
MASSIVE | Évalue la capacité d'un modèle à classer des textes multilingues. | Plus d'un million d'énoncés provenant d'interactions avec l'assistant vocal d'Amazon, localisés en 52 langues et annotés avec des informations sur l'intention et le type de créneau. | Score F1 | Disponible dans watsonx.ai pour les modèles prenant en charge l'allemand, l'arabe, le coréen, l'espagnol, le français, le japonais et le portugais. | Carte de l'ensemble de données sur les Hugging Face |
MASSIVE avec des invites en anglais | Évalue la capacité d'un modèle à classer des textes multilingues avec des étiquettes en anglais. | Plus d'un million d'énoncés provenant d'interactions avec l'assistant vocal d'Amazon, localisés en 52 langues et annotés avec des informations sur l'intention et le type de créneau. | Score F1 | Disponible dans watsonx.ai pour les modèles qui prennent en charge l'arabe et le coréen. | Carte de l'ensemble de données sur les Hugging Face |
MKQA | Évalue la capacité d'un modèle à répondre à des questions en plusieurs langues. | Comprend 10 000 paires de questions-réponses pour chacune des 26 langues (260 000 paires au total). | Score F1 | Disponible dans watsonx.ai pour les modèles prenant en charge l'allemand, l'arabe, le coréen, l'espagnol, le français, le japonais et le portugais. | Carte de l'ensemble de données sur les Hugging Face |
MLSUM | Évalue la capacité d'un modèle à résumer un texte multilingue. | Plus de 1.5 million de paires d'articles et de résumés provenant de journaux en ligne en 5 langues (français, allemand, espagnol, russe, turc) et de journaux anglais tels que CNN et Daily Mail | ROUGE-L pour le résumé généré. | Disponible dans watsonx.ai pour les modèles qui prennent en charge le français et l'allemand. | Carte de l'ensemble de données sur les Hugging Face |
XGLUE.qg | Évalue la capacité d'un modèle à comprendre un texte multilingue et à générer des questions pertinentes sur le texte. | 11 tâches couvrant 19 langues | ROUGE-L pour la question générée. | Disponible dans watsonx.ai pour les modèles qui prennent en charge le français, l'allemand, le portugais et l'espagnol. | Carte de l'ensemble de données sur les Hugging Face |
XGLUE.wpr | Évalue la capacité d'un modèle à extraire et à classer des textes multilingues. | 11 tâches couvrant 19 langues. | Gain cumulatif actualisé normalisé (NDCG) pour la recherche d'informations et le classement. | Disponible dans watsonx.ai pour les modèles qui prennent en charge le français, l'allemand, le portugais et l'espagnol. | Carte de l'ensemble de données sur les Hugging Face |
XLSum | Évalue la capacité d'un modèle à résumer un texte multilingue. | 1. 1.35 M de résumés professionnellement annotés d'articles d'actualité de la BBC en 44 langues. | ROUGE-L pour le résumé généré. | Disponible dans watsonx.ai pour les modèles qui prennent en charge l'arabe, le français, le japonais, le coréen, le portugais et l'espagnol. | Carte de l'ensemble de données sur les Hugging Face |
XMMLU | Évalue la capacité du modèle à répondre à des questions multilingues sur les mathématiques élémentaires, l'histoire des États-Unis, l'informatique, le droit, etc. | Traductions de l'ensemble de données anglaises Massive Multitask Language Understanding (MMLU), qui consiste en des questions à choix multiples de connaissances générales. | L'indicateur mesure la précision des réponses. | Disponible dans watsonx.ai pour les modèles qui prennent en charge l'arabe, le français et le coréen. | |
XNLI | Évalue la capacité d'un modèle à classer des phrases multilingues. | Sous-ensemble de données provenant de l'ensemble de données MNLI (Multi-Genre Natural Language Inference), qui comprend des paires de phrases provenant de la foule, annotées avec des informations d'implication textuelle et traduites en 14 langues. | L'indicateur mesure la précision des réponses. | Disponible dans watsonx.ai pour les modèles qui prennent en charge l'arabe, le français, l'allemand et l'espagnol. | Carte du jeu de données sur GitHub |
XNLI avec instructions en anglais | Évalue la capacité d'un modèle à classer des phrases multilingues lorsque les messages-guides sont en anglais. | Sous-ensemble de données provenant de l'ensemble de données MNLI (Multi-Genre Natural Language Inference), qui contient des paires de phrases provenant de la foule et annotées avec des informations d'implication textuelle, traduites en 14 langues | L'indicateur mesure la précision des réponses. | Disponible dans watsonx.ai pour les modèles qui supportent l'arabe. | Carte du jeu de données sur GitHub |
XWinograd | Évalue la capacité d'un modèle à comprendre le contexte et à résoudre les ambiguïtés dans un texte multilingue. | Collection multilingue de schémas de Winograd, qui sont des paires de phrases ayant des significations radicalement différentes en raison de légers changements de mots. | L'indicateur mesure la précision des réponses. | Disponible dans watsonx.ai pour les modèles qui supportent le portugais. | Carte de l'ensemble de données sur les Hugging Face |
Comprendre les indicateurs de référence
Certaines mesures sont explicites, comme la précision d'un modèle testé sur des ensembles de données à choix multiples. D'autres sont moins connus. La liste suivante décrit les métriques utilisées pour quantifier la performance des modèles dans watsonx.ai:
- F1
- Mesure si l'équilibre optimal entre la précision et le rappel est atteint. Souvent utilisé pour évaluer les tâches de classification où la précision mesure le nombre de phrases totales qui sont classées dans la bonne classe de phrases et le rappel mesure la fréquence à laquelle les phrases qui devraient être classées le sont.
- Gain cumulatif actualisé normalisé (GCAn)
- Une mesure de la qualité du classement qui compare les classements générés à un ordre de référence dans lequel les éléments les plus pertinents se trouvent en haut de la liste classée.
- ROUGE-L
- Utilisé pour évaluer la qualité des résumés en mesurant la similarité entre le résumé généré et le résumé de référence. ROUGE signifie Recall-Oriented Understudy for Gisting Evaluation (étude orientée sur le rappel pour l'évaluation des listes). Le L signifie que le score est basé sur la plus longue séquence de mots correspondants. Cette mesure recherche des correspondances dans la séquence qui reflètent l'ordre des mots au niveau de la phrase.
- SacreBLEU
- L'évaluation bilingue (BLEU) est une mesure permettant de comparer une traduction générée à une traduction de référence. SacreBLEU est une version qui facilite l'utilisation de la métrique en fournissant des échantillons de données de test et en gérant la tokenisation d'une manière standardisée. Il est le plus souvent utilisé pour évaluer la qualité des tâches de traduction, mais il peut également être utilisé pour évaluer les tâches de résumé.
- Sécurité
- Mesure utilisée avec le benchmark AttaQ 500 qui combine l'indice Rand ajusté (ARI), qui prend en compte les étiquettes associées aux attaques, et le score Silhouette, qui évalue les caractéristiques basées sur les clusters telles que la cohésion, la séparation, la distorsion et la vraisemblance. Pour plus d'informations, voir le document de recherche Unveiling safety vulnerabilities of large language models.
- Taux de réussite
- Mesure utilisée avec le benchmark Arena-Hard-Auto pour montrer le pourcentage de conversations dans lesquelles les réponses du modèle aboutissent à la réalisation d'une action. Pour plus d'informations, voir le document de recherche From crowsourced data to high-quality benchmarks : Arena-Hard et Benchbuilder pipelie.
En savoir plus
Thème parent : Modèles de fondations soutenues