Modèles de fondation d'encodeurs pris en charge dans watsonx.ai

Dernière mise à jour : 04 avr. 2025

Utilisez les modèles de fondation encodés uniquement qui sont déployés dans IBM watsonx.ai pour faciliter la recherche sémantique, la comparaison de documents et les tâches de reclassement.

Vous pouvez choisir le type de modèle de base de type encodeur seul qui convient le mieux à vos besoins ou utiliser les deux types dans le cadre d'un processus de recherche et de récupération en deux étapes. Vous pouvez utiliser les types suivants de modèles de base à encodeur seul dans watsonx.ai:

Intégrer les modèles de fondation

Utilisez les modèles d'intégration lorsque vous souhaitez générer des représentations vectorielles du texte que vous pouvez ensuite comparer mathématiquement. Les modèles d'intégration sont plus rapides et plus efficaces que les modèles de reranker, mais moins précis.

Pour plus d'informations, voir Intégrer des modèles.

Modèles de fondation pour le re-ranking

Utilisez les modèles de réankage lorsque vous souhaitez générer des scores pour chaque passage d'un petit ensemble de passages afin de trouver celui ou ceux qui sont les plus liés à une requête. Les modèles de reclassement sont plus précis, mais moins efficaces que les modèles d'intégration. Plus vous soumettez d'entrées, plus les modèles de reverbération prennent de temps pour traiter le texte.

Pour plus d'informations, voir Modèles de repositionnement.

Pour utiliser les deux types de modèles de base de codeur seul ensemble pour les tâches de recherche et de récupération, vous pouvez procéder comme suit :

Utiliser un modèle d'intégration pour effectuer une recherche sémantique large qui renvoie de nombreux résultats.
Utilisez un modèle de recherche pour réduire les premiers résultats de l'étape 1 à une seule réponse ou à une courte liste des meilleures réponses.

Pour plus d'informations sur les modèles de base génératifs, voir Modèles de base pris en charge. Contrairement aux modèles génératifs, vous ne pouvez pas ajouter de modèles d'intégration en tant que modèles de base personnalisés.

Tâches prises en charge par les modèles de fondation à encodeur seul

Vous pouvez utiliser les modèles d'encodage dans watsonx.ai pour les tâches suivantes :

Vectorisation de texte à partir de l'API: Spécifiez un modèle d'intégration à utiliser pour convertir le texte en intégrations de texte en utilisant l'API REST de watsonx.ai Voir Vectorisation du texte.
Passages de reclassement à partir de l'API: Spécifiez un modèle de reranker à utiliser pour comparer des passages à une requête et classer les passages du plus au moins lié en utilisant l'API REST de watsonx.ai Voir les passages du document Reranking.
AutoAI pour RAG: Utilisez les modèles d'intégration avec l'AutoAI pour créer des flux de production augmentés par la recherche de manière programmatique. Voir Automatiser un modèle RAG avec le SDK AutoAI.
Chat avec des documents dans Prompt Lab: Utilisez des modèles d'intégration pour vectoriser des documents à utiliser comme informations de base que vous soumettez au modèle de base à partir des invites de l' Prompt Lab. Voir Ajout de documents vectorisés pour les invites du modèle de base de mise à la terre.

Le tableau suivant présente les types de tâches prises en charge par les modèles de fondation à encodeur seul d'IBM watsonx.ai Une coche (✓) indique que la tâche nommée dans l'en-tête de colonne est prise en charge par le modèle de base.

Tableau 1. Prise en charge des tâches du modèle de base de l'encodeur uniquement
Modèle	Vectoriser un texte à partir de l'API	Reranker les passages à partir de l'API	AutoAI pour RAG	Chat avec des documents dans Prompt Lab
all-minilm-l6-v2	✓			✓
all-minilm-l12-v2	✓			✓
ELSER (Elastic Learned Sparse EncodeR				✓
granite-embedding-107m-multilingual	✓			✓
granite-embedding-278m-multilingual	✓		✓	✓
ms-marco-minilm-l-12-v2		✓
multilingual-e5-large	✓		✓	✓
slate-30m-english-rtrvr-v2	✓			✓
slate-30m-english-rtrvr	✓			✓
slate-125m-english-rtrvr-v2	✓		✓	✓
slate-125m-english-rtrvr	✓		✓	✓

Modèles d'intégration

Les modèles d'intégration sont des modèles que vous utilisez pour vectoriser des documents et générer des intégrations de texte afin de faciliter les tâches de recherche et de comparaison. L'intégration de texte permet d'encoder le sens d'une phrase ou d'un passage dans un tableau de nombres appelé vecteur. Pour plus d'informations sur la vectorisation, voir Génération de l'incorporation de texte.

Une fois les passages convertis en vecteurs, vous pouvez calculer la similarité des passages vectorisés indépendants à l'aide de fonctions mathématiques, telles que la similarité cosinus. La plupart des modèles d'intégration sont des modèles bi-encodeurs. Utilisez un modèle à double encodeur lorsqu'un rappel élevé est essentiel, c'est-à-dire lorsque vous ne voulez pas manquer de correspondances possibles et que vous devez vérifier la similarité de nombreux passages de manière efficace.

Les modèles d'intégration suivants peuvent être utilisés à partir de l'API de watsonx.ai:

granite-embedding-107m-multilingual
granite-embedding-278m-multilingual
slate-30m-english-rtrvr-v2
slate-30m-english-rtrvr
slate-125m-english-rtrvr-v2
slate-125m-english-rtrvr
all-minilm-l6-v2
all-minilm-l12-v2
multilingual-e5-large

Pour obtenir une liste des modèles d'intégration disponibles, utilisez la méthode List the available foundation models dans l'API watsonx.ai as a service. Spécifiez le paramètre " filters=function_embedding pour ne renvoyer que les modèles d'intégration.

curl -X GET \
  'https://{cluster_url}/ml/v1/foundation_model_specs?version=2024-07-25&filters=function_embedding'

Capacités de traitement du langage naturel

IBM Les modèles d'ardoise alimentent également un ensemble de bibliothèques que vous pouvez utiliser pour des tâches courantes de traitement du langage naturel (TLN), telles que la classification, l'extraction d'entités, l'analyse des sentiments, etc.

Pour plus d'informations sur l'utilisation des capacités NLP des modèles Slate, consultez la bibliothèque NLP Watson.

Aperçu des modèles d'intégration IBM

Le tableau suivant répertorie les modèles d'intégration IBM que vous pouvez utiliser à partir de l'API.

Tableau 2. Modèles d'intégration IBM dans watsonx.ai
Nom du modèle	Identifiant du modèle API	PrixUSD/1,000 jetons)	Nombre maximal de jetons d'entrée	Nombre de dimensions	Informations complémentaires
granite-embedding-107m-multilingual	`ibm/granite-embedding-107m-multilingual`	$0.0001	512	384	Carte de modèle
granite-embedding-278m-multilingual	`ibm/granite-embedding-278m-multilingual`	$0.0001	512	768	Carte de modèle
slate-125m-english-rtrvr-v2	`ibm/slate-125m-english-rtrvr-v2`	$0.0001	512	768	Carte de modèle
slate-125m-english-rtrvr	`ibm/slate-125m-english-rtrvr`	$0.0001	512	768	Carte de modèle
slate-30m-english-rtrvr-v2	`ibm/slate-30m-english-rtrvr-v2`	$0.0001	512	384	Carte de modèle
slate-30m-english-rtrvr	`ibm/slate-30m-english-rtrvr`	$0.0001	512	384	Carte de modèle

Vue d'ensemble des modèles d'intégration par des tiers

Le tableau suivant répertorie les modèles d'intégration de tiers que vous pouvez utiliser à partir de l'API.

Tableau 3. Modèles d'intégration de tiers dans watsonx.ai
Nom du modèle	Identifiant du modèle API	Fournisseur	PrixUSD/1,000 jetons)	Nombre maximal de jetons d'entrée	Nombre de dimensions	Informations complémentaires
all-minilm-l6-v2	`sentence-transformers/all-minilm-l6-v2`	Communauté open source de traitement du langage naturel (NLP) et de vision par ordinateur (CV)	$0.0001	256	384	- Carte modèle
all-minilm-l12-v2	`sentence-transformers/all-minilm-l12-v2`	Communauté open source de traitement du langage naturel (NLP) et de vision par ordinateur (CV)	$0.0001	256	384	- Carte modèle
multilingual-e5-large	`intfloat/multilingual-e5-large`	Microsoft	$0.0001	512	1 024	- Modèle de carte - Document de recherche

Pour obtenir la liste des modèles fournis dans chaque centre de données régional, voir Disponibilité régionale des modèles de base.
L'utilisation du modèle est mesurée en unités de ressources (UR). Chaque unité équivaut à 1 000 jetons de l'entrée soumise au modèle de fondation. Pour plus d'informations, voir les détails de la facturation pour les ressources génératives d'IA.

Modèles de repositionnement

Les modèles de repositionnement sont des modèles de codage croisé que vous utilisez pour classer les passages dans l'ordre du plus pertinent au moins pertinent par rapport à une requête. Contrairement aux modèles à double encodeur, les modèles à double encodeur traitent un passage et une requête ensemble et génèrent un score pour la similarité des deux entrées. Le modèle répète cette étape de comparaison des similitudes pour chaque passage que vous incluez. Cette méthode est un meilleur choix lorsque vous avez un petit nombre de passages à évaluer et que vous souhaitez trouver la meilleure réponse.

Les modèles de reranker disponibles sur watsonx.ai ne peuvent pas être utilisés pour générer des embeddings de texte.

Le modèle de reranker suivant peut être utilisé à partir de l'API de watsonx.ai:

ms-marco-minilm-l-12-v2

Pour obtenir une liste des modèles de reranker disponibles, utilisez la méthode List the available foundation models de l'API watsonx.ai as a service. Spécifiez le paramètre " filters=function_rerank pour ne renvoyer que les modèles de reranker disponibles.

curl -X GET \
  'https://{region}/ml/v1/foundation_model_specs?version=2024-07-25&filters=function_rerank'

Aperçu des modèles de repositionnement

Le tableau suivant répertorie les modèles de reranker que vous pouvez utiliser dans watsonx.ai:

Tableau 4. Modèles de reranker dans watsonx.ai
Nom du modèle	Identifiant du modèle API	Fournisseur	PrixUSD/1,000 jetons)	Nombre maximal de jetons d'entrée	Informations complémentaires
ms-marco-minilm-l-12-v2	`cross-encoder/ms-marco-minilm-l-12-v2`	Microsoft	$0.000005	512	- Carte modèle

Pour obtenir la liste des modèles fournis dans chaque centre de données régional, voir Disponibilité régionale des modèles de base.
L'utilisation du modèle est mesurée en unités de ressources (UR). Chaque unité équivaut à 1 000 jetons de l'entrée soumise au modèle de fondation. Pour plus d'informations, voir les détails de la facturation pour les ressources génératives d'IA.

Détails du modèle de l'encodeur seul

Vous pouvez utiliser la bibliothèque Python ou l'API REST de watsonx.ai pour soumettre des phrases ou des passages à l'un des modèles de fondation à encodeur unique pris en charge.

all-minilm-l6-v2

Le modèle d'intégration d' all-minilm-l6-v2 s est construit par la communauté open source de traitement du langage naturel (NLP) et de vision par ordinateur (CV) et fourni par Hugging Face. Utilisez le modèle en tant qu'encodeur de phrase et de paragraphe court. À partir d'un texte d'entrée, le modèle génère un vecteur qui capture les informations sémantiques contenues dans le texte.

Le modèle d'intégration all-minilm-l6-v2 est similaire au modèle d'intégration all-minilm-l12-v2, à ceci près que le modèle all-minilm-l6-v2 comporte six couches d'intégration au lieu des douze couches du modèle all-minilm-l12-v2.

Utilisation: Utilisez les vecteurs de phrases générés par le modèle d'intégration all-minilm-l6-v2 pour des tâches telles que la recherche d'informations, le regroupement et la détection de la similarité des phrases.

Niveau de prix API: Classe C1. Pour plus de détails sur les prix, voir le tableau 3.

Nombre de dimensions: 384

Limites des jetons d'entrée : 128

Langues naturelles prises en charge: anglais

Informations sur la mise au point: Ce modèle d'intégration est une version du modèle pré-entraîné MiniLM-L6-H384-uncased de Microsoft qui a été affiné sur un ensemble de données contenant 1 milliard de paires de phrases.

Architecture de modèle: Encoder uniquement

Licence: Apache 2.0 license

En savoir plus

Carte de modèle

all-minilm-l12-v2

Le modèle d'intégration d' all-minilm-l12-v2 s est construit par la communauté open source de traitement du langage naturel (NLP) et de vision par ordinateur (CV) et fourni par Hugging Face. Utilisez le modèle en tant qu'encodeur de phrase et de paragraphe court. À partir d'un texte d'entrée, il génère un vecteur qui capture les informations sémantiques contenues dans le texte.

Le modèle d'encastrement all-minilm-l12-v2 est similaire au modèle d'encastrement all-minilm-l6-v2, à ceci près que le modèle all-minilm-l12-v2 comporte douze couches d'encastrement au lieu des six couches du modèle all-minilm-l6-v2.

Utilisation : Utilisez les vecteurs de phrases générés par le modèle d'intégration all-minilm-l12-v2 pour des tâches telles que la recherche d'informations, le regroupement et la détection de la similarité des phrases.

Niveau de prix API: Classe C1. Pour plus de détails sur les prix, voir le tableau 3.

Nombre de dimensions: 384

Limites des jetons d'entrée : 128

Langues naturelles prises en charge: anglais

Informations de réglage fin: ce modèle d'imbrication est une version du modèle MiniLM-L12-H384-uncased préentraîné de Microsoft qui est affiné avec des paires de phrases de plus d'un milliard de phrases.

Architecture de modèle: Encoder uniquement

Licence: Apache 2.0 license

En savoir plus

Carte de modèle

granite-embedding-107m-multilingual

Le modèle granite-embedding-107m-multilingual est un modèle à 107 millions de paramètres issu de la suite Granite Embeddings fournie par IBM Le modèle peut être utilisé pour générer des encastrements de texte de haute qualité. Le modèle est formé à l'aide d'une combinaison d'ensembles de données de paires de pertinence de source ouverte avec des licences permissives et adaptées aux entreprises, et d'ensembles de données générés et collectés par IBM Il prend en charge 12 langues : Anglais, allemand, espagnol, français, japonais, portugais, arabe, tchèque, italien, coréen, néerlandais et chinois.

Utilisation : Utilisez le modèle granite-embedding-107m-multilingual pour produire un embedding pour une entrée donnée comme une requête, un passage ou un document. Le modèle est formé pour maximiser la similarité en cosinus entre deux morceaux de texte.

Niveau de prix API: Classe C1. Pour plus de détails sur les prix, voir le tableau 2.

Nombre de dimensions: 384

Limites du jeton d'entrée: 512

Langues naturelles prises en charge : Anglais, allemand, espagnol, français, japonais, portugais, arabe, tchèque, italien, coréen, néerlandais et chinois

Informations sur la mise au point : Le modèle granite-embedding-107m-multilingual est une version du modèle XLM RoBERTa, qui est une version multilingue de RoBERTa pré-entraînée sur 2.5 To de données CommonCrawl filtrées. Le modèle a été continuellement entraîné sur un mélange d'ensembles de données multilingues pour des tâches basées sur la recherche.

Architecture de modèle: Encoder uniquement

Licence: Apache 2.0 license

En savoir plus

Carte de modèle

granite-embedding-278m-multilingual

Le modèle granite-embedding-278m-multilingual est un modèle à 278 millions de paramètres issu de la suite Granite Embeddings fournie par IBM Le modèle peut être utilisé pour générer des encastrements de texte de haute qualité. Le modèle est formé à l'aide d'une combinaison d'ensembles de données de paires de pertinence de source ouverte avec des licences permissives et adaptées aux entreprises, et d'ensembles de données générés et collectés par IBM Il prend en charge 12 langues : Anglais, allemand, espagnol, français, japonais, portugais, arabe, tchèque, italien, coréen, néerlandais et chinois.

Utilisation : Utilisez le modèle granite-embedding-278m-multilingual pour produire un embedding pour une entrée donnée comme une requête, un passage ou un document. Le modèle est formé pour maximiser la similarité en cosinus entre deux morceaux de texte.

Niveau de prix API: Classe C1. Pour plus de détails sur les prix, voir le tableau 2.

Nombre de dimensions: 768

Limites du jeton d'entrée: 512

Langues naturelles prises en charge : Anglais, allemand, espagnol, français, japonais, portugais, arabe, tchèque, italien, coréen, néerlandais et chinois

Architecture de modèle: Encoder uniquement

Licence: Apache 2.0 license

En savoir plus

Carte de modèle

ms-marco-minilm-l-12-v2

Le modèle de reranker d' ms-marco-minilm-l-12-v2, développé par Microsoft, est fourni par Hugging Face. Utiliser le modèle comme un passage et un rebrasseur de documents. À partir d'un texte d'interrogation et d'un ensemble de passages de documents, il classe la liste des passages du plus au moins liés à l'interrogation.

Utilisation: Utilisez le modèle ms-marco-minilm-l-12-v2 reranker lorsque vous disposez d'un petit ensemble de passages que vous souhaitez évaluer par rapport à une requête et que la précision est essentielle. Par exemple, lorsque vous avez moins de 100 passages et que vous souhaitez les classer en fonction de leur degré de similitude avec le texte de la requête.

Niveau de prix API: Classe 11. Pour plus de détails sur les prix, voir le tableau 4.

Limites du jeton d'entrée: 512

Langues naturelles prises en charge: anglais

Informations sur la mise au point: Le modèle ms-marco-minilm-l-12-v2 a été entraîné sur la tâche de classement des passages de MS Marco. MS MARCO (Microsoft Machine Reading Comprehension) est un ensemble de données à grande échelle utilisé pour la compréhension de la lecture, la réponse aux questions et le classement des passages.

Architecture de modèle: Encoder uniquement

Licence: Apache 2.0 license

En savoir plus

Carte de modèle

multilingual-e5-large

Le modèle d'intégration d' multilingual-e5-large s est construit par Microsoft et fourni par Hugging Face.

L'architecture du modèle d'intégration comporte 24 couches qui sont utilisées séquentiellement pour traiter les données.

Utilisation: Utilisez cette option pour les cas d'utilisation dans lesquels vous souhaitez générer des imbrication de texte pour du texte dans une langue autre que l'anglais. Le modèle multilingual-e5-large est utile pour des tâches telles que la recherche de passages ou d'informations, la similarité sémantique, l'extraction de bitextes et la recherche de paraphrases.

Niveau de prix API: Classe C1. Pour plus de détails sur les prix, voir le tableau 3.

Nombre de dimensions: 1,024

Limites du jeton d'entrée: 512

Langues naturelles prises en charge: jusqu'à 100 langues. Voir la carte modèle pour plus de détails.

Informations sur la mise au point : Le modèle multilingual-e5-large est une version du modèle XLM RoBERTa, qui est une version multilingue de RoBERTa pré-entraînée sur 2.5 To de données CommonCrawl filtrées. Le modèle a été continuellement entraîné sur un mélange d'ensembles de données multilingues.

Architecture de modèle: Encoder uniquement

Licence: Code de conduite Microsoft Open Source

En savoir plus

slate-125m-english-rtrvr

Les modèles de fondation slate-125m-english-rtrvr-v2 et slate-125m-english-rtrvr sont fournis par IBM. Les modèles d'intégration IBM Slate 125m génèrent des intégrations pour diverses entrées telles que des requêtes, des passages ou des documents.

L'objectif de l'apprentissage est de maximiser la similarité de cosinus entre une requête et un passage. Ce processus donne deux plongements de phrase, l'un qui représente la question et l'autre qui représente le passage, permettant la comparaison des deux via la similarité cosinus.

Utilisation : Deux à trois fois plus lent mais légèrement plus performant que le modèle d'encastrement IBM Slate 30m.

Niveau de prix API: Classe C1. Pour plus de détails sur les prix, voir le tableau 2.

Nombre de dimensions: 768

Limites du jeton d'entrée: 512

Langues naturelles prises en charge: anglais

Informations de réglage fin: Cette version du modèle a été affinée afin d'être mieux adaptée aux tâches basées sur l'extraction de phrases.

Architecture de modèle: Encoder uniquement

Licence: Conditions d'utilisation

En savoir plus

slate-30m-english-rtrvr

Les modèles de base slate-30m-english-rtrvr-v2 et slate-30m-english-rtrvr sont des versions distillées du slate-125m-english-rtrvr, qui sont tous fournis par IBM. Le modèle d'intégration de l'ardoise IBM est entraîné pour maximiser la similarité cosinus entre deux entrées de texte afin que les intégrations puissent être évaluées ultérieurement sur la base de la similarité.

L'architecture de modèle d'intégration comporte 6 couches qui sont utilisées séquentiellement pour traiter les données.

Utilisation : Deux à trois fois plus rapide, avec des performances légèrement inférieures à celles du modèle d'intégration IBM Slate 125m.

Niveau de prix API: Classe C1. Pour plus de détails sur les prix, voir le tableau 2.

Testez: Utilisation de texte vectorisé avec des tâches de génération d'extension d'extraction

Nombre de dimensions: 384

Limites du jeton d'entrée: 512

Langues naturelles prises en charge: anglais

Informations de réglage fin: Cette version du modèle a été affinée afin d'être mieux adaptée aux tâches basées sur l'extraction de phrases.

Architecture de modèle: Encoder uniquement

Licence: Conditions d'utilisation

En savoir plus

En savoir plus

Pour plus d'informations sur l'utilisation des modèles d'intégration d' IBM s pour convertir des phrases et des passages en intégrations de texte, voir Génération d'intégrations de texte.
Ajout de documents vectorisés
Reranking des passages à l'aide de l'API

Thème parent : Modèles de fondations soutenues

La rubrique a-t-elle été utile ?

0/1000

Tâches prises en charge par les modèles de fondation à encodeur seulCopy link to section

Modèles d'intégrationCopy link to section

Capacités de traitement du langage naturelCopy link to section

Aperçu des modèles d'intégration IBM Copy link to section

Vue d'ensemble des modèles d'intégration par des tiersCopy link to section

Modèles de repositionnementCopy link to section

Aperçu des modèles de repositionnementCopy link to section

Détails du modèle de l'encodeur seulCopy link to section

all-minilm-l6-v2Copy link to section

all-minilm-l12-v2Copy link to section

granite-embedding-107m-multilingualCopy link to section

granite-embedding-278m-multilingualCopy link to section

ms-marco-minilm-l-12-v2Copy link to section

multilingual-e5-largeCopy link to section

slate-125m-english-rtrvrCopy link to section

slate-30m-english-rtrvrCopy link to section

En savoir plusCopy link to section

Tâches prises en charge par les modèles de fondation à encodeur seul

Modèles d'intégration

Capacités de traitement du langage naturel

Aperçu des modèles d'intégration IBM

Vue d'ensemble des modèles d'intégration par des tiers

Modèles de repositionnement

Aperçu des modèles de repositionnement

Détails du modèle de l'encodeur seul

all-minilm-l6-v2

all-minilm-l12-v2

granite-embedding-107m-multilingual

granite-embedding-278m-multilingual

ms-marco-minilm-l-12-v2

multilingual-e5-large

slate-125m-english-rtrvr

slate-30m-english-rtrvr

En savoir plus