Modèles de fondation d'encodeurs pris en charge dans watsonx.ai
Dernière mise à jour : 04 avr. 2025
Modèles de fondation d'encodeurs pris en charge dans watsonx.ai
Utilisez les modèles de fondation encodés uniquement qui sont déployés dans IBM watsonx.ai pour faciliter la recherche sémantique, la comparaison de documents et les tâches de reclassement.
Vous pouvez choisir le type de modèle de base de type encodeur seul qui convient le mieux à vos besoins ou utiliser les deux types dans le cadre d'un processus de recherche et de récupération en deux étapes. Vous pouvez utiliser les types suivants de modèles de base à encodeur seul dans watsonx.ai:
Intégrer les modèles de fondation
Utilisez les modèles d'intégration lorsque vous souhaitez générer des représentations vectorielles du texte que vous pouvez ensuite comparer mathématiquement. Les modèles d'intégration sont plus rapides et plus efficaces que les modèles de reranker, mais moins précis.
Utilisez les modèles de réankage lorsque vous souhaitez générer des scores pour chaque passage d'un petit ensemble de passages afin de trouver celui ou ceux qui sont les plus liés à une requête. Les modèles de reclassement sont plus précis, mais moins efficaces que les modèles d'intégration. Plus vous soumettez d'entrées, plus les modèles de reverbération prennent de temps pour traiter le texte.
Pour utiliser les deux types de modèles de base de codeur seul ensemble pour les tâches de recherche et de récupération, vous pouvez procéder comme suit :
Utiliser un modèle d'intégration pour effectuer une recherche sémantique large qui renvoie de nombreux résultats.
Utilisez un modèle de recherche pour réduire les premiers résultats de l'étape 1 à une seule réponse ou à une courte liste des meilleures réponses.
Pour plus d'informations sur les modèles de base génératifs, voir Modèles de base pris en charge. Contrairement aux modèles génératifs, vous ne pouvez pas ajouter de modèles d'intégration en tant que modèles de base personnalisés.
Tâches prises en charge par les modèles de fondation à encodeur seul
Copy link to section
Vous pouvez utiliser les modèles d'encodage dans watsonx.ai pour les tâches suivantes :
Vectorisation de texte à partir de l'API
Spécifiez un modèle d'intégration à utiliser pour convertir le texte en intégrations de texte en utilisant l'API REST de watsonx.ai Voir Vectorisation du texte.
Passages de reclassement à partir de l'API
Spécifiez un modèle de reranker à utiliser pour comparer des passages à une requête et classer les passages du plus au moins lié en utilisant l'API REST de watsonx.ai Voir les passages du document Reranking.
AutoAI pour RAG
Utilisez les modèles d'intégration avec l'AutoAI pour créer des flux de production augmentés par la recherche de manière programmatique. Voir Automatiser un modèle RAG avec le SDK AutoAI.
Le tableau suivant présente les types de tâches prises en charge par les modèles de fondation à encodeur seul d'IBM watsonx.ai Une coche (✓) indique que la tâche nommée dans l'en-tête de colonne est prise en charge par le modèle de base.
Tableau 1. Prise en charge des tâches du modèle de base de l'encodeur uniquement
Modèle
Vectoriser un texte à partir de l'API
Reranker les passages à partir de l'API
AutoAI pour RAG
Chat avec des documents dans Prompt Lab
all-minilm-l6-v2
✓
✓
all-minilm-l12-v2
✓
✓
ELSER (Elastic Learned Sparse EncodeR
✓
granite-embedding-107m-multilingual
✓
✓
granite-embedding-278m-multilingual
✓
✓
✓
ms-marco-minilm-l-12-v2
✓
multilingual-e5-large
✓
✓
✓
slate-30m-english-rtrvr-v2
✓
✓
slate-30m-english-rtrvr
✓
✓
slate-125m-english-rtrvr-v2
✓
✓
✓
slate-125m-english-rtrvr
✓
✓
✓
Modèles d'intégration
Copy link to section
Les modèles d'intégration sont des modèles que vous utilisez pour vectoriser des documents et générer des intégrations de texte afin de faciliter les tâches de recherche et de comparaison. L'intégration de texte permet d'encoder le sens d'une phrase ou d'un passage dans un tableau de nombres appelé vecteur. Pour plus d'informations sur la vectorisation, voir Génération de l'incorporation de texte.
Une fois les passages convertis en vecteurs, vous pouvez calculer la similarité des passages vectorisés indépendants à l'aide de fonctions mathématiques, telles que la similarité cosinus. La plupart des modèles d'intégration sont des modèles bi-encodeurs. Utilisez un modèle à double encodeur lorsqu'un rappel élevé est essentiel, c'est-à-dire lorsque vous ne voulez pas manquer de correspondances possibles et que vous devez vérifier la similarité de nombreux passages de manière efficace.
Les modèles d'intégration suivants peuvent être utilisés à partir de l'API de watsonx.ai:
Pour obtenir une liste des modèles d'intégration disponibles, utilisez la méthode List the available foundation models dans l'API watsonx.ai as a service. Spécifiez le paramètre " filters=function_embedding pour ne renvoyer que les modèles d'intégration.
curl -X GET \
'https://{cluster_url}/ml/v1/foundation_model_specs?version=2024-07-25&filters=function_embedding'
Copy to clipboardCopié dans le presse-papiers
Capacités de traitement du langage naturel
Copy link to section
IBM Les modèles d'ardoise alimentent également un ensemble de bibliothèques que vous pouvez utiliser pour des tâches courantes de traitement du langage naturel (TLN), telles que la classification, l'extraction d'entités, l'analyse des sentiments, etc.
Pour plus d'informations sur l'utilisation des capacités NLP des modèles Slate, consultez la bibliothèque NLP Watson.
Aperçu des modèles d'intégration IBM
Copy link to section
Le tableau suivant répertorie les modèles d'intégration IBM que vous pouvez utiliser à partir de l'API.
Tableau 2. Modèles d'intégration IBM dans watsonx.ai
Les modèles de repositionnement sont des modèles de codage croisé que vous utilisez pour classer les passages dans l'ordre du plus pertinent au moins pertinent par rapport à une requête. Contrairement aux modèles à double encodeur, les modèles à double encodeur traitent un passage et une requête ensemble et génèrent un score pour la similarité des deux entrées. Le modèle répète cette étape de comparaison des similitudes pour chaque passage que vous incluez. Cette méthode est un meilleur choix lorsque vous avez un petit nombre de passages à évaluer et que vous souhaitez trouver la meilleure réponse.
Les modèles de reranker disponibles sur watsonx.ai ne peuvent pas être utilisés pour générer des embeddings de texte.
Le modèle de reranker suivant peut être utilisé à partir de l'API de watsonx.ai:
Pour obtenir une liste des modèles de reranker disponibles, utilisez la méthode List the available foundation models de l'API watsonx.ai as a service. Spécifiez le paramètre " filters=function_rerank pour ne renvoyer que les modèles de reranker disponibles.
curl -X GET \
'https://{region}/ml/v1/foundation_model_specs?version=2024-07-25&filters=function_rerank'
Copy to clipboardCopié dans le presse-papiers
Aperçu des modèles de repositionnement
Copy link to section
Le tableau suivant répertorie les modèles de reranker que vous pouvez utiliser dans watsonx.ai:
Vous pouvez utiliser la bibliothèque Python ou l'API REST de watsonx.ai pour soumettre des phrases ou des passages à l'un des modèles de fondation à encodeur unique pris en charge.
all-minilm-l6-v2
Copy link to section
Le modèle d'intégration d' all-minilm-l6-v2 s est construit par la communauté open source de traitement du langage naturel (NLP) et de vision par ordinateur (CV) et fourni par Hugging Face. Utilisez le modèle en tant qu'encodeur de phrase et de paragraphe court. À partir d'un texte d'entrée, le modèle génère un vecteur qui capture les informations sémantiques contenues dans le texte.
Le modèle d'intégration all-minilm-l6-v2 est similaire au modèle d'intégration all-minilm-l12-v2, à ceci près que le modèle all-minilm-l6-v2 comporte six couches d'intégration au lieu des douze couches du modèle all-minilm-l12-v2.
Utilisation: Utilisez les vecteurs de phrases générés par le modèle d'intégration all-minilm-l6-v2 pour des tâches telles que la recherche d'informations, le regroupement et la détection de la similarité des phrases.
Niveau de prix API: Classe C1. Pour plus de détails sur les prix, voir le tableau 3.
Nombre de dimensions: 384
Limites des jetons d'entrée : 128
Langues naturelles prises en charge: anglais
Informations sur la mise au point: Ce modèle d'intégration est une version du modèle pré-entraîné MiniLM-L6-H384-uncased de Microsoft qui a été affiné sur un ensemble de données contenant 1 milliard de paires de phrases.
Le modèle d'intégration d' all-minilm-l12-v2 s est construit par la communauté open source de traitement du langage naturel (NLP) et de vision par ordinateur (CV) et fourni par Hugging Face. Utilisez le modèle en tant qu'encodeur de phrase et de paragraphe court. À partir d'un texte d'entrée, il génère un vecteur qui capture les informations sémantiques contenues dans le texte.
Le modèle d'encastrement all-minilm-l12-v2 est similaire au modèle d'encastrement all-minilm-l6-v2, à ceci près que le modèle all-minilm-l12-v2 comporte douze couches d'encastrement au lieu des six couches du modèle all-minilm-l6-v2.
Utilisation : Utilisez les vecteurs de phrases générés par le modèle d'intégration all-minilm-l12-v2 pour des tâches telles que la recherche d'informations, le regroupement et la détection de la similarité des phrases.
Niveau de prix API: Classe C1. Pour plus de détails sur les prix, voir le tableau 3.
Nombre de dimensions: 384
Limites des jetons d'entrée : 128
Langues naturelles prises en charge: anglais
Informations de réglage fin: ce modèle d'imbrication est une version du modèle MiniLM-L12-H384-uncased préentraîné de Microsoft qui est affiné avec des paires de phrases de plus d'un milliard de phrases.
Le modèle granite-embedding-107m-multilingual est un modèle à 107 millions de paramètres issu de la suite Granite Embeddings fournie par IBM Le modèle peut être utilisé pour générer des encastrements de texte de haute qualité. Le modèle est formé à l'aide d'une combinaison d'ensembles de données de paires de pertinence de source ouverte avec des licences permissives et adaptées aux entreprises, et d'ensembles de données générés et collectés par IBM Il prend en charge 12 langues : Anglais, allemand, espagnol, français, japonais, portugais, arabe, tchèque, italien, coréen, néerlandais et chinois.
Utilisation : Utilisez le modèle granite-embedding-107m-multilingual pour produire un embedding pour une entrée donnée comme une requête, un passage ou un document. Le modèle est formé pour maximiser la similarité en cosinus entre deux morceaux de texte.
Niveau de prix API: Classe C1. Pour plus de détails sur les prix, voir le tableau 2.
Nombre de dimensions: 384
Limites du jeton d'entrée: 512
Langues naturelles prises en charge : Anglais, allemand, espagnol, français, japonais, portugais, arabe, tchèque, italien, coréen, néerlandais et chinois
Informations sur la mise au point : Le modèle granite-embedding-107m-multilingual est une version du modèle XLM RoBERTa, qui est une version multilingue de RoBERTa pré-entraînée sur 2.5 To de données CommonCrawl filtrées. Le modèle a été continuellement entraîné sur un mélange d'ensembles de données multilingues pour des tâches basées sur la recherche.
Le modèle granite-embedding-278m-multilingual est un modèle à 278 millions de paramètres issu de la suite Granite Embeddings fournie par IBM Le modèle peut être utilisé pour générer des encastrements de texte de haute qualité. Le modèle est formé à l'aide d'une combinaison d'ensembles de données de paires de pertinence de source ouverte avec des licences permissives et adaptées aux entreprises, et d'ensembles de données générés et collectés par IBM Il prend en charge 12 langues : Anglais, allemand, espagnol, français, japonais, portugais, arabe, tchèque, italien, coréen, néerlandais et chinois.
Utilisation : Utilisez le modèle granite-embedding-278m-multilingual pour produire un embedding pour une entrée donnée comme une requête, un passage ou un document. Le modèle est formé pour maximiser la similarité en cosinus entre deux morceaux de texte.
Niveau de prix API: Classe C1. Pour plus de détails sur les prix, voir le tableau 2.
Nombre de dimensions: 768
Limites du jeton d'entrée: 512
Langues naturelles prises en charge : Anglais, allemand, espagnol, français, japonais, portugais, arabe, tchèque, italien, coréen, néerlandais et chinois
Informations sur la mise au point : Le modèle granite-embedding-107m-multilingual est une version du modèle XLM RoBERTa, qui est une version multilingue de RoBERTa pré-entraînée sur 2.5 To de données CommonCrawl filtrées. Le modèle a été continuellement entraîné sur un mélange d'ensembles de données multilingues pour des tâches basées sur la recherche.
Le modèle de reranker d' ms-marco-minilm-l-12-v2, développé par Microsoft, est fourni par Hugging Face. Utiliser le modèle comme un passage et un rebrasseur de documents. À partir d'un texte d'interrogation et d'un ensemble de passages de documents, il classe la liste des passages du plus au moins liés à l'interrogation.
Utilisation: Utilisez le modèle ms-marco-minilm-l-12-v2 reranker lorsque vous disposez d'un petit ensemble de passages que vous souhaitez évaluer par rapport à une requête et que la précision est essentielle. Par exemple, lorsque vous avez moins de 100 passages et que vous souhaitez les classer en fonction de leur degré de similitude avec le texte de la requête.
Niveau de prix API: Classe 11. Pour plus de détails sur les prix, voir le tableau 4.
Limites du jeton d'entrée: 512
Langues naturelles prises en charge: anglais
Informations sur la mise au point: Le modèle ms-marco-minilm-l-12-v2 a été entraîné sur la tâche de classement des passages de MS Marco. MS MARCO (Microsoft Machine Reading Comprehension) est un ensemble de données à grande échelle utilisé pour la compréhension de la lecture, la réponse aux questions et le classement des passages.
Le modèle d'intégration d' multilingual-e5-large s est construit par Microsoft et fourni par Hugging Face.
L'architecture du modèle d'intégration comporte 24 couches qui sont utilisées séquentiellement pour traiter les données.
Utilisation: Utilisez cette option pour les cas d'utilisation dans lesquels vous souhaitez générer des imbrication de texte pour du texte dans une langue autre que l'anglais. Le modèle multilingual-e5-large est utile pour des tâches telles que la recherche de passages ou d'informations, la similarité sémantique, l'extraction de bitextes et la recherche de paraphrases.
Niveau de prix API: Classe C1. Pour plus de détails sur les prix, voir le tableau 3.
Nombre de dimensions: 1,024
Limites du jeton d'entrée: 512
Langues naturelles prises en charge: jusqu'à 100 langues. Voir la carte modèle pour plus de détails.
Informations sur la mise au point : Le modèle multilingual-e5-large est une version du modèle XLM RoBERTa, qui est une version multilingue de RoBERTa pré-entraînée sur 2.5 To de données CommonCrawl filtrées. Le modèle a été continuellement entraîné sur un mélange d'ensembles de données multilingues.
Les modèles de fondation slate-125m-english-rtrvr-v2 et slate-125m-english-rtrvr sont fournis par IBM. Les modèles d'intégration IBM Slate 125m génèrent des intégrations pour diverses entrées telles que des requêtes, des passages ou des documents.
L'objectif de l'apprentissage est de maximiser la similarité de cosinus entre une requête et un passage. Ce processus donne deux plongements de phrase, l'un qui représente la question et l'autre qui représente le passage, permettant la comparaison des deux via la similarité cosinus.
Utilisation : Deux à trois fois plus lent mais légèrement plus performant que le modèle d'encastrement IBM Slate 30m.
Niveau de prix API: Classe C1. Pour plus de détails sur les prix, voir le tableau 2.
Nombre de dimensions: 768
Limites du jeton d'entrée: 512
Langues naturelles prises en charge: anglais
Informations de réglage fin: Cette version du modèle a été affinée afin d'être mieux adaptée aux tâches basées sur l'extraction de phrases.
Les modèles de base slate-30m-english-rtrvr-v2 et slate-30m-english-rtrvr sont des versions distillées du slate-125m-english-rtrvr, qui sont tous fournis par IBM. Le modèle d'intégration de l'ardoise IBM est entraîné pour maximiser la similarité cosinus entre deux entrées de texte afin que les intégrations puissent être évaluées ultérieurement sur la base de la similarité.
L'architecture de modèle d'intégration comporte 6 couches qui sont utilisées séquentiellement pour traiter les données.
Utilisation : Deux à trois fois plus rapide, avec des performances légèrement inférieures à celles du modèle d'intégration IBM Slate 125m.
Niveau de prix API: Classe C1. Pour plus de détails sur les prix, voir le tableau 2.
Pour plus d'informations sur l'utilisation des modèles d'intégration d' IBM s pour convertir des phrases et des passages en intégrations de texte, voir Génération d'intégrations de texte.