0 / 0
Retourner à la version anglaise de la documentation
Modèles de fondation d'encodeurs pris en charge dans watsonx.ai
Dernière mise à jour : 12 déc. 2024
Modèles de fondation d'encodeurs pris en charge dans watsonx.ai

Utilisez les modèles de fondation encodés uniquement qui sont déployés dans IBM watsonx.ai pour faciliter la recherche sémantique, la comparaison de documents et les tâches de reclassement.

Les types suivants de modèles de fondations à encodeur seul sont disponibles. Vous pouvez choisir le foundation model encodeur seul qui répond le mieux à vos besoins ou utiliser les deux types dans le cadre d'un flux de travail de recherche et d'extraction en deux étapes.

Intégrer les modèles de fondation

Utilisez les modèles d'intégration lorsque vous souhaitez générer des représentations vectorielles du texte que vous pouvez ensuite comparer mathématiquement. Les modèles d'intégration sont plus rapides et plus efficaces que les modèles de reranker, mais moins précis.

Pour plus d'informations, voir Intégrer des modèles.

Modèles de fondation pour le re-ranking

Utilisez les modèles de réankage lorsque vous souhaitez générer des scores pour chaque passage d'un petit ensemble de passages afin de trouver celui ou ceux qui sont les plus liés à une requête. Les modèles de reclassement sont plus précis, mais moins efficaces que les modèles d'intégration. Plus vous soumettez d'entrées, plus les modèles de reverbération prennent de temps pour traiter le texte.

Pour plus d'informations, voir Modèles de repositionnement.

Vous pouvez utiliser les deux types de modèles de fondation à encodeur seul ensemble pour les tâches de recherche et d'extraction :

  1. Utiliser un modèle d'intégration pour effectuer une recherche sémantique large qui renvoie de nombreux résultats.
  2. Utilisez un modèle de recherche pour réduire les premiers résultats de l'étape 1 à une seule réponse ou à une courte liste des meilleures réponses.

Pour plus d'informations sur les modèles de base génératifs, voir Modèles de base pris en charge.

Tâches prises en charge par les modèles de fondation à encodeur seul

Vous pouvez utiliser les modèles d'encodage dans watsonx.ai pour les tâches suivantes :

Vectorisation du texte
Spécifiez un modèle d'intégration à utiliser pour convertir le texte en intégrations de texte en utilisant l'API REST de watsonx.ai Voir Modèles d'intégration.
Passages de reclassement
Spécifiez un modèle de reranker à utiliser pour comparer des passages à une requête et classer les passages du plus au moins lié en utilisant l'API REST de watsonx.ai Voir Modèles de repositionnement.
Chat avec des documents dans Prompt Lab
Utilisez les modèles d'intégration pour vectoriser les documents à utiliser comme informations de base que vous soumettez au foundation model à partir des invites du Prompt Lab Voir Ajouter des documents vectorisés pour les invites du foundation model.
AutoAI pour RAG
Utilisez les modèles d'intégration avec l'AutoAI pour créer des flux de production augmentés par la recherche de manière programmatique. Voir Automatiser un modèle RAG avec le SDK AutoAI.

Le tableau suivant présente les types de tâches prises en charge par les modèles de fondation à encodeur seul d'IBM watsonx.ai Une coche (✓) indique que la tâche nommée dans l'en-tête de la colonne est prise en charge par le foundation model.

Tableau 0. Soutien à la tâche du foundation model codeur uniquement
Modèle Vectoriser le texte Passages de Rerank AutoAI pour RAG Chat avec des documents dans Prompt Lab
all-minilm-l6-v2
all-minilm-l12-v2
ELSER (Elastic Learned Sparse EncodeR
ms-marco-minilm-l-12-v2
multilingual-e5-large
slate-30m-english-rtrvr-v2
slate-30m-english-rtrvr
slate-125m-english-rtrvr-v2
slate-125m-english-rtrvr

Modèles d'intégration

Les modèles d'intégration sont des modèles que vous utilisez pour vectoriser des documents et générer des intégrations de texte afin de faciliter les tâches de recherche et de comparaison. L'intégration de texte permet d'encoder le sens d'une phrase ou d'un passage dans un tableau de nombres appelé vecteur. Pour plus d'informations sur la vectorisation, voir Génération de l'incorporation de texte.

Une fois les passages convertis en vecteurs, vous pouvez calculer la similarité des passages vectorisés indépendants à l'aide de fonctions mathématiques, telles que la similarité cosinus. La plupart des modèles d'intégration sont des modèles bi-encodeurs. Utilisez un modèle à double encodeur lorsqu'un rappel élevé est essentiel, c'est-à-dire lorsque vous ne voulez pas manquer de correspondances possibles et que vous devez vérifier la similarité de nombreux passages de manière efficace.

Les modèles d'intégration suivants peuvent être utilisés à partir de l'API de watsonx.ai:

Pour obtenir une liste des modèles d'intégration disponibles, utilisez la méthode List the available foundation models dans l'API watsonx.ai as a service. Spécifiez le paramètre " filters=function_embedding pour ne renvoyer que les modèles d'intégration.

curl -X GET \
  'https://{cluster_url}/ml/v1/foundation_model_specs?version=2024-07-25&filters=function_embedding'

Aperçu des modèles d'intégration IBM

Le tableau suivant répertorie les modèles d'intégration IBM que vous pouvez utiliser à partir de l'API.

Tableau 1. Modèles d'intégration IBM dans watsonx.ai
Nom du modèle ID modèle d'API PrixUSD/1,000 jetons) Nombre maximal de jetons d'entrée Nombre de dimensions Informations complémentaires
slate-125m-english-rtrvr-v2 ibm/slate-125m-english-rtrvr-v2 $0.0001 512 768 Carte de modèle
slate-125m-english-rtrvr ibm/slate-125m-english-rtrvr $0.0001 512 768 Carte de modèle
slate-30m-english-rtrvr-v2 ibm/slate-30m-english-rtrvr-v2 $0.0001 512 384 Carte de modèle
slate-30m-english-rtrvr ibm/slate-30m-english-rtrvr $0.0001 512 384 Carte de modèle

Vue d'ensemble des modèles d'intégration par des tiers

Le tableau suivant répertorie les modèles d'intégration de tiers que vous pouvez utiliser à partir de l'API.

Tableau 2. Modèles d'intégration de tiers pris en charge dans watsonx.ai
Nom du modèle ID modèle d'API Fournisseur PrixUSD/1,000 jetons) Nombre maximal de jetons d'entrée Nombre de dimensions Informations complémentaires
all-minilm-l6-v2 sentence-transformers/all-minilm-l6-v2 Communauté open source de traitement du langage naturel (NLP) et de vision par ordinateur (CV) $0.0001 256 384 - Carte modèle
all-minilm-l12-v2 sentence-transformers/all-minilm-l12-v2 Communauté open source de traitement du langage naturel (NLP) et de vision par ordinateur (CV) $0.0001 256 384 - Carte modèle
multilingual-e5-large intfloat/multilingual-e5-large Microsoft $0.0001 512 1 024 - Modèle de carte
- Document de recherche

 

Modèles de repositionnement

Les modèles de repositionnement sont des modèles de codage croisé que vous utilisez pour classer les passages dans l'ordre du plus pertinent au moins pertinent par rapport à une requête. Contrairement aux modèles à double encodeur, les modèles à double encodeur traitent un passage et une requête ensemble et génèrent un score pour la similarité des deux entrées. Le modèle répète cette étape de comparaison des similitudes pour chaque passage que vous incluez. Cette méthode est un meilleur choix lorsque vous avez un petit nombre de passages à évaluer et que vous souhaitez trouver la meilleure réponse.

Les modèles de reranker disponibles sur watsonx.ai ne peuvent pas être utilisés pour générer des embeddings de texte.

Le modèle de reranker suivant peut être utilisé à partir de l'API de watsonx.ai:

Pour obtenir une liste des modèles de reranker disponibles, utilisez la méthode List the available foundation models de l'API watsonx.ai as a service. Spécifiez le paramètre " filters=function_rerank pour ne renvoyer que les modèles de reranker disponibles.

curl -X GET \
  'https://{region}/ml/v1/foundation_model_specs?version=2024-07-25&filters=function_rerank'

Aperçu des modèles de repositionnement

Le tableau suivant répertorie les modèles de rerankers pris en charge.

Tableau 3. Modèles de reranker pris en charge dans watsonx.ai
Nom du modèle ID modèle d'API Fournisseur PrixUSD/1,000 jetons) Nombre maximal de jetons d'entrée Informations complémentaires
ms-marco-minilm-l-12-v2 cross-encoder/ms-marco-minilm-l-12-v2 Microsoft $0.000005 512 - Carte modèle

Détails du modèle de l'encodeur seul

Vous pouvez utiliser la bibliothèque Python ou l'API REST de watsonx.ai pour soumettre des phrases ou des passages à l'un des modèles de fondation à encodeur unique pris en charge.

all-minilm-l6-v2

Le modèle d'intégration all-minilm-l6-v2 est construit par la communauté open source du traitement du langage naturel (NLP) et de la vision par ordinateur (CV) et fourni par Hugging Face Utilisez le modèle en tant qu'encodeur de phrase et de paragraphe court. À partir d'un texte d'entrée, le modèle génère un vecteur qui capture les informations sémantiques contenues dans le texte.

Le modèle d'intégration all-minilm-l6-v2 est similaire au modèle d'intégration all-minilm-l12-v2, à ceci près que le modèle all-minilm-l6-v2 comporte six couches d'intégration au lieu des douze couches du modèle all-minilm-l12-v2.

Utilisation: Utilisez les vecteurs de phrases générés par le modèle d'intégration all-minilm-l6-v2 pour des tâches telles que la recherche d'informations, le regroupement et la détection de la similarité des phrases.

Nombre de dimensions: 384

Limites de jeton d'entrée: 256

Langues naturelles prises en charge: anglais

Informations sur la mise au point: Ce modèle d'intégration est une version du modèle pré-entraîné MiniLM-L6-H384-uncased de Microsoft qui a été affiné sur un ensemble de données contenant 1 milliard de paires de phrases.

Architecture de modèle: Encoder uniquement

Licence: Apache 2.0 license

En savoir plus

all-minilm-l12-v2

Le modèle d'intégration all-minilm-l12-v2 est construit par la communauté open source du traitement du langage naturel (NLP) et de la vision par ordinateur (CV) et fourni par Hugging Face Utilisez le modèle en tant qu'encodeur de phrase et de paragraphe court. À partir d'un texte d'entrée, il génère un vecteur qui capture les informations sémantiques contenues dans le texte.

Le modèle d'encastrement all-minilm-l12-v2 est similaire au modèle d'encastrement all-minilm-l6-v2, à ceci près que le modèle all-minilm-l12-v2 comporte douze couches d'encastrement au lieu des six couches du modèle all-minilm-l6-v2.

Utilisation : Utilisez les vecteurs de phrases générés par le modèle d'intégration all-minilm-l12-v2 pour des tâches telles que la recherche d'informations, le regroupement et la détection de la similarité des phrases.

Niveau de prix API: Classe C1. Pour plus de détails sur les prix, voir le tableau.

Nombre de dimensions: 384

Limites de jeton d'entrée: 256

Langues naturelles prises en charge: anglais

Informations de réglage fin: ce modèle d'imbrication est une version du modèle MiniLM-L12-H384-uncased préentraîné de Microsoft qui est affiné avec des paires de phrases de plus d'un milliard de phrases.

Architecture de modèle: Encoder uniquement

Licence: Apache 2.0 license

En savoir plus

ms-marco-minilm-l-12-v2

Le modèle de recherche ms-marco-minilm-l-12-v2 est construit par Microsoft et fourni par Hugging Face Utiliser le modèle comme un passage et un rebrasseur de documents. À partir d'un texte d'interrogation et d'un ensemble de passages de documents, il classe la liste des passages du plus au moins liés à l'interrogation.

Utilisation: Utilisez le modèle ms-marco-minilm-l-12-v2 reranker lorsque vous disposez d'un petit ensemble de passages que vous souhaitez évaluer par rapport à une requête et que la précision est essentielle. Par exemple, lorsque vous avez moins de 100 passages et que vous souhaitez les classer en fonction de leur degré de similitude avec le texte de la requête.

Niveau de prix API: Classe 11. Pour plus de détails sur les prix, voir le tableau.

Limites du jeton d'entrée: 512

Langues naturelles prises en charge: anglais

Informations sur la mise au point: Le modèle ms-marco-minilm-l-12-v2 a été entraîné sur la tâche de classement des passages de MS Marco. MS MARCO (Microsoft Machine Reading Comprehension) est un ensemble de données à grande échelle utilisé pour la compréhension de la lecture, la réponse aux questions et le classement des passages.

Architecture de modèle: Encoder uniquement

Licence: Apache 2.0 license

En savoir plus

multilingual-e5-large

Le modèle d'intégration multilingual-e5-large est conçu par Microsoft et fourni par Hugging Face

L'architecture du modèle d'intégration comporte 24 couches qui sont utilisées séquentiellement pour traiter les données.

Utilisation: Utilisez cette option pour les cas d'utilisation dans lesquels vous souhaitez générer des imbrication de texte pour du texte dans une langue autre que l'anglais. Le modèle multilingual-e5-large est utile pour des tâches telles que la recherche de passages ou d'informations, la similarité sémantique, l'extraction de bitextes et la recherche de paraphrases.

Niveau de prix API: Classe C1. Pour plus de détails sur les prix, voir le tableau.

Nombre de dimensions: 1,024

Limites du jeton d'entrée: 512

Langues naturelles prises en charge: jusqu'à 100 langues. Voir la carte modèle pour plus de détails.

Informations sur la mise au point: Ce modèle d'intégration est une version du modèle XLM-RoBERTa, qui est une version multilingue de RoBERTa pré-entraînée sur 2.5 To de données CommonCrawl filtrées. Ce modèle d'intégration a été continuellement entraîné sur un mélange de jeux de données multilingues.

Architecture de modèle: Encoder uniquement

Licence: Code de conduite Microsoft Open Source

En savoir plus

slate-125m-english-rtrvr

Les modèles de fondation slate-125m-english-rtrvr-v2 et slate-125m-english-rtrvr sont fournis par IBM. Les modèles d'intégration IBM Slate 125m génèrent des intégrations pour diverses entrées telles que des requêtes, des passages ou des documents.

L'objectif de l'apprentissage est de maximiser la similarité de cosinus entre une requête et un passage. Ce processus donne deux plongements de phrase, l'un qui représente la question et l'autre qui représente le passage, permettant la comparaison des deux via la similarité cosinus.

Utilisation : Deux à trois fois plus lent mais légèrement plus performant que le modèle d'encastrement IBM Slate 30m.

Niveau de prix API: Classe C1. Pour plus de détails sur les prix, voir le tableau.

Nombre de dimensions: 768

Limites du jeton d'entrée: 512

Langues naturelles prises en charge: anglais

Informations de réglage fin: Cette version du modèle a été affinée afin d'être mieux adaptée aux tâches basées sur l'extraction de phrases.

Architecture de modèle: Encoder uniquement

Licence: Conditions d'utilisation

En savoir plus

slate-30m-english-rtrvr

Les modèles de base slate-30m-english-rtrvr-v2 et slate-30m-english-rtrvr sont des versions distillées du slate-125m-english-rtrvr, qui sont tous fournis par IBM. Le modèle d'intégration de l'ardoise IBM est entraîné pour maximiser la similarité cosinus entre deux entrées de texte afin que les intégrations puissent être évaluées ultérieurement sur la base de la similarité.

L'architecture de modèle d'intégration comporte 6 couches qui sont utilisées séquentiellement pour traiter les données.

Utilisation : Deux à trois fois plus rapide, avec des performances légèrement inférieures à celles du modèle d'intégration IBM Slate 125m.

Niveau de prix API: Classe C1. Pour plus de détails sur les prix, voir le tableau.

Testez: Utilisation de texte vectorisé avec des tâches de génération d'extension d'extraction

Nombre de dimensions: 384

Limites du jeton d'entrée: 512

Langues naturelles prises en charge: anglais

Informations de réglage fin: Cette version du modèle a été affinée afin d'être mieux adaptée aux tâches basées sur l'extraction de phrases.

Architecture de modèle: Encoder uniquement

Licence: Conditions d'utilisation

En savoir plus

Thème parent : Modèles de fondations soutenues

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus