Utilisez les modèles de fondation encodés uniquement qui sont déployés dans IBM watsonx.ai pour faciliter la recherche sémantique, la comparaison de documents et les tâches de reclassement.
Les types suivants de modèles de fondations à encodeur seul sont disponibles. Vous pouvez choisir le foundation model encodeur seul qui répond le mieux à vos besoins ou utiliser les deux types dans le cadre d'un flux de travail de recherche et d'extraction en deux étapes.
- Intégrer les modèles de fondation
Utilisez les modèles d'intégration lorsque vous souhaitez générer des représentations vectorielles du texte que vous pouvez ensuite comparer mathématiquement. Les modèles d'intégration sont plus rapides et plus efficaces que les modèles de reranker, mais moins précis.
Pour plus d'informations, voir Intégrer des modèles.
- Modèles de fondation pour le re-ranking
Utilisez les modèles de réankage lorsque vous souhaitez générer des scores pour chaque passage d'un petit ensemble de passages afin de trouver celui ou ceux qui sont les plus liés à une requête. Les modèles de reclassement sont plus précis, mais moins efficaces que les modèles d'intégration. Plus vous soumettez d'entrées, plus les modèles de reverbération prennent de temps pour traiter le texte.
Pour plus d'informations, voir Modèles de repositionnement.
Vous pouvez utiliser les deux types de modèles de fondation à encodeur seul ensemble pour les tâches de recherche et d'extraction :
- Utiliser un modèle d'intégration pour effectuer une recherche sémantique large qui renvoie de nombreux résultats.
- Utilisez un modèle de recherche pour réduire les premiers résultats de l'étape 1 à une seule réponse ou à une courte liste des meilleures réponses.
Pour plus d'informations sur les modèles de base génératifs, voir Modèles de base pris en charge.
Tâches prises en charge par les modèles de fondation à encodeur seul
Vous pouvez utiliser les modèles d'encodage dans watsonx.ai pour les tâches suivantes :
- Vectorisation du texte
- Spécifiez un modèle d'intégration à utiliser pour convertir le texte en intégrations de texte en utilisant l'API REST de watsonx.ai Voir Modèles d'intégration.
- Passages de reclassement
- Spécifiez un modèle de reranker à utiliser pour comparer des passages à une requête et classer les passages du plus au moins lié en utilisant l'API REST de watsonx.ai Voir Modèles de repositionnement.
- Chat avec des documents dans Prompt Lab
- Utilisez les modèles d'intégration pour vectoriser les documents à utiliser comme informations de base que vous soumettez au foundation model à partir des invites du Prompt Lab Voir Ajouter des documents vectorisés pour les invites du foundation model.
- AutoAI pour RAG
- Utilisez les modèles d'intégration avec l'AutoAI pour créer des flux de production augmentés par la recherche de manière programmatique. Voir Automatiser un modèle RAG avec le SDK AutoAI.
Le tableau suivant présente les types de tâches prises en charge par les modèles de fondation à encodeur seul d'IBM watsonx.ai Une coche (✓) indique que la tâche nommée dans l'en-tête de la colonne est prise en charge par le foundation model.
Modèle | Vectoriser le texte | Passages de Rerank | AutoAI pour RAG | Chat avec des documents dans Prompt Lab |
---|---|---|---|---|
all-minilm-l6-v2 | ✓ | ✓ | ||
all-minilm-l12-v2 | ✓ | |||
ELSER (Elastic Learned Sparse EncodeR | ✓ | |||
ms-marco-minilm-l-12-v2 | ✓ | |||
multilingual-e5-large | ✓ | ✓ | ||
slate-30m-english-rtrvr-v2 | ✓ | |||
slate-30m-english-rtrvr | ✓ | ✓ | ||
slate-125m-english-rtrvr-v2 | ✓ | |||
slate-125m-english-rtrvr | ✓ | ✓ | ✓ |
Modèles d'intégration
Les modèles d'intégration sont des modèles que vous utilisez pour vectoriser des documents et générer des intégrations de texte afin de faciliter les tâches de recherche et de comparaison. L'intégration de texte permet d'encoder le sens d'une phrase ou d'un passage dans un tableau de nombres appelé vecteur. Pour plus d'informations sur la vectorisation, voir Génération de l'incorporation de texte.
Une fois les passages convertis en vecteurs, vous pouvez calculer la similarité des passages vectorisés indépendants à l'aide de fonctions mathématiques, telles que la similarité cosinus. La plupart des modèles d'intégration sont des modèles bi-encodeurs. Utilisez un modèle à double encodeur lorsqu'un rappel élevé est essentiel, c'est-à-dire lorsque vous ne voulez pas manquer de correspondances possibles et que vous devez vérifier la similarité de nombreux passages de manière efficace.
Les modèles d'intégration suivants peuvent être utilisés à partir de l'API de watsonx.ai:
- slate-30m-english-rtrvr-v2
- slate-30m-english-rtrvr
- slate-125m-english-rtrvr-v2
- slate-125m-english-rtrvr
- all-minilm-l6-v2
- all-minilm-l12-v2
- multilingual-e5-large
Pour obtenir une liste des modèles d'intégration disponibles, utilisez la méthode List the available foundation models dans l'API watsonx.ai as a service. Spécifiez le paramètre " filters=function_embedding
pour ne renvoyer que les modèles d'intégration.
curl -X GET \
'https://{cluster_url}/ml/v1/foundation_model_specs?version=2024-07-25&filters=function_embedding'
Aperçu des modèles d'intégration IBM
Le tableau suivant répertorie les modèles d'intégration IBM que vous pouvez utiliser à partir de l'API.
Nom du modèle | ID modèle d'API | PrixUSD/1,000 jetons) | Nombre maximal de jetons d'entrée | Nombre de dimensions | Informations complémentaires |
---|---|---|---|---|---|
slate-125m-english-rtrvr-v2 | ibm/slate-125m-english-rtrvr-v2 |
$0.0001 | 512 | 768 | Carte de modèle |
slate-125m-english-rtrvr | ibm/slate-125m-english-rtrvr |
$0.0001 | 512 | 768 | Carte de modèle |
slate-30m-english-rtrvr-v2 | ibm/slate-30m-english-rtrvr-v2 |
$0.0001 | 512 | 384 | Carte de modèle |
slate-30m-english-rtrvr | ibm/slate-30m-english-rtrvr |
$0.0001 | 512 | 384 | Carte de modèle |
Vue d'ensemble des modèles d'intégration par des tiers
Le tableau suivant répertorie les modèles d'intégration de tiers que vous pouvez utiliser à partir de l'API.
Nom du modèle | ID modèle d'API | Fournisseur | PrixUSD/1,000 jetons) | Nombre maximal de jetons d'entrée | Nombre de dimensions | Informations complémentaires |
---|---|---|---|---|---|---|
all-minilm-l6-v2 | sentence-transformers/all-minilm-l6-v2 |
Communauté open source de traitement du langage naturel (NLP) et de vision par ordinateur (CV) | $0.0001 | 256 | 384 | - Carte modèle |
all-minilm-l12-v2 | sentence-transformers/all-minilm-l12-v2 |
Communauté open source de traitement du langage naturel (NLP) et de vision par ordinateur (CV) | $0.0001 | 256 | 384 | - Carte modèle |
multilingual-e5-large | intfloat/multilingual-e5-large |
Microsoft | $0.0001 | 512 | 1 024 | - Modèle de carte - Document de recherche |
- Pour obtenir la liste des modèles fournis dans chaque centre de données régional, voir Disponibilité régionale des modèles de base.
- L'utilisation du modèle est mesurée en unités de ressources (UR). Chaque unité est égale à 1 000 jetons de l'entrée soumise au foundation model. Pour plus d'informations, voir les détails de la facturation pour les ressources génératives d'IA.
Modèles de repositionnement
Les modèles de repositionnement sont des modèles de codage croisé que vous utilisez pour classer les passages dans l'ordre du plus pertinent au moins pertinent par rapport à une requête. Contrairement aux modèles à double encodeur, les modèles à double encodeur traitent un passage et une requête ensemble et génèrent un score pour la similarité des deux entrées. Le modèle répète cette étape de comparaison des similitudes pour chaque passage que vous incluez. Cette méthode est un meilleur choix lorsque vous avez un petit nombre de passages à évaluer et que vous souhaitez trouver la meilleure réponse.
Les modèles de reranker disponibles sur watsonx.ai ne peuvent pas être utilisés pour générer des embeddings de texte.
Le modèle de reranker suivant peut être utilisé à partir de l'API de watsonx.ai:
Pour obtenir une liste des modèles de reranker disponibles, utilisez la méthode List the available foundation models de l'API watsonx.ai as a service. Spécifiez le paramètre " filters=function_rerank
pour ne renvoyer que les modèles de reranker disponibles.
curl -X GET \
'https://{region}/ml/v1/foundation_model_specs?version=2024-07-25&filters=function_rerank'
Aperçu des modèles de repositionnement
Le tableau suivant répertorie les modèles de rerankers pris en charge.
Nom du modèle | ID modèle d'API | Fournisseur | PrixUSD/1,000 jetons) | Nombre maximal de jetons d'entrée | Informations complémentaires |
---|---|---|---|---|---|
ms-marco-minilm-l-12-v2 | cross-encoder/ms-marco-minilm-l-12-v2 |
Microsoft | $0.000005 | 512 | - Carte modèle |
- Pour obtenir la liste des modèles fournis dans chaque centre de données régional, voir Disponibilité régionale des modèles de base.
- L'utilisation du modèle est mesurée en unités de ressources (UR). Chaque unité est égale à 1 000 jetons de l'entrée soumise au foundation model. Pour plus d'informations, voir les détails de la facturation pour les ressources génératives d'IA.
Détails du modèle de l'encodeur seul
Vous pouvez utiliser la bibliothèque Python ou l'API REST de watsonx.ai pour soumettre des phrases ou des passages à l'un des modèles de fondation à encodeur unique pris en charge.
all-minilm-l6-v2
Le modèle d'intégration all-minilm-l6-v2 est construit par la communauté open source du traitement du langage naturel (NLP) et de la vision par ordinateur (CV) et fourni par Hugging Face Utilisez le modèle en tant qu'encodeur de phrase et de paragraphe court. À partir d'un texte d'entrée, le modèle génère un vecteur qui capture les informations sémantiques contenues dans le texte.
Le modèle d'intégration all-minilm-l6-v2 est similaire au modèle d'intégration all-minilm-l12-v2, à ceci près que le modèle all-minilm-l6-v2 comporte six couches d'intégration au lieu des douze couches du modèle all-minilm-l12-v2.
Utilisation: Utilisez les vecteurs de phrases générés par le modèle d'intégration all-minilm-l6-v2 pour des tâches telles que la recherche d'informations, le regroupement et la détection de la similarité des phrases.
Nombre de dimensions: 384
Limites de jeton d'entrée: 256
Langues naturelles prises en charge: anglais
Informations sur la mise au point: Ce modèle d'intégration est une version du modèle pré-entraîné MiniLM-L6-H384-uncased de Microsoft qui a été affiné sur un ensemble de données contenant 1 milliard de paires de phrases.
Architecture de modèle: Encoder uniquement
Licence: Apache 2.0 license
En savoir plus
all-minilm-l12-v2
Le modèle d'intégration all-minilm-l12-v2 est construit par la communauté open source du traitement du langage naturel (NLP) et de la vision par ordinateur (CV) et fourni par Hugging Face Utilisez le modèle en tant qu'encodeur de phrase et de paragraphe court. À partir d'un texte d'entrée, il génère un vecteur qui capture les informations sémantiques contenues dans le texte.
Le modèle d'encastrement all-minilm-l12-v2 est similaire au modèle d'encastrement all-minilm-l6-v2, à ceci près que le modèle all-minilm-l12-v2 comporte douze couches d'encastrement au lieu des six couches du modèle all-minilm-l6-v2.
Utilisation : Utilisez les vecteurs de phrases générés par le modèle d'intégration all-minilm-l12-v2 pour des tâches telles que la recherche d'informations, le regroupement et la détection de la similarité des phrases.
Niveau de prix API: Classe C1. Pour plus de détails sur les prix, voir le tableau.
Nombre de dimensions: 384
Limites de jeton d'entrée: 256
Langues naturelles prises en charge: anglais
Informations de réglage fin: ce modèle d'imbrication est une version du modèle MiniLM-L12-H384-uncased préentraîné de Microsoft qui est affiné avec des paires de phrases de plus d'un milliard de phrases.
Architecture de modèle: Encoder uniquement
Licence: Apache 2.0 license
En savoir plus
ms-marco-minilm-l-12-v2
Le modèle de recherche ms-marco-minilm-l-12-v2 est construit par Microsoft et fourni par Hugging Face Utiliser le modèle comme un passage et un rebrasseur de documents. À partir d'un texte d'interrogation et d'un ensemble de passages de documents, il classe la liste des passages du plus au moins liés à l'interrogation.
Utilisation: Utilisez le modèle ms-marco-minilm-l-12-v2 reranker lorsque vous disposez d'un petit ensemble de passages que vous souhaitez évaluer par rapport à une requête et que la précision est essentielle. Par exemple, lorsque vous avez moins de 100 passages et que vous souhaitez les classer en fonction de leur degré de similitude avec le texte de la requête.
Niveau de prix API: Classe 11. Pour plus de détails sur les prix, voir le tableau.
Limites du jeton d'entrée: 512
Langues naturelles prises en charge: anglais
Informations sur la mise au point: Le modèle ms-marco-minilm-l-12-v2 a été entraîné sur la tâche de classement des passages de MS Marco. MS MARCO (Microsoft Machine Reading Comprehension) est un ensemble de données à grande échelle utilisé pour la compréhension de la lecture, la réponse aux questions et le classement des passages.
Architecture de modèle: Encoder uniquement
Licence: Apache 2.0 license
En savoir plus
multilingual-e5-large
Le modèle d'intégration multilingual-e5-large est conçu par Microsoft et fourni par Hugging Face
L'architecture du modèle d'intégration comporte 24 couches qui sont utilisées séquentiellement pour traiter les données.
Utilisation: Utilisez cette option pour les cas d'utilisation dans lesquels vous souhaitez générer des imbrication de texte pour du texte dans une langue autre que l'anglais. Le modèle multilingual-e5-large est utile pour des tâches telles que la recherche de passages ou d'informations, la similarité sémantique, l'extraction de bitextes et la recherche de paraphrases.
Niveau de prix API: Classe C1. Pour plus de détails sur les prix, voir le tableau.
Nombre de dimensions: 1,024
Limites du jeton d'entrée: 512
Langues naturelles prises en charge: jusqu'à 100 langues. Voir la carte modèle pour plus de détails.
Informations sur la mise au point: Ce modèle d'intégration est une version du modèle XLM-RoBERTa, qui est une version multilingue de RoBERTa pré-entraînée sur 2.5 To de données CommonCrawl filtrées. Ce modèle d'intégration a été continuellement entraîné sur un mélange de jeux de données multilingues.
Architecture de modèle: Encoder uniquement
Licence: Code de conduite Microsoft Open Source
En savoir plus
slate-125m-english-rtrvr
Les modèles de fondation slate-125m-english-rtrvr-v2 et slate-125m-english-rtrvr sont fournis par IBM. Les modèles d'intégration IBM Slate 125m génèrent des intégrations pour diverses entrées telles que des requêtes, des passages ou des documents.
L'objectif de l'apprentissage est de maximiser la similarité de cosinus entre une requête et un passage. Ce processus donne deux plongements de phrase, l'un qui représente la question et l'autre qui représente le passage, permettant la comparaison des deux via la similarité cosinus.
Utilisation : Deux à trois fois plus lent mais légèrement plus performant que le modèle d'encastrement IBM Slate 30m.
Niveau de prix API: Classe C1. Pour plus de détails sur les prix, voir le tableau.
Nombre de dimensions: 768
Limites du jeton d'entrée: 512
Langues naturelles prises en charge: anglais
Informations de réglage fin: Cette version du modèle a été affinée afin d'être mieux adaptée aux tâches basées sur l'extraction de phrases.
Architecture de modèle: Encoder uniquement
Licence: Conditions d'utilisation
En savoir plus
slate-30m-english-rtrvr
Les modèles de base slate-30m-english-rtrvr-v2 et slate-30m-english-rtrvr sont des versions distillées du slate-125m-english-rtrvr, qui sont tous fournis par IBM. Le modèle d'intégration de l'ardoise IBM est entraîné pour maximiser la similarité cosinus entre deux entrées de texte afin que les intégrations puissent être évaluées ultérieurement sur la base de la similarité.
L'architecture de modèle d'intégration comporte 6 couches qui sont utilisées séquentiellement pour traiter les données.
Utilisation : Deux à trois fois plus rapide, avec des performances légèrement inférieures à celles du modèle d'intégration IBM Slate 125m.
Niveau de prix API: Classe C1. Pour plus de détails sur les prix, voir le tableau.
Testez: Utilisation de texte vectorisé avec des tâches de génération d'extension d'extraction
Nombre de dimensions: 384
Limites du jeton d'entrée: 512
Langues naturelles prises en charge: anglais
Informations de réglage fin: Cette version du modèle a été affinée afin d'être mieux adaptée aux tâches basées sur l'extraction de phrases.
Architecture de modèle: Encoder uniquement
Licence: Conditions d'utilisation
En savoir plus
- Ajout de documents vectorisés
- Vectorisation de texte à l'aide de l'API
- Reranking des passages à l'aide de l'API
- IBM Carte modèle Slate 30m
- IBM Ardoise 30m V2 Carte modèle
Thème parent : Modèles de fondations soutenues