Verwenden Sie die in IBM watsonx.ai bereitgestellten Modelle, die sich auf den Encoder beschränken, um die semantische Suche, den Vergleich von Dokumenten und das Reranking zu unterstützen.
Die folgenden Arten von reinen Encoder-Fundamentmodellen sind verfügbar. Sie können sich für das foundation model entscheiden, das Ihren Anforderungen am besten entspricht, oder beide Modelle als Teil eines zweistufigen Such- und Abrufworkflows verwenden.
- Einbettung von Stiftungsmodellen
Verwenden Sie Einbettungsmodelle, wenn Sie Vektordarstellungen von Text erzeugen möchten, die Sie dann mathematisch vergleichen können. Einbettungsmodelle sind schneller und effizienter als Reranker-Modelle, aber weniger genau.
Weitere Informationen finden Sie unter Modelle einbetten.
- Reranker-Gründungsmodelle
Verwenden Sie Reranker-Modelle, wenn Sie Bewertungen für jede Passage in einer kleinen Menge von Passagen generieren möchten, um die eine oder andere Passage zu finden, die am meisten mit einer Anfrage in Verbindung steht. Rerankermodelle sind genauer, aber weniger effizient als Einbettungsmodelle. Je mehr Eingaben Sie machen, desto länger brauchen die Rerankermodelle, um den Text zu verarbeiten.
Weitere Informationen finden Sie unter Rerankermodelle.
Sie können die beiden Arten von Foundation-Modellen, die nur den Encoder enthalten, zusammen für Such- und Abrufaufgaben verwenden:
- Verwenden Sie ein Einbettungsmodell, um eine breite semantische Suche durchzuführen, die viele Ergebnisse liefert.
- Verwenden Sie ein Reranker-Modell, um die Top-Ergebnisse aus Schritt 1 auf eine einzige Antwort oder eine kurze Liste der besten Antworten einzugrenzen.
Weitere Informationen zu generativen Basismodellen enthält der Abschnitt Unterstützte Basismodelle.
Aufgaben, die von reinen Encoder-Grundmodellen unterstützt werden
Sie können reine Encoder-Modelle in watsonx.ai für die folgenden Aufgaben verwenden:
- Text vektorisieren
- Geben Sie ein Einbettungsmodell an, das für die Konvertierung von Text in Texteinbettungen unter Verwendung der watsonx.ai REST API verwendet werden soll. Siehe Modelle einbetten.
- Reranking-Passagen
- Geben Sie ein Rerankermodell an, das zum Vergleich von Passagen mit einer Abfrage verwendet werden soll, und ordnen Sie die Passagen mithilfe der watsonx.ai REST API nach dem größten bis geringsten Zusammenhang ein. Siehe Reranker-Modelle.
- Chat mit Dokumenten in Prompt Lab
- Verwenden Sie Einbettungsmodelle, um Dokumente zu vektorisieren, die Sie als Grundlage für Informationen verwenden, die Sie über Eingabeaufforderungen im Prompt Lab an das foundation model übermitteln. Siehe Hinzufügen von vektorisierten Dokumenten für die Eingabeaufforderungen des foundation model.
- AutoAI für RAG
- Verwenden Sie Einbettungsmodelle mit AutoAI, um Abfrage-erweiterte Generierungs-Workflows programmatisch zu erstellen. Siehe Automatisieren eines RAG-Musters mit dem AutoAI SDK.
Die folgende Tabelle zeigt die Aufgabentypen, die die reinen Encoder-Foundation-Modelle in IBM watsonx.ai unterstützen. Ein Häkchen (✓) zeigt an, dass die Aufgabe, die in der Spaltenüberschrift genannt wird, vom foundation model unterstützt wird.
Modell | Text vektorisieren | Rerank-Passagen | AutoAI für RAG | Chat mit Dokumenten in Prompt Lab |
---|---|---|---|---|
all-minilm-l6-v2 | ✓ | ✓ | ||
all-minilm-l12-v2 | ✓ | |||
ELSER (Elastic Learned Sparse EncodeR) | ✓ | |||
ms-marco-minilm-l-12-v2 | ✓ | |||
multilingual-e5-large | ✓ | ✓ | ||
slate-30m-english-rtrvr-v2 | ✓ | |||
slate-30m-english-rtrvr | ✓ | ✓ | ||
slate-125m-english-rtrvr-v2 | ✓ | |||
slate-125m-english-rtrvr | ✓ | ✓ | ✓ |
Modelle einbetten
Einbettungsmodelle sind Modelle, mit denen Sie Dokumente vektorisieren und Texteinbettungen erzeugen können, um Such- und Vergleichsaufgaben zu unterstützen. Eine Texteinbettung kodiert die Bedeutung eines Satzes oder einer Passage in einer Reihe von Zahlen, die als Vektor bezeichnet werden. Weitere Informationen zur Vektorisierung finden Sie unter Erzeugung von Texteinbettungen.
Nachdem die Passagen in Vektoren umgewandelt wurden, können Sie die Ähnlichkeit der unabhängigen vektorisierten Passagen mit Hilfe mathematischer Funktionen, wie z. B. der Kosinusähnlichkeit, berechnen. Die meisten Einbettungsmodelle sind Bi-Encoder-Modelle. Verwenden Sie ein Bi-Encoder-Modell, wenn eine hohe Wiedererkennungsrate wichtig ist, d. h. wenn Sie keine möglichen Übereinstimmungen übersehen wollen und wenn Sie die Ähnlichkeit vieler Passagen effizient überprüfen müssen.
Die folgenden Einbettungsmodelle können über die API in ' watsonx.ai: verwendet werden
- slate-30m-english-rtrvr-v2
- slate-30m-english-rtrvr
- slate-125m-english-rtrvr-v2
- slate-125m-english-rtrvr
- all-minilm-l6-v2
- all-minilm-l12-v2
- multilingual-e5-large
Um eine Liste der verfügbaren Einbettungsmodelle zu erhalten, verwenden Sie die Methode List the available foundation models in der watsonx.ai as a service API. Geben Sie den Parameter ' filters=function_embedding
an, um nur die Einbettungsmodelle zurückzugeben.
curl -X GET \
'https://{cluster_url}/ml/v1/foundation_model_specs?version=2024-07-25&filters=function_embedding'
IBM Einbettungsmodelle im Überblick
In der folgenden Tabelle sind die IBM aufgeführt, die Sie über die API verwenden können.
Modellname | API-Modell-ID | PreisUSD/1,000 Token) | Maximale Anzahl Eingabetoken | Anzahl der Dimensionen | Weitere Informationen |
---|---|---|---|---|---|
slate-125m-english-rtrvr-v2 | ibm/slate-125m-english-rtrvr-v2 |
$0.0001 | 512 | 768 | Modellkarte |
slate-125m-english-rtrvr | ibm/slate-125m-english-rtrvr |
$0.0001 | 512 | 768 | Modellkarte |
slate-30m-english-rtrvr-v2 | ibm/slate-30m-english-rtrvr-v2 |
$0.0001 | 512 | 384 | Modellkarte |
slate-30m-english-rtrvr | ibm/slate-30m-english-rtrvr |
$0.0001 | 512 | 384 | Modellkarte |
Übersicht über Einbettungsmodelle von Drittanbietern
In der folgenden Tabelle sind die Einbettungsmodelle von Drittanbietern aufgeführt, die Sie über die API verwenden können.
Modellname | API-Modell-ID | Einbindung | PreisUSD/1,000 Token) | Maximale Anzahl Eingabetoken | Anzahl der Dimensionen | Weitere Informationen |
---|---|---|---|---|---|---|
all-minilm-l6-v2 | sentence-transformers/all-minilm-l6-v2 |
Open-Source-Community für Verarbeitung natürlicher Sprache (NLP) und Computer Vision (CV) | $0.0001 | 256 | 384 | - Modellkarte |
all-minilm-l12-v2 | sentence-transformers/all-minilm-l12-v2 |
Open-Source-Community für Verarbeitung natürlicher Sprache (NLP) und Computer Vision (CV) | $0.0001 | 256 | 384 | - Modellkarte |
multilingual-e5-large | intfloat/multilingual-e5-large |
Microsoft | $0.0001 | 512 | 1.024 | - Musterkarte - Forschungspapier |
- Eine Liste der Modelle, die in den einzelnen regionalen Rechenzentren bereitgestellt werden, finden Sie unter Regionale Verfügbarkeit von Basismodellen.
- Die Modellnutzung wird in Ressourceneinheiten (RU) gemessen. Jede Einheit entspricht 1.000 Token aus dem Input, der an das foundation model übermittelt wird. Weitere Informationen finden Sie unter Abrechnungsdetails für generative KI-Assets.
Rerankermodelle
Rerankermodelle sind kodiererübergreifende Modelle, mit denen Sie Passagen in der Reihenfolge der größten bis geringsten Relevanz für eine Suchanfrage einstufen können. Im Gegensatz zu Bi-Encoder-Modellen verarbeiten Cross-Encoder-Modelle eine Passage und eine Abfrage gemeinsam und generieren eine Bewertung für die Ähnlichkeit der beiden Eingaben. Das Modell wiederholt diesen Schritt des Ähnlichkeitsvergleichs für jede Textstelle, die Sie aufnehmen. Diese Methode ist die bessere Wahl, wenn Sie eine kleinere Anzahl von Passagen zu bewerten haben und die beste Antwort finden wollen.
Die bei watsonx.ai verfügbaren Rerankermodelle können nicht zur Erzeugung von Texteinbettungen verwendet werden.
Das folgende Reranker-Modell kann über die API in ' watsonx.ai: verwendet werden
Um eine Liste der verfügbaren Rerankermodelle zu erhalten, verwenden Sie die Methode List the available foundation models in der watsonx.ai as a service API. Geben Sie den Parameter ' filters=function_rerank
an, um nur die verfügbaren Rerankermodelle zurückzugeben.
curl -X GET \
'https://{region}/ml/v1/foundation_model_specs?version=2024-07-25&filters=function_rerank'
Rerankermodelle im Überblick
In der folgenden Tabelle sind die unterstützten Reranker-Modelle aufgeführt.
Modellname | API-Modell-ID | Einbindung | PreisUSD/1,000 Token) | Maximale Anzahl Eingabetoken | Weitere Informationen |
---|---|---|---|---|---|
ms-marco-minilm-l-12-v2 | cross-encoder/ms-marco-minilm-l-12-v2 |
Microsoft | $0.000005 | 512 | - Modellkarte |
- Eine Liste der Modelle, die in den einzelnen regionalen Rechenzentren bereitgestellt werden, finden Sie unter Regionale Verfügbarkeit von Basismodellen.
- Die Modellnutzung wird in Ressourceneinheiten (RU) gemessen. Jede Einheit entspricht 1.000 Token aus dem Input, der an das foundation model übermittelt wird. Weitere Informationen finden Sie unter Abrechnungsdetails für generative KI-Assets.
Details zum reinen Gebermodell
Sie können die watsonx.ai Python oder die REST-API verwenden, um Sätze oder Passagen an eines der unterstützten reinen Encoder-Foundation-Modelle zu übermitteln.
all-minilm-l6-v2
Das all-minilm-l6-v2 Einbettungsmodell wurde von der Open-Source-Gemeinschaft für natürliche Sprachverarbeitung (NLP) und Computer Vision (CV) entwickelt und von Hugging Face bereitgestellt. Verwenden Sie das Modell als Encoder für Sätze und kurze Absätze. Bei einem Eingabetext erzeugt das Modell einen Vektor, der die semantischen Informationen des Textes erfasst.
Das all-minilm-l6-v2 Einbettungsmodell ähnelt dem all-minilm-l12-v2 Einbettungsmodell, mit dem Unterschied, dass das all-minilm-l6-v2 Modell sechs Einbettungsschichten anstelle der zwölf Schichten des all-minilm-l12-v2 Modells hat.
Verwendung: Verwenden Sie die Satzvektoren, die durch das all-minilm-l6-v2 generiert werden, für Aufgaben wie Information Retrieval, Clustering und zur Erkennung von Satzähnlichkeit.
Anzahl der Dimensionen: 384
Grenzwerte für Eingabetoken: 256
Unterstützte natürliche Sprachen: Englisch
Informationen zur Feinabstimmung: Dieses Einbettungsmodell ist eine Version des vortrainierten MiniLM-L6-H384-uncased Modells von Microsoft, das auf einem Datensatz mit 1 Milliarde Satzpaaren feinabgestimmt wurde.
Modellarchitektur: Nur Encoder
Lizenz: Apache 2.0 license
Weitere Informationen
all-minilm-l12-v2
Das all-minilm-l12-v2 Einbettungsmodell wurde von der Open-Source-Gemeinschaft für natürliche Sprachverarbeitung (NLP) und Computer Vision (CV) entwickelt und von Hugging Face bereitgestellt. Verwenden Sie das Modell als Encoder für Sätze und kurze Absätze. Aus einem Eingabetext wird ein Vektor erzeugt, der die semantischen Informationen des Textes erfasst.
Das all-minilm-l12-v2 Einbettungsmodell ähnelt dem all-minilm-l6-v2 Einbettungsmodell, mit dem Unterschied, dass das all-minilm-l12-v2 Modell zwölf Einbettungsschichten anstelle der sechs Schichten des all-minilm-l6-v2 Modells hat.
Verwendung: Verwenden Sie die Satzvektoren, die durch das all-minilm-l12-v2 Einbettungsmodell erzeugt werden, für Aufgaben wie Information Retrieval, Clustering und zur Erkennung von Satzähnlichkeit.
API-Preisstufe: Klasse C1. Einzelheiten zu den Preisen finden Sie in der Tabelle.
Anzahl der Dimensionen: 384
Grenzwerte für Eingabetoken: 256
Unterstützte natürliche Sprachen: Englisch
Informationen zur Feinabstimmung: Dieses Einbettungsmodell ist eine Version des vortrainierten Modells MiniLM-L12-H384-uncased von Microsoft, das mit Satzpaaren aus mehr als 1 Milliarde Sätzen feinabgestimmt ist.
Modellarchitektur: Nur Encoder
Lizenz: Apache 2.0 license
Weitere Informationen
ms-marco-minilm-l-12-v2
Das ms-marco-minilm-l-12-v2 Rerankermodell wurde von Microsoft entwickelt und von Hugging Face bereitgestellt. Verwenden Sie das Modell als Passagen- und Dokumentenleser. Ausgehend von einem Abfragetext und einer Menge von Dokumentpassagen wird die Liste der Passagen von der größten bis zur geringsten Beziehung zur Abfrage geordnet.
Verwendung: Verwenden Sie das ms-marco-minilm-l-12-v2 Rerankermodell, wenn Sie eine kleine Menge von Passagen haben, die Sie anhand einer Abfrage bewerten wollen, und wenn die Genauigkeit entscheidend ist. Zum Beispiel, wenn Sie weniger als 100 Passagen haben und diese danach bewerten wollen, wie ähnlich sie dem Abfragetext sind.
API-Preisstufe: Klasse 11. Einzelheiten zu den Preisen finden Sie in der Tabelle.
Grenzwerte für Eingabetoken: 512
Unterstützte natürliche Sprachen: Englisch
Informationen zur Feinabstimmung: Das Modell ms-marco-minilm-l-12-v2 wurde mit der Aufgabe MS Marco Passage Ranking trainiert. MS MARCO (Microsoft Machine Reading Comprehension) ist ein großer Datensatz, der für das maschinelle Leseverständnis, die Beantwortung von Fragen und das Ranking von Passagen verwendet wird.
Modellarchitektur: Nur Encoder
Lizenz: Apache 2.0 license
Weitere Informationen
multilingual-e5-large
Das multilingual-e5-large Einbettungsmodell wurde von Microsoft entwickelt und von Hugging Face bereitgestellt.
Die Architektur des Einbettungsmodells verfügt über 24 Schichten, die sequenziell für die Verarbeitung von Daten verwendet werden.
Verwendung: Verwenden Sie diese Option für Anwendungsfälle, bei denen Sie Texteinbettungen für Text in einer anderen Sprache als Englisch generieren wollen. Das multilingual-e5-large eignet sich für Aufgaben wie die Suche nach Passagen oder Informationen, semantische Ähnlichkeit, Bitext-Mining und Paraphrase-Retrieval.
API-Preisstufe: Klasse C1. Einzelheiten zu den Preisen finden Sie in der Tabelle.
Anzahl der Dimensionen: 1,024
Grenzwerte für Eingabetoken: 512
Unterstützte natürliche Sprachen: Bis zu 100 Sprachen. Details finden Sie auf der Modellkarte.
Informationen zur Feinabstimmung: Dieses Einbettungsmodell ist eine Version des XLM-RoBERTa, einer mehrsprachigen Version von RoBERTa, die auf 2.5 TB gefilterter CommonCrawl vortrainiert wurde. Dieses Einbettungsmodell wurde kontinuierlich mit einer Mischung aus mehrsprachigen Datasets trainiert.
Modellarchitektur: Nur Encoder
Lizenz: Microsoft Open-Source-Verhaltenskodex
Weitere Informationen
slate-125m-english-rtrvr
Die Grundmodelle slate-125m-english-rtrvr-v2 und slate-125m-english-rtrvr werden von IBM bereitgestellt. Die IBM Slate 125m Einbettungsmodelle erzeugen Einbettungen für verschiedene Eingaben wie Abfragen, Passagen oder Dokumente.
Das Trainingsziel besteht darin, die Kosinusähnlichkeit zwischen einer Abfrage und einer Passage zu maximieren. Dieser Prozess ergibt zwei Satzeinbettungen, eine, die die Frage darstellt, und eine, die den Durchgang darstellt, was einen Vergleich der Ähnlichkeit von zwei bis Kosinus ermöglicht.
Nutzung: Zwei- bis dreimal langsamer, aber etwas besser als das IBM Slate 30m Einbettungsmodell.
API-Preisstufe: Klasse C1. Einzelheiten zu den Preisen finden Sie in der Tabelle.
Anzahl der Dimensionen: 768
Grenzwerte für Eingabetoken: 512
Unterstützte natürliche Sprachen: Englisch
Informationen zur Optimierung: Diese Version des Modells wurde optimiert, um bei auf Satzabruf basierenden Tasks besser zu sein.
Modellarchitektur: Nur Encoder
Lizenz: Nutzungsbedingungen
Weitere Informationen
slate-30m-english-rtrvr
Die Modelle slate-30m-english-rtrvr-v2 und slate-30m-english-rtrvr sind destillierte Versionen des slate-125m-english-rtrvr, die alle von IBM bereitgestellt werden. Das IBM Slate-Einbettungsmodell wird so trainiert, dass es die Cosinus-Ähnlichkeit zwischen zwei Texteingaben maximiert, so dass die Einbettungen später anhand der Ähnlichkeit bewertet werden können.
Die Architektur des Einbettungsmodells verfügt über 6 Ebenen, die sequenziell für die Verarbeitung von Daten verwendet werden.
Nutzung: Zwei- bis dreimal schneller und mit etwas schlechteren Leistungswerten als das IBM Slate 125m Einbettungsmodell.
API-Preisstufe: Klasse C1. Einzelheiten zu den Preisen finden Sie in der Tabelle.
Probieren Sie es aus: Vektorisierten Text mit Tasks zur Generierung von Abruferweiterungen verwenden
Anzahl der Dimensionen: 384
Grenzwerte für Eingabetoken: 512
Unterstützte natürliche Sprachen: Englisch
Informationen zur Optimierung: Diese Version des Modells wurde optimiert, um bei auf Satzabruf basierenden Tasks besser zu sein.
Modellarchitektur: Nur Encoder
Lizenz: Nutzungsbedingungen
Weitere Informationen
- Hinzufügen von vektorisierten Dokumenten
- Vektorisierung von Text mit Hilfe der API
- Neueinstufung von Passagen mit Hilfe der API
- IBM Slate 30m Modellkarte
- IBM Schiefer 30m V2 Modellkarte
Übergeordnetes Thema: Unterstützte Stiftungsmodelle