Unterstützte Encoder Foundation Modelle in watsonx.ai

Letzte Aktualisierung: 02. Apr. 2025
Unterstützte Encoder Foundation Modelle in watsonx.ai

Verwenden Sie die in IBM watsonx.ai bereitgestellten Modelle, die sich auf den Encoder beschränken, um die semantische Suche, den Vergleich von Dokumenten und das Reranking zu unterstützen.

Sie können das Encoder-only-Foundation-Modell wählen, das Ihren Anforderungen am besten entspricht, oder beide Typen als Teil eines zweistufigen Such- und Abruf-Workflows verwenden. Sie können die folgenden Arten von Encoder-only-Foundation-Modellen in watsonx.ai:

Einbettung von Stiftungsmodellen

Verwenden Sie Einbettungsmodelle, wenn Sie Vektordarstellungen von Text erzeugen möchten, die Sie dann mathematisch vergleichen können. Einbettungsmodelle sind schneller und effizienter als Reranker-Modelle, aber weniger genau.

Weitere Informationen finden Sie unter Modelle einbetten.

Reranker-Gründungsmodelle

Verwenden Sie Reranker-Modelle, wenn Sie Bewertungen für jede Passage in einer kleinen Menge von Passagen generieren möchten, um die eine oder andere Passage zu finden, die am meisten mit einer Anfrage in Verbindung steht. Rerankermodelle sind genauer, aber weniger effizient als Einbettungsmodelle. Je mehr Eingaben Sie machen, desto länger brauchen die Rerankermodelle, um den Text zu verarbeiten.

Weitere Informationen finden Sie unter Rerankermodelle.

Um die beiden Arten von Encoder-only-Foundation-Modellen zusammen für Such- und Abrufaufgaben zu verwenden, können Sie Folgendes tun:

  1. Verwenden Sie ein Einbettungsmodell, um eine breite semantische Suche durchzuführen, die viele Ergebnisse liefert.
  2. Verwenden Sie ein Reranker-Modell, um die Top-Ergebnisse aus Schritt 1 auf eine einzige Antwort oder eine kurze Liste der besten Antworten einzugrenzen.

Weitere Informationen zu generativen Basismodellen enthält der Abschnitt Unterstützte Basismodelle. Im Gegensatz zu generativen Modellen können Sie Einbettungsmodelle nicht als benutzerdefinierte Grundmodelle hinzufügen.

Aufgaben, die von reinen Encoder-Grundmodellen unterstützt werden

Sie können reine Encoder-Modelle in watsonx.ai für die folgenden Aufgaben verwenden:

Text aus API vektorisieren
Geben Sie ein Einbettungsmodell an, das für die Konvertierung von Text in Texteinbettungen unter Verwendung der watsonx.ai REST API verwendet werden soll. Siehe "Text vektorisieren ".
Neusortierung von Passagen aus API
Geben Sie ein Rerankermodell an, das zum Vergleich von Passagen mit einer Abfrage verwendet werden soll, und ordnen Sie die Passagen mithilfe der watsonx.ai REST API nach dem größten bis geringsten Zusammenhang ein. Siehe die neu bewerteten Textstellen.
AutoAI für RAG
Verwenden Sie Einbettungsmodelle mit AutoAI, um Abfrage-erweiterte Generierungs-Workflows programmatisch zu erstellen. Siehe Automatisieren eines RAG-Musters mit dem AutoAI SDK.
Chat mit Dokumenten in Prompt Lab
Verwenden Sie Einbettungsmodelle, um Dokumente zu vektorisieren, die Sie als grundlegende Informationen verwenden, die Sie über Eingabeaufforderungen in der Prompt Lab an das Foundation-Modell senden. Siehe "Hinzufügen von vektorisierten Dokumenten für die Eingabeaufforderungen des Grundmodells ".

Die folgende Tabelle zeigt die Aufgabentypen, die die reinen Encoder-Foundation-Modelle in IBM watsonx.ai unterstützen. Ein Häkchen (✓) zeigt an, dass die in der Spaltenüberschrift genannte Aufgabe vom Stiftungsmodell unterstützt wird.

Tabelle 1. Unterstützung von Aufgaben durch das Encoder-only-Foundation-Modell
Modell Text von API vektorisieren Passagen aus API neu ordnen AutoAI für RAG Chat mit Dokumenten in Prompt Lab
all-minilm-l6-v2
all-minilm-l12-v2
ELSER (Elastic Learned Sparse EncodeR)
granite-embedding-107m-multilingual
granite-embedding-278m-multilingual
ms-marco-minilm-l-12-v2
multilingual-e5-large
slate-30m-english-rtrvr-v2
slate-30m-english-rtrvr
slate-125m-english-rtrvr-v2
slate-125m-english-rtrvr

Modelle einbetten

Einbettungsmodelle sind Modelle, mit denen Sie Dokumente vektorisieren und Texteinbettungen erzeugen können, um Such- und Vergleichsaufgaben zu unterstützen. Eine Texteinbettung kodiert die Bedeutung eines Satzes oder einer Passage in einer Reihe von Zahlen, die als Vektor bezeichnet werden. Weitere Informationen zur Vektorisierung finden Sie unter Erzeugung von Texteinbettungen.

Nachdem die Passagen in Vektoren umgewandelt wurden, können Sie die Ähnlichkeit der unabhängigen vektorisierten Passagen mit Hilfe mathematischer Funktionen, wie z. B. der Kosinusähnlichkeit, berechnen. Die meisten Einbettungsmodelle sind Bi-Encoder-Modelle. Verwenden Sie ein Bi-Encoder-Modell, wenn eine hohe Wiedererkennungsrate wichtig ist, d. h. wenn Sie keine möglichen Übereinstimmungen übersehen wollen und wenn Sie die Ähnlichkeit vieler Passagen effizient überprüfen müssen.

Die folgenden Einbettungsmodelle können über die API in ' watsonx.ai: verwendet werden

Um eine Liste der verfügbaren Einbettungsmodelle zu erhalten, verwenden Sie die Methode List the available foundation models in der watsonx.ai as a service API. Geben Sie den Parameter ' filters=function_embedding an, um nur die Einbettungsmodelle zurückzugeben.

curl -X GET \
  'https://{cluster_url}/ml/v1/foundation_model_specs?version=2024-07-25&filters=function_embedding'

Fähigkeiten zur Verarbeitung natürlicher Sprache

IBM Slate-Modelle versorgen auch eine Reihe von Bibliotheken mit Strom, die Sie für allgemeine Aufgaben der natürlichen Sprachverarbeitung (NLP) wie Klassifizierung, Entitätsextraktion, Stimmungsanalyse und vieles mehr nutzen können.

Weitere Informationen zur Verwendung der NLP-Funktionen der Slate-Modelle finden Sie in der NLP-Bibliothek unter Watson.

IBM Einbettungsmodelle im Überblick

In der folgenden Tabelle sind die IBM aufgeführt, die Sie über die API verwenden können.

Tabelle 2. IBM bettet Modelle in watsonx.ai ein
Modellname API-Modell-ID PreisUSD/1,000 Token) Maximale Anzahl Eingabetoken Anzahl der Dimensionen Weitere Informationen
granite-embedding-107m-multilingual ibm/granite-embedding-107m-multilingual $0.0001 512 384 Modellkarte
granite-embedding-278m-multilingual ibm/granite-embedding-278m-multilingual $0.0001 512 768 Modellkarte
slate-125m-english-rtrvr-v2 ibm/slate-125m-english-rtrvr-v2 $0.0001 512 768 Modellkarte
slate-125m-english-rtrvr ibm/slate-125m-english-rtrvr $0.0001 512 768 Modellkarte
slate-30m-english-rtrvr-v2 ibm/slate-30m-english-rtrvr-v2 $0.0001 512 384 Modellkarte
slate-30m-english-rtrvr ibm/slate-30m-english-rtrvr $0.0001 512 384 Modellkarte

Übersicht über Einbettungsmodelle von Drittanbietern

In der folgenden Tabelle sind die Einbettungsmodelle von Drittanbietern aufgeführt, die Sie über die API verwenden können.

Tabelle 3. Einbettungsmodelle von Drittanbietern in watsonx.ai
Modellname API-Modell-ID Einbindung PreisUSD/1,000 Token) Maximale Anzahl Eingabetoken Anzahl der Dimensionen Weitere Informationen
all-minilm-l6-v2 sentence-transformers/all-minilm-l6-v2 Open-Source-Community für Verarbeitung natürlicher Sprache (NLP) und Computer Vision (CV) $0.0001 256 384 - Modellkarte
all-minilm-l12-v2 sentence-transformers/all-minilm-l12-v2 Open-Source-Community für Verarbeitung natürlicher Sprache (NLP) und Computer Vision (CV) $0.0001 256 384 - Modellkarte
multilingual-e5-large intfloat/multilingual-e5-large Microsoft $0.0001 512 1.024 - Musterkarte
- Forschungspapier

 

Rerankermodelle

Rerankermodelle sind kodiererübergreifende Modelle, mit denen Sie Passagen in der Reihenfolge der größten bis geringsten Relevanz für eine Suchanfrage einstufen können. Im Gegensatz zu Bi-Encoder-Modellen verarbeiten Cross-Encoder-Modelle eine Passage und eine Abfrage gemeinsam und generieren eine Bewertung für die Ähnlichkeit der beiden Eingaben. Das Modell wiederholt diesen Schritt des Ähnlichkeitsvergleichs für jede Textstelle, die Sie aufnehmen. Diese Methode ist die bessere Wahl, wenn Sie eine kleinere Anzahl von Passagen zu bewerten haben und die beste Antwort finden wollen.

Die bei watsonx.ai verfügbaren Rerankermodelle können nicht zur Erzeugung von Texteinbettungen verwendet werden.

Das folgende Reranker-Modell kann über die API in ' watsonx.ai: verwendet werden

Um eine Liste der verfügbaren Rerankermodelle zu erhalten, verwenden Sie die Methode List the available foundation models in der watsonx.ai as a service API. Geben Sie den Parameter ' filters=function_rerank an, um nur die verfügbaren Rerankermodelle zurückzugeben.

curl -X GET \
  'https://{region}/ml/v1/foundation_model_specs?version=2024-07-25&filters=function_rerank'

Rerankermodelle im Überblick

In der folgenden Tabelle sind die Reranker-Modelle aufgeführt, die Sie verwenden können watsonx.ai:

Tabelle 4. Reranker-Modelle in watsonx.ai
Modellname API-Modell-ID Einbindung PreisUSD/1,000 Token) Maximale Anzahl Eingabetoken Weitere Informationen
ms-marco-minilm-l-12-v2 cross-encoder/ms-marco-minilm-l-12-v2 Microsoft $0.000005 512 - Modellkarte

Details zum reinen Gebermodell

Sie können die watsonx.ai Python oder die REST-API verwenden, um Sätze oder Passagen an eines der unterstützten reinen Encoder-Foundation-Modelle zu übermitteln.

all-minilm-l6-v2

Das Einbettungsmodell all-minilm-l6-v2 wurde von der Open-Source-Community für natürliche Sprachverarbeitung (NLP) und Computer Vision (CV) entwickelt und wird von Hugging Face bereitgestellt. Verwenden Sie das Modell als Encoder für Sätze und kurze Absätze. Bei einem Eingabetext erzeugt das Modell einen Vektor, der die semantischen Informationen des Textes erfasst.

Das all-minilm-l6-v2 Einbettungsmodell ähnelt dem all-minilm-l12-v2 Einbettungsmodell, mit dem Unterschied, dass das all-minilm-l6-v2 Modell sechs Einbettungsschichten anstelle der zwölf Schichten des all-minilm-l12-v2 Modells hat.

Verwendung: Verwenden Sie die Satzvektoren, die durch das all-minilm-l6-v2 generiert werden, für Aufgaben wie Information Retrieval, Clustering und zur Erkennung von Satzähnlichkeit.

API-Preisstufe: Klasse C1. Einzelheiten zu den Preisen finden Sie in Tabelle 3.

Anzahl der Dimensionen: 384

Eingabe-Token-Grenzen : 128

Unterstützte natürliche Sprachen: Englisch

Informationen zur Feinabstimmung: Dieses Einbettungsmodell ist eine Version des vortrainierten MiniLM-L6-H384-uncased Modells von Microsoft, das auf einem Datensatz mit 1 Milliarde Satzpaaren feinabgestimmt wurde.

Modellarchitektur: Nur Encoder

Lizenz: Apache 2.0 license

Weitere Informationen

all-minilm-l12-v2

Das Einbettungsmodell all-minilm-l12-v2 wurde von der Open-Source-Community für natürliche Sprachverarbeitung (NLP) und Computer Vision (CV) entwickelt und wird von Hugging Face bereitgestellt. Verwenden Sie das Modell als Encoder für Sätze und kurze Absätze. Aus einem Eingabetext wird ein Vektor erzeugt, der die semantischen Informationen des Textes erfasst.

Das all-minilm-l12-v2 Einbettungsmodell ähnelt dem all-minilm-l6-v2 Einbettungsmodell, mit dem Unterschied, dass das all-minilm-l12-v2 Modell zwölf Einbettungsschichten anstelle der sechs Schichten des all-minilm-l6-v2 Modells hat.

Verwendung: Verwenden Sie die Satzvektoren, die durch das all-minilm-l12-v2 Einbettungsmodell erzeugt werden, für Aufgaben wie Information Retrieval, Clustering und zur Erkennung von Satzähnlichkeit.

API-Preisstufe: Klasse C1. Einzelheiten zu den Preisen finden Sie in Tabelle 3.

Anzahl der Dimensionen: 384

Eingabe-Token-Grenzen : 128

Unterstützte natürliche Sprachen: Englisch

Informationen zur Feinabstimmung: Dieses Einbettungsmodell ist eine Version des vortrainierten Modells MiniLM-L12-H384-uncased von Microsoft, das mit Satzpaaren aus mehr als 1 Milliarde Sätzen feinabgestimmt ist.

Modellarchitektur: Nur Encoder

Lizenz: Apache 2.0 license

Weitere Informationen

granite-embedding-107m-multilingual

granite-embedding-107m-multilingual ist ein 107-Millionen-Parameter-Modell aus Granite von IBM. Das Modell kann zur Erstellung hochwertiger Texteinbettungen verwendet werden. Das Modell wird mithilfe einer Kombination aus Open-Source-Relevanz-Paar-Datensätzen mit freizügigen, unternehmensfreundlichen Lizenzen und Datensätzen, die von IBM generiert und gesammelt werden, trainiert. Es unterstützt 12 Sprachen: Englisch, Deutsch, Spanisch, Französisch, Japanisch, Portugiesisch, Arabisch, Tschechisch, Italienisch, Koreanisch, Niederländisch und Chinesisch.

Verwendung : Verwenden Sie granite-embedding-107m-multilingual ", um eine Einbettung für eine bestimmte Eingabe wie eine Abfrage, einen Abschnitt oder ein Dokument zu erstellen. Das Modell ist darauf trainiert, die Kosinus-Ähnlichkeit zwischen zwei eingegebenen Textstücken zu maximieren.

API-Preisstufe: Klasse C1. Einzelheiten zu den Preisen finden Sie in Tabelle 2.

Anzahl der Dimensionen: 384

Grenzwerte für Eingabetoken: 512

Unterstützte natürliche Sprachen : Englisch, Deutsch, Spanisch, Französisch, Japanisch, Portugiesisch, Arabisch, Tschechisch, Italienisch, Koreanisch, Niederländisch und Chinesisch

Informationen zur Feinabstimmung : granite-embedding-107m-multilingual ist eine Version RoBERTa, einer mehrsprachigen Version von RoBERTa, die auf 2.5 gefilterter CommonCrawl vortrainiert ist. Das Modell wurde kontinuierlich mit einer Mischung aus mehrsprachigen Datensätzen für abrufbasierte Aufgaben trainiert.

Modellarchitektur: Nur Encoder

Lizenz: Apache 2.0 license

Weitere Informationen

granite-embedding-278m-multilingual

granite-embedding-278m-multilingual ist ein 278 Millionen Parameter umfassendes Modell aus Granite von IBM. Das Modell kann zur Erstellung hochwertiger Texteinbettungen verwendet werden. Das Modell wird mithilfe einer Kombination aus Open-Source-Relevanz-Paar-Datensätzen mit freizügigen, unternehmensfreundlichen Lizenzen und Datensätzen, die von IBM generiert und gesammelt werden, trainiert. Es unterstützt 12 Sprachen: Englisch, Deutsch, Spanisch, Französisch, Japanisch, Portugiesisch, Arabisch, Tschechisch, Italienisch, Koreanisch, Niederländisch und Chinesisch.

Verwendung : Verwenden Sie granite-embedding-278m-multilingual ", um eine Einbettung für eine bestimmte Eingabe wie eine Abfrage, einen Abschnitt oder ein Dokument zu erstellen. Das Modell ist darauf trainiert, die Kosinus-Ähnlichkeit zwischen zwei eingegebenen Textstücken zu maximieren.

API-Preisstufe: Klasse C1. Einzelheiten zu den Preisen finden Sie in Tabelle 2.

Anzahl der Dimensionen: 768

Grenzwerte für Eingabetoken: 512

Unterstützte natürliche Sprachen : Englisch, Deutsch, Spanisch, Französisch, Japanisch, Portugiesisch, Arabisch, Tschechisch, Italienisch, Koreanisch, Niederländisch und Chinesisch

Informationen zur Feinabstimmung : granite-embedding-107m-multilingual ist eine Version RoBERTa, einer mehrsprachigen Version von RoBERTa, die auf 2.5 gefilterter CommonCrawl vortrainiert ist. Das Modell wurde kontinuierlich mit einer Mischung aus mehrsprachigen Datensätzen für abrufbasierte Aufgaben trainiert.

Modellarchitektur: Nur Encoder

Lizenz: Apache 2.0 license

Weitere Informationen

ms-marco-minilm-l-12-v2

Das Reranker-Modell ms-marco-minilm-l-12-v2 wurde von Microsoft entwickelt und wird von Hugging Face bereitgestellt. Verwenden Sie das Modell als Passagen- und Dokumentenleser. Ausgehend von einem Abfragetext und einer Menge von Dokumentpassagen wird die Liste der Passagen von der größten bis zur geringsten Beziehung zur Abfrage geordnet.

Verwendung: Verwenden Sie das ms-marco-minilm-l-12-v2 Rerankermodell, wenn Sie eine kleine Menge von Passagen haben, die Sie anhand einer Abfrage bewerten wollen, und wenn die Genauigkeit entscheidend ist. Zum Beispiel, wenn Sie weniger als 100 Passagen haben und diese danach bewerten wollen, wie ähnlich sie dem Abfragetext sind.

API-Preisstufe: Klasse 11. Einzelheiten zu den Preisen finden Sie in Tabelle 4.

Grenzwerte für Eingabetoken: 512

Unterstützte natürliche Sprachen: Englisch

Informationen zur Feinabstimmung: Das Modell ms-marco-minilm-l-12-v2 wurde mit der Aufgabe MS Marco Passage Ranking trainiert. MS MARCO (Microsoft Machine Reading Comprehension) ist ein großer Datensatz, der für das maschinelle Leseverständnis, die Beantwortung von Fragen und das Ranking von Passagen verwendet wird.

Modellarchitektur: Nur Encoder

Lizenz: Apache 2.0 license

Weitere Informationen

multilingual-e5-large

Das Einbettungsmodell multilingual-e5-large wurde von Microsoft entwickelt und wird von Hugging Face bereitgestellt.

Die Architektur des Einbettungsmodells verfügt über 24 Schichten, die sequenziell für die Verarbeitung von Daten verwendet werden.

Verwendung: Verwenden Sie diese Option für Anwendungsfälle, bei denen Sie Texteinbettungen für Text in einer anderen Sprache als Englisch generieren wollen. Das multilingual-e5-large eignet sich für Aufgaben wie die Suche nach Passagen oder Informationen, semantische Ähnlichkeit, Bitext-Mining und Paraphrase-Retrieval.

API-Preisstufe: Klasse C1. Einzelheiten zu den Preisen finden Sie in Tabelle 3.

Anzahl der Dimensionen: 1,024

Grenzwerte für Eingabetoken: 512

Unterstützte natürliche Sprachen: Bis zu 100 Sprachen. Details finden Sie auf der Modellkarte.

Informationen zur Feinabstimmung : multilingual-e5-large ist eine Version RoBERTa, einer mehrsprachigen Version von RoBERTa, die auf 2.5 gefilterter CommonCrawl vortrainiert ist. Das Modell wurde kontinuierlich mit einer Mischung aus mehrsprachigen Datensätzen trainiert.

Modellarchitektur: Nur Encoder

Lizenz: Microsoft Open-Source-Verhaltenskodex

Weitere Informationen

slate-125m-english-rtrvr

Die Grundmodelle slate-125m-english-rtrvr-v2 und slate-125m-english-rtrvr werden von IBM bereitgestellt. Die IBM Slate 125m Einbettungsmodelle erzeugen Einbettungen für verschiedene Eingaben wie Abfragen, Passagen oder Dokumente.

Das Trainingsziel besteht darin, die Kosinusähnlichkeit zwischen einer Abfrage und einer Passage zu maximieren. Dieser Prozess ergibt zwei Satzeinbettungen, eine, die die Frage darstellt, und eine, die den Durchgang darstellt, was einen Vergleich der Ähnlichkeit von zwei bis Kosinus ermöglicht.

Nutzung: Zwei- bis dreimal langsamer, aber etwas besser als das IBM Slate 30m Einbettungsmodell.

API-Preisstufe: Klasse C1. Einzelheiten zu den Preisen finden Sie in Tabelle 2.

Anzahl der Dimensionen: 768

Grenzwerte für Eingabetoken: 512

Unterstützte natürliche Sprachen: Englisch

Informationen zur Optimierung: Diese Version des Modells wurde optimiert, um bei auf Satzabruf basierenden Tasks besser zu sein.

Modellarchitektur: Nur Encoder

Lizenz: Nutzungsbedingungen

Weitere Informationen

slate-30m-english-rtrvr

Die Modelle slate-30m-english-rtrvr-v2 und slate-30m-english-rtrvr sind destillierte Versionen des slate-125m-english-rtrvr, die alle von IBM bereitgestellt werden. Das IBM Slate-Einbettungsmodell wird so trainiert, dass es die Cosinus-Ähnlichkeit zwischen zwei Texteingaben maximiert, so dass die Einbettungen später anhand der Ähnlichkeit bewertet werden können.

Die Architektur des Einbettungsmodells verfügt über 6 Ebenen, die sequenziell für die Verarbeitung von Daten verwendet werden.

Nutzung: Zwei- bis dreimal schneller und mit etwas schlechteren Leistungswerten als das IBM Slate 125m Einbettungsmodell.

API-Preisstufe: Klasse C1. Einzelheiten zu den Preisen finden Sie in Tabelle 2.

Probieren Sie es aus: Vektorisierten Text mit Tasks zur Generierung von Abruferweiterungen verwenden

Anzahl der Dimensionen: 384

Grenzwerte für Eingabetoken: 512

Unterstützte natürliche Sprachen: Englisch

Informationen zur Optimierung: Diese Version des Modells wurde optimiert, um bei auf Satzabruf basierenden Tasks besser zu sein.

Modellarchitektur: Nur Encoder

Lizenz: Nutzungsbedingungen

Weitere Informationen

Weitere Informationen

Übergeordnetes Thema: Unterstützte Stiftungsmodelle