Unterstützte Encoder Foundation Modelle in watsonx.ai
Letzte Aktualisierung: 02. Apr. 2025
Unterstützte Encoder Foundation Modelle in watsonx.ai
Verwenden Sie die in IBM watsonx.ai bereitgestellten Modelle, die sich auf den Encoder beschränken, um die semantische Suche, den Vergleich von Dokumenten und das Reranking zu unterstützen.
Sie können das Encoder-only-Foundation-Modell wählen, das Ihren Anforderungen am besten entspricht, oder beide Typen als Teil eines zweistufigen Such- und Abruf-Workflows verwenden. Sie können die folgenden Arten von Encoder-only-Foundation-Modellen in watsonx.ai:
Einbettung von Stiftungsmodellen
Verwenden Sie Einbettungsmodelle, wenn Sie Vektordarstellungen von Text erzeugen möchten, die Sie dann mathematisch vergleichen können. Einbettungsmodelle sind schneller und effizienter als Reranker-Modelle, aber weniger genau.
Verwenden Sie Reranker-Modelle, wenn Sie Bewertungen für jede Passage in einer kleinen Menge von Passagen generieren möchten, um die eine oder andere Passage zu finden, die am meisten mit einer Anfrage in Verbindung steht. Rerankermodelle sind genauer, aber weniger effizient als Einbettungsmodelle. Je mehr Eingaben Sie machen, desto länger brauchen die Rerankermodelle, um den Text zu verarbeiten.
Um die beiden Arten von Encoder-only-Foundation-Modellen zusammen für Such- und Abrufaufgaben zu verwenden, können Sie Folgendes tun:
Verwenden Sie ein Einbettungsmodell, um eine breite semantische Suche durchzuführen, die viele Ergebnisse liefert.
Verwenden Sie ein Reranker-Modell, um die Top-Ergebnisse aus Schritt 1 auf eine einzige Antwort oder eine kurze Liste der besten Antworten einzugrenzen.
Weitere Informationen zu generativen Basismodellen enthält der Abschnitt Unterstützte Basismodelle. Im Gegensatz zu generativen Modellen können Sie Einbettungsmodelle nicht als benutzerdefinierte Grundmodelle hinzufügen.
Aufgaben, die von reinen Encoder-Grundmodellen unterstützt werden
Copy link to section
Sie können reine Encoder-Modelle in watsonx.ai für die folgenden Aufgaben verwenden:
Text aus API vektorisieren
Geben Sie ein Einbettungsmodell an, das für die Konvertierung von Text in Texteinbettungen unter Verwendung der watsonx.ai REST API verwendet werden soll. Siehe "Text vektorisieren ".
Neusortierung von Passagen aus API
Geben Sie ein Rerankermodell an, das zum Vergleich von Passagen mit einer Abfrage verwendet werden soll, und ordnen Sie die Passagen mithilfe der watsonx.ai REST API nach dem größten bis geringsten Zusammenhang ein. Siehe die neu bewerteten Textstellen.
Die folgende Tabelle zeigt die Aufgabentypen, die die reinen Encoder-Foundation-Modelle in IBM watsonx.ai unterstützen. Ein Häkchen (✓) zeigt an, dass die in der Spaltenüberschrift genannte Aufgabe vom Stiftungsmodell unterstützt wird.
Tabelle 1. Unterstützung von Aufgaben durch das Encoder-only-Foundation-Modell
Modell
Text von API vektorisieren
Passagen aus API neu ordnen
AutoAI für RAG
Chat mit Dokumenten in Prompt Lab
all-minilm-l6-v2
✓
✓
all-minilm-l12-v2
✓
✓
ELSER (Elastic Learned Sparse EncodeR)
✓
granite-embedding-107m-multilingual
✓
✓
granite-embedding-278m-multilingual
✓
✓
ms-marco-minilm-l-12-v2
✓
multilingual-e5-large
✓
✓
✓
slate-30m-english-rtrvr-v2
✓
✓
slate-30m-english-rtrvr
✓
✓
slate-125m-english-rtrvr-v2
✓
✓
slate-125m-english-rtrvr
✓
✓
✓
Modelle einbetten
Copy link to section
Einbettungsmodelle sind Modelle, mit denen Sie Dokumente vektorisieren und Texteinbettungen erzeugen können, um Such- und Vergleichsaufgaben zu unterstützen. Eine Texteinbettung kodiert die Bedeutung eines Satzes oder einer Passage in einer Reihe von Zahlen, die als Vektor bezeichnet werden. Weitere Informationen zur Vektorisierung finden Sie unter Erzeugung von Texteinbettungen.
Nachdem die Passagen in Vektoren umgewandelt wurden, können Sie die Ähnlichkeit der unabhängigen vektorisierten Passagen mit Hilfe mathematischer Funktionen, wie z. B. der Kosinusähnlichkeit, berechnen. Die meisten Einbettungsmodelle sind Bi-Encoder-Modelle. Verwenden Sie ein Bi-Encoder-Modell, wenn eine hohe Wiedererkennungsrate wichtig ist, d. h. wenn Sie keine möglichen Übereinstimmungen übersehen wollen und wenn Sie die Ähnlichkeit vieler Passagen effizient überprüfen müssen.
Die folgenden Einbettungsmodelle können über die API in ' watsonx.ai: verwendet werden
Um eine Liste der verfügbaren Einbettungsmodelle zu erhalten, verwenden Sie die Methode List the available foundation models in der watsonx.ai as a service API. Geben Sie den Parameter ' filters=function_embedding an, um nur die Einbettungsmodelle zurückzugeben.
curl -X GET \
'https://{cluster_url}/ml/v1/foundation_model_specs?version=2024-07-25&filters=function_embedding'
Copy to clipboardIn die Zwischenablage kopiert
Fähigkeiten zur Verarbeitung natürlicher Sprache
Copy link to section
IBM Slate-Modelle versorgen auch eine Reihe von Bibliotheken mit Strom, die Sie für allgemeine Aufgaben der natürlichen Sprachverarbeitung (NLP) wie Klassifizierung, Entitätsextraktion, Stimmungsanalyse und vieles mehr nutzen können.
Die Modellnutzung wird in Ressourceneinheiten (RU) gemessen. Jede Einheit entspricht 1.000 Token aus dem Input, der an das Stiftungsmodell übermittelt wird. Weitere Informationen finden Sie unter Abrechnungsdetails für generative KI-Assets.
Rerankermodelle
Copy link to section
Rerankermodelle sind kodiererübergreifende Modelle, mit denen Sie Passagen in der Reihenfolge der größten bis geringsten Relevanz für eine Suchanfrage einstufen können. Im Gegensatz zu Bi-Encoder-Modellen verarbeiten Cross-Encoder-Modelle eine Passage und eine Abfrage gemeinsam und generieren eine Bewertung für die Ähnlichkeit der beiden Eingaben. Das Modell wiederholt diesen Schritt des Ähnlichkeitsvergleichs für jede Textstelle, die Sie aufnehmen. Diese Methode ist die bessere Wahl, wenn Sie eine kleinere Anzahl von Passagen zu bewerten haben und die beste Antwort finden wollen.
Die bei watsonx.ai verfügbaren Rerankermodelle können nicht zur Erzeugung von Texteinbettungen verwendet werden.
Das folgende Reranker-Modell kann über die API in ' watsonx.ai: verwendet werden
Um eine Liste der verfügbaren Rerankermodelle zu erhalten, verwenden Sie die Methode List the available foundation models in der watsonx.ai as a service API. Geben Sie den Parameter ' filters=function_rerank an, um nur die verfügbaren Rerankermodelle zurückzugeben.
curl -X GET \
'https://{region}/ml/v1/foundation_model_specs?version=2024-07-25&filters=function_rerank'
Copy to clipboardIn die Zwischenablage kopiert
Rerankermodelle im Überblick
Copy link to section
In der folgenden Tabelle sind die Reranker-Modelle aufgeführt, die Sie verwenden können watsonx.ai:
Die Modellnutzung wird in Ressourceneinheiten (RU) gemessen. Jede Einheit entspricht 1.000 Token aus dem Input, der an das Stiftungsmodell übermittelt wird. Weitere Informationen finden Sie unter Abrechnungsdetails für generative KI-Assets.
Details zum reinen Gebermodell
Copy link to section
Sie können die watsonx.ai Python oder die REST-API verwenden, um Sätze oder Passagen an eines der unterstützten reinen Encoder-Foundation-Modelle zu übermitteln.
all-minilm-l6-v2
Copy link to section
Das Einbettungsmodell all-minilm-l6-v2 wurde von der Open-Source-Community für natürliche Sprachverarbeitung (NLP) und Computer Vision (CV) entwickelt und wird von Hugging Face bereitgestellt. Verwenden Sie das Modell als Encoder für Sätze und kurze Absätze. Bei einem Eingabetext erzeugt das Modell einen Vektor, der die semantischen Informationen des Textes erfasst.
Das all-minilm-l6-v2 Einbettungsmodell ähnelt dem all-minilm-l12-v2 Einbettungsmodell, mit dem Unterschied, dass das all-minilm-l6-v2 Modell sechs Einbettungsschichten anstelle der zwölf Schichten des all-minilm-l12-v2 Modells hat.
Verwendung: Verwenden Sie die Satzvektoren, die durch das all-minilm-l6-v2 generiert werden, für Aufgaben wie Information Retrieval, Clustering und zur Erkennung von Satzähnlichkeit.
API-Preisstufe: Klasse C1. Einzelheiten zu den Preisen finden Sie in Tabelle 3.
Anzahl der Dimensionen: 384
Eingabe-Token-Grenzen : 128
Unterstützte natürliche Sprachen: Englisch
Informationen zur Feinabstimmung: Dieses Einbettungsmodell ist eine Version des vortrainierten MiniLM-L6-H384-uncased Modells von Microsoft, das auf einem Datensatz mit 1 Milliarde Satzpaaren feinabgestimmt wurde.
Das Einbettungsmodell all-minilm-l12-v2 wurde von der Open-Source-Community für natürliche Sprachverarbeitung (NLP) und Computer Vision (CV) entwickelt und wird von Hugging Face bereitgestellt. Verwenden Sie das Modell als Encoder für Sätze und kurze Absätze. Aus einem Eingabetext wird ein Vektor erzeugt, der die semantischen Informationen des Textes erfasst.
Das all-minilm-l12-v2 Einbettungsmodell ähnelt dem all-minilm-l6-v2 Einbettungsmodell, mit dem Unterschied, dass das all-minilm-l12-v2 Modell zwölf Einbettungsschichten anstelle der sechs Schichten des all-minilm-l6-v2 Modells hat.
Verwendung: Verwenden Sie die Satzvektoren, die durch das all-minilm-l12-v2 Einbettungsmodell erzeugt werden, für Aufgaben wie Information Retrieval, Clustering und zur Erkennung von Satzähnlichkeit.
API-Preisstufe: Klasse C1. Einzelheiten zu den Preisen finden Sie in Tabelle 3.
Anzahl der Dimensionen: 384
Eingabe-Token-Grenzen : 128
Unterstützte natürliche Sprachen: Englisch
Informationen zur Feinabstimmung: Dieses Einbettungsmodell ist eine Version des vortrainierten Modells MiniLM-L12-H384-uncased von Microsoft, das mit Satzpaaren aus mehr als 1 Milliarde Sätzen feinabgestimmt ist.
granite-embedding-107m-multilingual ist ein 107-Millionen-Parameter-Modell aus Granite von IBM. Das Modell kann zur Erstellung hochwertiger Texteinbettungen verwendet werden. Das Modell wird mithilfe einer Kombination aus Open-Source-Relevanz-Paar-Datensätzen mit freizügigen, unternehmensfreundlichen Lizenzen und Datensätzen, die von IBM generiert und gesammelt werden, trainiert. Es unterstützt 12 Sprachen: Englisch, Deutsch, Spanisch, Französisch, Japanisch, Portugiesisch, Arabisch, Tschechisch, Italienisch, Koreanisch, Niederländisch und Chinesisch.
Verwendung : Verwenden Sie granite-embedding-107m-multilingual ", um eine Einbettung für eine bestimmte Eingabe wie eine Abfrage, einen Abschnitt oder ein Dokument zu erstellen. Das Modell ist darauf trainiert, die Kosinus-Ähnlichkeit zwischen zwei eingegebenen Textstücken zu maximieren.
API-Preisstufe: Klasse C1. Einzelheiten zu den Preisen finden Sie in Tabelle 2.
Informationen zur Feinabstimmung : granite-embedding-107m-multilingual ist eine Version RoBERTa, einer mehrsprachigen Version von RoBERTa, die auf 2.5 gefilterter CommonCrawl vortrainiert ist. Das Modell wurde kontinuierlich mit einer Mischung aus mehrsprachigen Datensätzen für abrufbasierte Aufgaben trainiert.
granite-embedding-278m-multilingual ist ein 278 Millionen Parameter umfassendes Modell aus Granite von IBM. Das Modell kann zur Erstellung hochwertiger Texteinbettungen verwendet werden. Das Modell wird mithilfe einer Kombination aus Open-Source-Relevanz-Paar-Datensätzen mit freizügigen, unternehmensfreundlichen Lizenzen und Datensätzen, die von IBM generiert und gesammelt werden, trainiert. Es unterstützt 12 Sprachen: Englisch, Deutsch, Spanisch, Französisch, Japanisch, Portugiesisch, Arabisch, Tschechisch, Italienisch, Koreanisch, Niederländisch und Chinesisch.
Verwendung : Verwenden Sie granite-embedding-278m-multilingual ", um eine Einbettung für eine bestimmte Eingabe wie eine Abfrage, einen Abschnitt oder ein Dokument zu erstellen. Das Modell ist darauf trainiert, die Kosinus-Ähnlichkeit zwischen zwei eingegebenen Textstücken zu maximieren.
API-Preisstufe: Klasse C1. Einzelheiten zu den Preisen finden Sie in Tabelle 2.
Informationen zur Feinabstimmung : granite-embedding-107m-multilingual ist eine Version RoBERTa, einer mehrsprachigen Version von RoBERTa, die auf 2.5 gefilterter CommonCrawl vortrainiert ist. Das Modell wurde kontinuierlich mit einer Mischung aus mehrsprachigen Datensätzen für abrufbasierte Aufgaben trainiert.
Das Reranker-Modell ms-marco-minilm-l-12-v2 wurde von Microsoft entwickelt und wird von Hugging Face bereitgestellt. Verwenden Sie das Modell als Passagen- und Dokumentenleser. Ausgehend von einem Abfragetext und einer Menge von Dokumentpassagen wird die Liste der Passagen von der größten bis zur geringsten Beziehung zur Abfrage geordnet.
Verwendung: Verwenden Sie das ms-marco-minilm-l-12-v2 Rerankermodell, wenn Sie eine kleine Menge von Passagen haben, die Sie anhand einer Abfrage bewerten wollen, und wenn die Genauigkeit entscheidend ist. Zum Beispiel, wenn Sie weniger als 100 Passagen haben und diese danach bewerten wollen, wie ähnlich sie dem Abfragetext sind.
API-Preisstufe: Klasse 11. Einzelheiten zu den Preisen finden Sie in Tabelle 4.
Grenzwerte für Eingabetoken: 512
Unterstützte natürliche Sprachen: Englisch
Informationen zur Feinabstimmung: Das Modell ms-marco-minilm-l-12-v2 wurde mit der Aufgabe MS Marco Passage Ranking trainiert. MS MARCO (Microsoft Machine Reading Comprehension) ist ein großer Datensatz, der für das maschinelle Leseverständnis, die Beantwortung von Fragen und das Ranking von Passagen verwendet wird.
Das Einbettungsmodell multilingual-e5-large wurde von Microsoft entwickelt und wird von Hugging Face bereitgestellt.
Die Architektur des Einbettungsmodells verfügt über 24 Schichten, die sequenziell für die Verarbeitung von Daten verwendet werden.
Verwendung: Verwenden Sie diese Option für Anwendungsfälle, bei denen Sie Texteinbettungen für Text in einer anderen Sprache als Englisch generieren wollen. Das multilingual-e5-large eignet sich für Aufgaben wie die Suche nach Passagen oder Informationen, semantische Ähnlichkeit, Bitext-Mining und Paraphrase-Retrieval.
API-Preisstufe: Klasse C1. Einzelheiten zu den Preisen finden Sie in Tabelle 3.
Anzahl der Dimensionen: 1,024
Grenzwerte für Eingabetoken: 512
Unterstützte natürliche Sprachen: Bis zu 100 Sprachen. Details finden Sie auf der Modellkarte.
Informationen zur Feinabstimmung : multilingual-e5-large ist eine Version RoBERTa, einer mehrsprachigen Version von RoBERTa, die auf 2.5 gefilterter CommonCrawl vortrainiert ist. Das Modell wurde kontinuierlich mit einer Mischung aus mehrsprachigen Datensätzen trainiert.
Die Grundmodelle slate-125m-english-rtrvr-v2 und slate-125m-english-rtrvr werden von IBM bereitgestellt. Die IBM Slate 125m Einbettungsmodelle erzeugen Einbettungen für verschiedene Eingaben wie Abfragen, Passagen oder Dokumente.
Das Trainingsziel besteht darin, die Kosinusähnlichkeit zwischen einer Abfrage und einer Passage zu maximieren. Dieser Prozess ergibt zwei Satzeinbettungen, eine, die die Frage darstellt, und eine, die den Durchgang darstellt, was einen Vergleich der Ähnlichkeit von zwei bis Kosinus ermöglicht.
Nutzung: Zwei- bis dreimal langsamer, aber etwas besser als das IBM Slate 30m Einbettungsmodell.
API-Preisstufe: Klasse C1. Einzelheiten zu den Preisen finden Sie in Tabelle 2.
Anzahl der Dimensionen: 768
Grenzwerte für Eingabetoken: 512
Unterstützte natürliche Sprachen: Englisch
Informationen zur Optimierung: Diese Version des Modells wurde optimiert, um bei auf Satzabruf basierenden Tasks besser zu sein.
Die Modelle slate-30m-english-rtrvr-v2 und slate-30m-english-rtrvr sind destillierte Versionen des slate-125m-english-rtrvr, die alle von IBM bereitgestellt werden. Das IBM Slate-Einbettungsmodell wird so trainiert, dass es die Cosinus-Ähnlichkeit zwischen zwei Texteingaben maximiert, so dass die Einbettungen später anhand der Ähnlichkeit bewertet werden können.
Die Architektur des Einbettungsmodells verfügt über 6 Ebenen, die sequenziell für die Verarbeitung von Daten verwendet werden.
Nutzung: Zwei- bis dreimal schneller und mit etwas schlechteren Leistungswerten als das IBM Slate 125m Einbettungsmodell.
API-Preisstufe: Klasse C1. Einzelheiten zu den Preisen finden Sie in Tabelle 2.
Weitere Informationen zur Verwendung von IBM -Einbettungsmodellen zum Umwandeln von Sätzen und Passagen in Texteinbettungen finden Sie unter "Generierung von Texteinbettungen ".