Planung der Bereitstellung eines benutzerdefinierten Gründungsmodells
Überprüfen Sie die Überlegungen und Anforderungen für den Einsatz eines benutzerdefinierten Basismodells für Inferencing mit watsonx.ai.
Bei der Vorbereitung der Bereitstellung eines benutzerdefinierten Stiftungsmodells sollten Sie diese Planungsüberlegungen berücksichtigen:
- Lesen Sie die Anforderungen und Verwendungshinweise für benutzerdefinierte Gründungsmodelle
- Überprüfen Sie die Unterstützte Architekturen für benutzerdefinierte Gründungsmodelle, um sicherzustellen, dass Ihr Modell kompatibel ist.
- Sammeln Sie die Details, die als Voraussetzung für die Bereitstellung eines benutzerdefinierten Basismodells erforderlich sind.
- Wählen Sie eine Hardwarespezifikation für Ihr individuelles Fundamentmodell.
- Überprüfen Sie die Einsatzbeschränkungen
- Aktivieren Sie Task-Anmeldeinformationen, um benutzerdefinierte Foundation-Modelle bereitstellen zu können.
Anforderungen und Nutzungshinweise für benutzerdefinierte Gründungsmodelle
Einsetzbare benutzerdefinierte Modelle müssen diese Anforderungen erfüllen:
Das Hochladen und Verwenden Ihres eigenen benutzerdefinierten Modells ist nur im Standard-Tarif für watsonx.ai verfügbar.
Das Modell muss mit einem unterstützten Modellarchitektur-Typ erstellt werden.
Die Dateiliste für das Modell muss eine
config.json
-Datei enthalten.Modelle für allgemeine Zwecke: Das Modell muss im Format
safetensors
mit der unterstützten Transformatorenbibliothek vorliegen und eine Dateitokenizer.json
enthalten. Wenn das Modell nicht im Formatsafetensors
vorliegt und die Dateitokenizer.json
nicht enthält, aber ansonsten kompatibel ist, nimmt ein Konvertierungsprogramm die notwendigen Änderungen im Rahmen der Modellvorbereitung vor.Zeitreihenmodelle: Das Modellverzeichnis muss die Datei
tsfm_config.json
enthalten. Zeitreihenmodelle, die auf Hugging Face gehostet werden (model_type:tinytimemixer
), dürfen diese Datei nicht enthalten. Wenn die Datei nicht vorhanden ist, wenn das Modell heruntergeladen und eingesetzt wird, schlägt die Prognose fehl. Um Vorhersageprobleme zu vermeiden, müssen Sie beim Herunterladen des Modells einen zusätzlichen Schritt durchführen.Wichtig:- Allzweckmodelle: Sie müssen sicherstellen, dass Ihr benutzerdefiniertes Fundamentmodell mit der unterstützten Bibliothek
transformers
gespeichert wird. Wenn die Datei model.safetensors für Ihr benutzerdefiniertes Basismodell ein nicht unterstütztes Datenformat im Metadaten-Header verwendet, kann Ihre Bereitstellung fehlschlagen. Weitere Informationen finden Sie unter Fehlerbehebung watsonx.ai Runtime. - Stellen Sie sicher, dass das Projekt oder der Bereich, in dem Sie Ihr benutzerdefiniertes Basismodell bereitstellen möchten, über eine zugehörige watsonx.ai Runtime-Instanz verfügt. Öffnen Sie die Registerkarte Verwalten in Ihrem Projekt oder Raum, um dies zu überprüfen.
- Allzweckmodelle: Sie müssen sicherstellen, dass Ihr benutzerdefiniertes Fundamentmodell mit der unterstützten Bibliothek
Unterstützte Modellarchitekturen
In den folgenden Tabellen sind die Modellarchitekturen aufgeführt, die Sie als benutzerdefinierte Modelle für das Inferencing mit watsonx.ai einsetzen können. Die Modellarchitekturen sind zusammen mit Informationen über die unterstützten Quantisierungsmethoden, parallelen Tensoren, Konfigurationsgrößen und Softwarespezifikationen aufgeführt.
Es stehen verschiedene Software-Spezifikationen für Ihre Einsätze zur Verfügung:
- Die Software-Spezifikation
watsonx-cfm-caikit-1.0
basiert auf der TGI-Laufzeit-Engine. - Die
watsonx-cfm-caikit-1.1
Software-Spezifikation basiert auf der vLLM Runtime Engine. Sie ist leistungsfähiger, aber nicht für jede Modellarchitektur verfügbar. - Die Software-Spezifikation
watsonx-tsfm-runtime-1.0
ist für Zeitreihenmodelle konzipiert. Sie basiert auf derwatsonx-tsfm-runtime-1.0
inference runtime.
Modelle für allgemeine Zwecke:
Typ der Modellarchitektur | Beispiele für Stiftungsmodelle | Quantisierungsverfahren | Parallele TensorenmultiGpu) | Bereitstellungskonfigurationen | Softwarespezifikationen |
---|---|---|---|---|---|
bloom |
bigscience/bloom-3b , bigscience/bloom-560m |
Nicht zutreffend | Ja | Klein, Mittel, Groß | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
codegen |
Salesforce/codegen-350M-mono , Salesforce/codegen-16B-mono |
Nicht zutreffend | Nein | Klein | watsonx-cfm-caikit-1.0 |
exaone |
lgai-exaone/exaone-3.0-7.8B-Instruct |
Nicht zutreffend | Nein | Klein | watsonx-cfm-caikit-1.1 |
falcon |
tiiuae/falcon-7b |
Nicht zutreffend | Ja | Klein, Mittel, Groß | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
gemma |
google/gemma-2b |
Nicht zutreffend | Ja | Klein, Mittel, Groß | watsonx-cfm-caikit-1.1 |
gemma2 |
google/gemma-2-9b |
Nicht zutreffend | Ja | Klein, Mittel, Groß | watsonx-cfm-caikit-1.1 |
gpt_bigcode |
bigcode/starcoder , bigcode/gpt_bigcode-santacoder |
gptq |
Ja | Klein, Mittel, Groß | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
gpt-neox |
rinna/japanese-gpt-neox-small , EleutherAI/pythia-12b , databricks/dolly-v2-12b |
Nicht zutreffend | Ja | Klein, Mittel, Groß | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
gptj |
EleutherAI/gpt-j-6b |
Nicht zutreffend | Nein | Klein | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
gpt2 |
openai-community/gpt2-large |
Nicht zutreffend | Nein | Klein | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
granite |
ibm-granite/granite-3.0-8b-instruct , ibm-granite/granite-3b-code-instruct-2k , granite-8b-code-instruct , granite-7b-lab |
Nicht zutreffend | Nein | Klein | watsonx-cfm-caikit-1.1 |
jais |
core42/jais-13b |
Nicht zutreffend | Ja | Klein, Mittel, Groß | watsonx-cfm-caikit-1.1 |
llama |
DeepSeek-R1 (distilled variant) , meta-llama/Meta-Llama-3-8B , meta-llama/Meta-Llama-3.1-8B-Instruct , llama-2-13b-chat-hf , TheBloke/Llama-2-7B-Chat-AWQ , ISTA-DASLab/Llama-2-7b-AQLM-2Bit-1x16-hf |
gptq |
Ja | Klein, Mittel, Groß | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
mistral |
mistralai/Mistral-7B-v0.3 , neuralmagic/OpenHermes-2.5-Mistral-7B-marlin |
Nicht zutreffend | Nein | Klein | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
mixtral |
TheBloke/Mixtral-8x7B-v0.1-GPTQ , mistralai/Mixtral-8x7B-Instruct-v0.1 |
gptq |
Nein | Klein | watsonx-cfm-caikit-1.1 |
mpt |
mosaicml/mpt-7b , mosaicml/mpt-7b-storywriter , mosaicml/mpt-30b |
Nicht zutreffend | Nein | Klein | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
mt5 |
google/mt5-small , google/mt5-xl |
Nicht zutreffend | Nein | Klein | watsonx-cfm-caikit-1.0 |
nemotron |
nvidia/Minitron-8B-Base |
Nicht zutreffend | Ja | Klein, Mittel, Groß | watsonx-cfm-caikit-1.1 |
olmo |
allenai/OLMo-1B-hf , allenai/OLMo-7B-hf |
Nicht zutreffend | Ja | Klein, Mittel, Groß | watsonx-cfm-caikit-1.1 |
persimmon |
adept/persimmon-8b-base , adept/persimmon-8b-chat |
Nicht zutreffend | Ja | Klein, Mittel, Groß | watsonx-cfm-caikit-1.1 |
phi |
microsoft/phi-2 , microsoft/phi-1_5 |
Nicht zutreffend | Ja | Klein, Mittel, Groß | watsonx-cfm-caikit-1.1 |
phi3 |
microsoft/Phi-3-mini-4k-instruct |
Nicht zutreffend | Ja | Klein, Mittel, Groß | watsonx-cfm-caikit-1.1 |
qwen |
DeepSeek-R1 (distilled variant) |
Nicht zutreffend | Ja | Klein, Mittel, Groß | watsonx-cfm-caikit-1.1 |
qwen2 |
Qwen/Qwen2-7B-Instruct-AWQ |
AWQ |
Ja | Klein, Mittel, Groß | watsonx-cfm-caikit-1.1 |
t5 |
google/flan-t5-large , google/flan-t5-small |
Nicht zutreffend | Ja | Klein, Mittel, Groß | watsonx-cfm-caikit-1.0 |
Zeitserienmodelle:
Typ der Modellarchitektur | Beispiele für Stiftungsmodelle | Quantisierungsverfahren | Parallele TensorenmultiGpu) | Bereitstellungskonfigurationen | Softwarespezifikationen |
---|---|---|---|---|---|
tinytimemixer |
ibm-granite/granite-timeseries-ttm-r2 |
Nicht zutreffend | Nicht zutreffend | Klein, Mittel, Groß, Extra groß | watsonx-tsfm-runtime-1.0 |
- IBM zertifiziert nur die Modellarchitekturen, die in Tabelle 1 und Tabelle 2 aufgeführt sind. Sie können Modelle mit anderen Architekturen verwenden, die vom vLLM Inferenz-Framework unterstützt werden. IBM unterstützt jedoch keine Bereitstellungsfehler, die durch die Bereitstellung von Foundation-Modellen mit nicht unterstützten Architekturen oder inkompatiblen Funktionen verursacht werden.
- Der Einsatz von
llama 3.1
-Modellen kann fehlschlagen. Um dieses Problem zu beheben, lesen Sie die Schritte, die unter Fehlerbehebung aufgeführt sind. - Es ist nicht möglich,
codegen
,mt5
undt5
Typmodelle mit derwatsonx-cfm-caikit-1.1
Softwarespezifikation einzusetzen. - Wenn Ihr Modell keine parallelen Tensoren unterstützt, können Sie nur die Konfiguration
Small
verwenden. Wenn Ihr Modell mit mehr Parametern trainiert wurde, als dieSmall
-Konfiguration unterstützt, schlägt es fehl. Dies bedeutet, dass Sie einige Ihrer benutzerdefinierten Modelle nicht bereitstellen können. Weitere Informationen zu Einschränkungen finden Sie unter Ressourcen-Nutzungsrichtlinien.
Sammeln der erforderlichen Details für ein benutzerdefiniertes Stiftungsmodell
Überprüfen Sie das Vorhandensein der Datei
config.json
im Inhaltsordner des Fundamentmodells. Der Bereitstellungsdienst prüft, ob die Dateiconfig.json
im Inhaltsordner des Basismodells vorhanden ist, nachdem sie in den Cloud-Speicher hochgeladen wurde.Öffnen Sie die Datei
config.json
, um zu überprüfen, ob das Basismodell eine unterstützte Architektur verwendet.Zeigen Sie die Liste der Dateien für das Fundamentmodell an, um zu prüfen, ob die Datei
tokenizer.json
vorhanden ist und ob der Modellinhalt im Format.safetensors
vorliegt.Wichtig:Sie müssen sicherstellen, dass Ihr benutzerdefiniertes Fundamentmodell mit der unterstützten Bibliothek
transformers
gespeichert wird. Wenn die Datei model.safetensors für Ihr benutzerdefiniertes Basismodell ein nicht unterstütztes Datenformat im Metadaten-Header verwendet, kann Ihre Bereitstellung fehlschlagen. Weitere Informationen finden Sie unter Fehlerbehebung watsonx.ai Runtime.
Siehe ein Beispiel:
Für das falcon-40b modell, das unter Hugging Face gespeichert ist, klicken Sie auf "Dateien und Versionen ", um die Dateistruktur anzuzeigen und nach config.json
zu suchen:
Das Beispielmodell verwendet eine Version der unterstützten falcon
Architektur.
Dieses Beispielmodell enthält die Datei tokenizer.json
und hat das Format .safetensors
:
Wenn das Modell diese Anforderungen nicht erfüllt, können Sie kein Modell-Asset erstellen und Ihr Modell nicht einsetzen.
Leitlinien für die Ressourcennutzung
Zeitreihenmodelle
Die Inferenz-Laufzeit für Zeitreihenmodelle unterstützt folgende Hardware-Spezifikationen: S
(Small), M
(Medium), L
(Large), XL
(Extra large).
Weisen Sie Ihrem benutzerdefinierten Zeitserienmodell eine Hardwarespezifikation zu, die auf der maximalen Anzahl gleichzeitiger Benutzer und den Merkmalen der Nutzlast basiert:
Univariate Zeitreihen | Multivariate Zeitreihen (Reihen x Ziele) | Klein | Mittel | Groß | Sehr groß |
---|---|---|---|---|---|
1.000 | 23x100 | 6 | 12. | 25 GB | 50 |
500 | 15x80 | 10 | 21. | 42 | 85 |
250 | 15x40 | 13. | 26 | 53 | 106 |
125 | 15x20 | 13. | 27. | 54 | 109 |
60.000 | 15x10 | 14. | 28 | 56 | 112 |
30 Stunden | 15x5 | 14. | 28 | 56 | 113 |
Allgemein einsetzbare Modelle
Für allgemeine Modelle stehen drei Konfigurationen zur Verfügung, die Ihr individuelles Fundamentmodell unterstützen: WX-S
(Small), WX-M
(Medium) und WX-L
(Large). Um die für Ihr individuelles Stiftungsmodell am besten geeignete Konfiguration zu ermitteln, beachten Sie die folgenden Richtlinien:
- Weisen Sie die
WX-S
-Konfiguration einem beliebigen Double-Byte-Präzisionsmodell unter 26B-Parametern zu, vorbehaltlich der Prüfung und Validierung. - Weisen Sie die Konfiguration
WX-M
einem beliebigen Doppelbyte-Präzisionsmodell zwischen den Parametern 27B und 53B zu, vorbehaltlich der Prüfung und Validierung. - Weisen Sie die Konfiguration
WX-L
einem beliebigen Doppelbyte-Präzisionsmodell zwischen den Parametern 54B und 106B zu, vorbehaltlich der Prüfung und Validierung.
Wenn die gewählte Konfiguration während der Test- und Validierungsphase versagt, sollten Sie die nächsthöhere verfügbare Konfiguration in Erwägung ziehen. Versuchen Sie z. B. die Konfiguration Medium, wenn die Konfiguration Small fehlschlägt. Derzeit ist die große Konfiguration die höchste verfügbare Konfiguration.
Konfiguration | Beispiele für geeignete Modelle |
---|---|
Klein | llama-3-8b llama-2-13b starcoder-15.5b mt0-xxl-13b jais-13b gpt-neox-20b flan-t5-xxl-11b flan-ul2-20b allam-1-13b |
Mittel | codellama-34b |
Groß | llama-3-70b llama-2-70b |
Beschränkungen und Einschränkungen für benutzerdefinierte Gründungsmodelle
Beachten Sie diese Einschränkungen bei der Bereitstellung und Verwendung benutzerdefinierter Foundation-Modelle mit watsonx.ai.
Einschränkungen bei der Bereitstellung von benutzerdefinierten Foundation-Modellen
- Aufgrund der hohen Nachfrage nach benutzerdefinierten Basismodellen und der begrenzten Ressourcen, die für die Bereitstellung zur Verfügung stehen, gibt es auf watsonx.ai eine Beschränkung auf vier kleine Modelle, zwei mittlere Modelle oder ein großes Modell pro IBM Cloud Konto. Wenn Sie versuchen, ein benutzerdefiniertes Fundamentmodell zu importieren, das diese Grenzen überschreitet, werden Sie benachrichtigt und gebeten, Ihr Feedback in einer Umfrage abzugeben. Dies hilft uns, Ihre Bedürfnisse zu verstehen und zukünftige Kapazitätserweiterungen zu planen.
- Zeitreihenmodelle benötigen keine Parameter. Geben Sie keine Parameter an, wenn Sie ein benutzerdefiniertes Zeitserienmodell bereitstellen. Wenn Sie bei der Bereitstellung eines benutzerdefinierten Zeitreihenmodells Parameter angeben, haben diese keine Auswirkungen.
Einschränkungen für die Verwendung von benutzerdefinierten Foundation Model Deployments
Liste der Einschränkungen für die Verwendung benutzerdefinierter Foundation-Modelle nach ihrer Bereitstellung mit watsonx.ai:
- Sie können ein benutzerdefiniertes Fundamentmodell nicht anpassen.
- Sie können watsonx.governance nicht verwenden, um eine Prompt-Vorlage für ein benutzerdefiniertes Stiftungsmodell auszuwerten oder zu verfolgen.
Helfen Sie uns, diese Erfahrung zu verbessern
Wenn Sie Ihr Feedback jetzt abgeben möchten, klicken Sie auf diesen Link. Ihr Feedback hilft uns bei der Planung zukünftiger Kapazitätserweiterungen und bei der Verbesserung der gesamten Bereitstellung des benutzerdefinierten Stiftungsmodells. Vielen Dank für Ihre Mitarbeit!
Nächste Schritte
Herunterladen eines benutzerdefinierten Fundamentmodells und Einrichten der Speicherung
Übergeordnetes Thema: Bereitstellen eines benutzerdefinierten Foundation-Modells