Planung der Bereitstellung eines benutzerdefinierten Gründungsmodells

Letzte Aktualisierung: 02. Apr. 2025

Überprüfen Sie die Überlegungen und Anforderungen für den Einsatz eines benutzerdefinierten Basismodells für Inferencing mit watsonx.ai.

Bei der Vorbereitung der Bereitstellung eines benutzerdefinierten Stiftungsmodells sollten Sie diese Planungsüberlegungen berücksichtigen:

Lesen Sie die Anforderungen und Verwendungshinweise für benutzerdefinierte Gründungsmodelle
Überprüfen Sie die Unterstützte Architekturen für benutzerdefinierte Gründungsmodelle, um sicherzustellen, dass Ihr Modell kompatibel ist.
Sammeln Sie die Details, die als Voraussetzung für die Bereitstellung eines benutzerdefinierten Basismodells erforderlich sind.
Wählen Sie eine Hardwarespezifikation für Ihr individuelles Fundamentmodell.
Überprüfen Sie die Einsatzbeschränkungen
Aktivieren Sie Task-Anmeldeinformationen, um benutzerdefinierte Foundation-Modelle bereitstellen zu können.

Anforderungen und Nutzungshinweise für benutzerdefinierte Gründungsmodelle

Einsetzbare benutzerdefinierte Modelle müssen diese Anforderungen erfüllen:

Das Hochladen und Verwenden Ihres eigenen benutzerdefinierten Modells ist nur im Standard-Tarif für watsonx.ai verfügbar.
Das Modell muss mit dem Text Generation Inference (TGI)-Standard kompatibel sein und mit einem unterstützten Modellarchitektur-Typ erstellt werden.
Die Dateiliste für das Modell muss eine config.json-Datei enthalten.
Das Modell muss in einem safetensors-Format mit der unterstützten Transformatorenbibliothek vorliegen und eine tokenizer.json-Datei enthalten.
Wichtig:
- Sie müssen sicherstellen, dass Ihr benutzerdefiniertes Fundamentmodell mit der unterstützten Bibliothek transformers gespeichert wird. Wenn die Datei model.safetensors für Ihr benutzerdefiniertes Basismodell ein nicht unterstütztes Datenformat im Metadaten-Header verwendet, kann Ihre Bereitstellung fehlschlagen. Weitere Informationen finden Sie unter Fehlerbehebung watsonx.ai Runtime.
- Stellen Sie sicher, dass das Projekt oder der Bereich, in dem Sie Ihr benutzerdefiniertes Basismodell bereitstellen möchten, über eine zugehörige watsonx.ai Runtime-Instanz verfügt. Öffnen Sie die Registerkarte Verwalten in Ihrem Projekt oder Raum, um dies zu überprüfen.

Unterstützte Modellarchitekturen

In der folgenden Tabelle sind die Modellarchitekturen aufgeführt, die Sie als benutzerdefinierte Modelle für das Inferencing mit watsonx.ai einsetzen können. Die Modellarchitekturen sind zusammen mit Informationen über die unterstützten Quantisierungsmethoden, parallelen Tensoren, Konfigurationsgrößen und Softwarespezifikationen aufgeführt.

Hinweis:

Two software specifications are available for your deployments: watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1. The watsonx-cfm-caikit-1.1 specification is better in terms of performance, but it's not available with every model architecture.

Tabelle 1. Unterstützte Modellarchitekturen, Quantisierungsmethoden, parallele Tensoren, Einsatzkonfigurationsgrößen und Softwarespezifikationen
Typ der Modellarchitektur	Beispiele für Stiftungsmodelle	Quantisierungsverfahren	Parallele TensorenmultiGpu)	Bereitstellungskonfigurationen	Softwarespezifikationen
`bloom`	`bigscience/bloom-3b`, `bigscience/bloom-560m`	Nicht zutreffend	Ja	Klein, Mittel, Groß	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`codegen`	`Salesforce/codegen-350M-mono`, `Salesforce/codegen-16B-mono`	Nicht zutreffend	Nein	Klein	`watsonx-cfm-caikit-1.0`
`exaone`	`lgai-exaone/exaone-3.0-7.8B-Instruct`	Nicht zutreffend	Nein	Klein	`watsonx-cfm-caikit-1.1`
`falcon`		Nicht zutreffend	Ja	Klein, Mittel, Groß	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`gemma`	`google/gemma-2b`	Nicht zutreffend	Ja	Klein, mittel und groß	`watsonx-cfm-caikit-1.1`
`gemma2`	`google/gemma-2-9b`	Nicht zutreffend	Ja	Klein, mittel und groß	`watsonx-cfm-caikit-1.1`
`gpt_bigcode`	`bigcode/starcoder`, `bigcode/gpt_bigcode-santacoder`	`gptq`	Ja	Klein, Mittel, Groß	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`gpt-neox`	`rinna/japanese-gpt-neox-small`, `EleutherAI/pythia-12b`, `databricks/dolly-v2-12b`	Nicht zutreffend	Ja	Klein, Mittel, Groß	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`gptj`	`EleutherAI/gpt-j-6b`	Nicht zutreffend	Nein	Klein	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`granite`	`ibm-granite/granite-3.0-8b-instruct`, `ibm-granite/granite-3b-code-instruct-2k`, `granite-8b-code-instruct`, `granite-7b-lab`	Nicht zutreffend	Nein	Klein	`watsonx-cfm-caikit-1.1`
`llama`	`DeepSeek-R1 (distilled variant)`, `meta-llama/Meta-Llama-3-8B`, `meta-llama/Meta-Llama-3.1-8B-Instruct`, `llama-2-13b-chat-hf`, `TheBloke/Llama-2-7B-Chat-AWQ`, `ISTA-DASLab/Llama-2-7b-AQLM-2Bit-1x16-hf`	`gptq`	Ja	Klein, Mittel, Groß	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`mistral`	`mistralai/Mistral-7B-v0.3`, `neuralmagic/OpenHermes-2.5-Mistral-7B-marlin`	Nicht zutreffend	Nein	Klein	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`mixtral`	`TheBloke/Mixtral-8x7B-v0.1-GPTQ`, `mistralai/Mixtral-8x7B-Instruct-v0.1`	`gptq`	Nein	Klein	`watsonx-cfm-caikit-1.1`
`mpt`	`mosaicml/mpt-7b`, `mosaicml/mpt-7b-storywriter`, `mosaicml/mpt-30b`	Nicht zutreffend	Nein	Klein	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`mt5`	`google/mt5-small`, `google/mt5-xl`	Nicht zutreffend	Nein	Klein	`watsonx-cfm-caikit-1.0`
`nemotron`	`nvidia/Minitron-8B-Base`	Nicht zutreffend	Ja	Klein, mittel und groß	`watsonx-cfm-caikit-1.1`
`olmo`	`allenai/OLMo-1B-hf`, `allenai/OLMo-7B-hf`	Nicht zutreffend	Ja	Klein, mittel und groß	`watsonx-cfm-caikit-1.1`
`persimmon`	`adept/persimmon-8b-base`, `adept/persimmon-8b-chat`	Nicht zutreffend	Ja	Klein, mittel und groß	`watsonx-cfm-caikit-1.1`
`phi`	`microsoft/phi-2`, `microsoft/phi-1_5`	Nicht zutreffend	Ja	Klein, mittel und groß	`watsonx-cfm-caikit-1.1`
`phi3`	`microsoft/Phi-3-mini-4k-instruct`	Nicht zutreffend	Ja	Klein, mittel und groß	`watsonx-cfm-caikit-1.1`
`qwen`	`DeepSeek-R1 (distilled variant)`	Nicht zutreffend	Ja	Klein, mittel und groß	`watsonx-cfm-caikit-1.1`
`qwen2`	`Qwen/Qwen2-7B-Instruct-AWQ`	`AWQ`	Ja	Klein, mittel und groß	`watsonx-cfm-caikit-1.1`
`t5`	`google/flan-t5-large`, `google/flan-t5-small`	Nicht zutreffend	Ja	Klein, Mittel, Groß	`watsonx-cfm-caikit-1.0`

Wichtig:

IBM bescheinigt nur die in Tabelle 1 aufgeführten Modellarchitekturen. Sie können Modelle mit alternativen Architekturen verwenden, die von vLLM, unterstützt werden. IBM unterstützt jedoch keine Bereitstellungsfehler, die durch die Bereitstellung von Foundation-Modellen mit nicht unterstützten Architekturen oder inkompatiblen Funktionen verursacht werden.
Der Einsatz von llama 3.1-Modellen kann fehlschlagen. Um dieses Problem zu beheben, lesen Sie die Schritte, die unter Fehlerbehebung aufgeführt sind.
Es ist nicht möglich, codegen, mt5 und t5 Typmodelle mit der watsonx-cfm-caikit-1.1 Softwarespezifikation einzusetzen.
Wenn Ihr Modell keine parallelen Tensoren unterstützt, können Sie nur die Konfiguration Small verwenden. Wenn Ihr Modell mit mehr Parametern trainiert wurde, als die Small-Konfiguration unterstützt, schlägt es fehl. Dies bedeutet, dass Sie einige Ihrer benutzerdefinierten Modelle nicht bereitstellen können. Weitere Informationen zu Einschränkungen finden Sie unter Ressourcen-Nutzungsrichtlinien.

Sammeln der erforderlichen Details für ein benutzerdefiniertes Stiftungsmodell

Überprüfen Sie das Vorhandensein der Datei config.json im Inhaltsordner des Fundamentmodells. Der Bereitstellungsdienst prüft, ob die Datei config.json im Inhaltsordner des Basismodells vorhanden ist, nachdem sie in den Cloud-Speicher hochgeladen wurde.
Öffnen Sie die Datei config.json , um zu überprüfen, ob das Basismodell eine unterstützte Architektur verwendet.
Zeigen Sie die Liste der Dateien für das Fundamentmodell an, um zu prüfen, ob die Datei tokenizer.json vorhanden ist und ob der Modellinhalt im Format .safetensors vorliegt.

Wichtig:
Sie müssen sicherstellen, dass Ihr benutzerdefiniertes Fundamentmodell mit der unterstützten Bibliothek transformers gespeichert wird. Wenn die Datei model.safetensors für Ihr benutzerdefiniertes Basismodell ein nicht unterstütztes Datenformat im Metadaten-Header verwendet, kann Ihre Bereitstellung fehlschlagen. Weitere Informationen finden Sie unter Fehlerbehebung watsonx.ai Runtime.

Siehe ein Beispiel:

Für das falcon-40b modell, das unter Hugging Face gespeichert ist, klicken Sie auf "Dateien und Versionen ", um die Dateistruktur anzuzeigen und nach config.json zu suchen:

Suche nach der Datei config.json innerhalb eines Foundation-Modells, das auf Hugging Face

Das Beispielmodell verwendet eine Version der unterstützten falcon Architektur.

Prüfung auf eine unterstützte Architektur für ein Fundamentmodell

Dieses Beispielmodell enthält die Datei tokenizer.json und hat das Format .safetensors:

Liste der Dateien in einem Fundamentmodell

Wenn das Modell diese Anforderungen nicht erfüllt, können Sie kein Modell-Asset erstellen und Ihr Modell nicht einsetzen.

Leitlinien für die Ressourcennutzung

Es stehen drei Konfigurationen zur Verfügung, um Ihr individuelles Stiftungsmodell zu unterstützen: Small, Medium, und Large. Um die für Ihr individuelles Stiftungsmodell am besten geeignete Konfiguration zu ermitteln, beachten Sie die folgenden Richtlinien:

Weisen Sie die Small-Konfiguration einem beliebigen Double-Byte-Präzisionsmodell unter 26B-Parametern zu, vorbehaltlich der Prüfung und Validierung.
Weisen Sie die Konfiguration Medium einem beliebigen Doppelbyte-Präzisionsmodell zwischen den Parametern 27B und 53B zu, vorbehaltlich der Prüfung und Validierung.
Weisen Sie die Konfiguration Large einem beliebigen Doppelbyte-Präzisionsmodell zwischen den Parametern 54B und 106B zu, vorbehaltlich der Prüfung und Validierung.

Tipp:

Wenn die gewählte Konfiguration während der Test- und Validierungsphase versagt, sollten Sie die nächsthöhere verfügbare Konfiguration in Erwägung ziehen. Versuchen Sie zum Beispiel die Konfiguration Medium, wenn die Konfiguration Small fehlschlägt. Derzeit ist die Konfiguration Large die höchste verfügbare Konfiguration.

Tabelle 2. Hardware-Konfigurationen und Beispielmodelle
Konfiguration	Beispiele für geeignete Modelle
Klein	`llama-3-8b` `llama-2-13b` `starcoder-15.5b` `mt0-xxl-13b` `jais-13b` `gpt-neox-20b` `flan-t5-xxl-11b` `flan-ul2-20b` `allam-1-13b`
Mittel	`codellama-34b`
Groß	`llama-3-70b` `llama-2-70b`

Beschränkungen und Einschränkungen für benutzerdefinierte Gründungsmodelle

Beachten Sie diese Einschränkungen bei der Bereitstellung und Verwendung benutzerdefinierter Foundation-Modelle mit watsonx.ai.

Einschränkungen bei der Bereitstellung von benutzerdefinierten Foundation-Modellen

Aufgrund der hohen Nachfrage nach benutzerdefinierten Basismodellen und der begrenzten Ressourcen, die für die Bereitstellung zur Verfügung stehen, gibt es auf watsonx.ai eine Beschränkung auf vier kleine Modelle, zwei mittlere Modelle oder ein großes Modell pro IBM Cloud Konto. Wenn Sie versuchen, ein benutzerdefiniertes Fundamentmodell zu importieren, das diese Grenzen überschreitet, werden Sie benachrichtigt und gebeten, Ihr Feedback in einer Umfrage abzugeben. Dies hilft uns, Ihre Bedürfnisse zu verstehen und zukünftige Kapazitätserweiterungen zu planen.

Wichtig: Alle beantragten Erhöhungen des Limits sind nicht garantiert und hängen von der verfügbaren Kapazität ab.

Einschränkungen für die Verwendung von benutzerdefinierten Foundation Model Deployments

Beachten Sie die folgenden Einschränkungen für die Verwendung benutzerdefinierter Foundation-Modelle, nachdem sie mit watsonx.ai:

Sie können ein benutzerdefiniertes Fundamentmodell nicht anpassen.
Sie können watsonx.governance nicht verwenden, um eine Prompt-Vorlage für ein benutzerdefiniertes Stiftungsmodell auszuwerten oder zu verfolgen.
Sie können ein benutzerdefiniertes Basismodell abfragen, aber keine Abfragevorlage für ein benutzerdefiniertes Modell speichern.

Helfen Sie uns, diese Erfahrung zu verbessern

Wenn Sie Ihr Feedback jetzt abgeben möchten, klicken Sie auf diesen Link. Ihr Feedback hilft uns bei der Planung zukünftiger Kapazitätserweiterungen und bei der Verbesserung der gesamten Bereitstellung des benutzerdefinierten Stiftungsmodells. Vielen Dank für Ihre Mitarbeit!

Nächste Schritte

Herunterladen eines benutzerdefinierten Fundamentmodells und Einrichten der Speicherung

Übergeordnetes Thema: Bereitstellen eines benutzerdefinierten Foundation-Modells

War das Thema hilfreich?

0/1000

Anforderungen und Nutzungshinweise für benutzerdefinierte GründungsmodelleCopy link to section

Unterstützte ModellarchitekturenCopy link to section

Sammeln der erforderlichen Details für ein benutzerdefiniertes StiftungsmodellCopy link to section

Leitlinien für die RessourcennutzungCopy link to section

Beschränkungen und Einschränkungen für benutzerdefinierte GründungsmodelleCopy link to section

Einschränkungen bei der Bereitstellung von benutzerdefinierten Foundation-ModellenCopy link to section

Einschränkungen für die Verwendung von benutzerdefinierten Foundation Model DeploymentsCopy link to section

Helfen Sie uns, diese Erfahrung zu verbessernCopy link to section

Nächste SchritteCopy link to section