Bereitstellung von Basismodellen auf Abruf

Zurück zur englischen Version der Dokumentation

Letzte Aktualisierung: 05. Dez. 2024

Bereitstellung von Basismodellen auf Abruf

IBM watsonx.ai stellt Ihnen eine kuratierte Sammlung von Basismodellen zur Verfügung, die Sie bei Bedarf auf dedizierter Hardware für die exklusive Nutzung durch Ihr Unternehmen einsetzen können. Mit diesem Ansatz können Sie auf die Fähigkeiten dieser leistungsstarken Fundamentmodelle zugreifen, ohne dass Sie umfangreiche Rechenressourcen benötigen. Foundation-Modelle, die Sie on-demand bereitstellen, werden in einem speziellen Bereitstellungsbereich gehostet, in dem Sie diese Modelle für Inferencing verwenden können.

Unterstützte Stiftungsmodelle

Die Foundation-Modelle, die Ihnen für eine On-Demand-Bereitstellung zur Verfügung stehen, werden von IBM gehostet und auf der Grundlage des Stundensatzes abgerechnet. Bei diesen Modellen handelt es sich um Single-Tenant-Modelle. Daher ist der Einsatz dieser Modelle ausschließlich Ihnen vorbehalten und wird nicht mit anderen Nutzern zur Inferenzierung geteilt. Solange der Einsatz aktiv ist, wird ein Stundensatz berechnet. Weitere Informationen finden Sie unter Stundensätze für Bereitstellungsmodelle auf Abruf.

Eine Liste der Modelle, die für die On-Demand-Bereitstellung verfügbar sind, mit Beschreibungen und Abrechnungstarifen finden Sie unter Unterstützte Stiftungsmodelle.

Wenn ein auf Abruf bereitgestelltes foundation model veraltet ist, können Sie das Modell weiterhin verwenden, bis Sie Ihre Bereitstellung löschen.

Unterstützte Bereitstellungsarten

Sie können nur Online-Bereitstellungen für Basismodelle erstellen, die auf Abruf bereitgestellt werden. Stapelverteilungen werden nicht unterstützt.

Überlegungen zur Bereitstellung von Foundation-Modellen auf Abruf

Sie können nur eine Instanz eines foundation model bereitstellen, das in einem Bereitstellungsbereich als On-Demand-Modell bereitgestellt werden kann. Wenn Sie mehr Ressourcen für Ihr Modell benötigen, können Sie weitere Kopien Ihres bereitgestellten Modell-Assets hinzufügen, indem Sie es skalieren.

Beschränkungen und Einschränkungen

Aufgrund der hohen Nachfrage nach Basismodellen, die nach Bedarf bereitgestellt werden, und der begrenzten Ressourcen, die dafür zur Verfügung stehen, hat watsonx.ai ein Bereitstellungslimit von vier kleinen Modellen, zwei mittleren Modellen oder einem großen Modell pro IBM Cloud.

Die folgenden Einschränkungen gelten für Foundation-Modelle, die auf Abruf bereitgestellt werden:

Sie können ein foundation model, das auf Abruf bereitgestellt wird, nicht abstimmen.
Sie können ein foundation model, das bei Bedarf bereitgestellt wird, als Souffleurvorlage speichern. Sie können jedoch keine gespeicherte Eingabeaufforderungsvorlage für das foundation model bereitstellen, das bei Bedarf bereitgestellt wird. Wenn Ihr Modell Retrieval Augmented Generation (RAG) verwendet, können Sie Ihr Modell als KI-Dienst einsetzen.
Sie können watsonx.governance nicht verwenden, um eine Eingabeaufforderungsvorlage für ein foundation model zu bewerten oder zu verfolgen, das nach Bedarf bereitgestellt wird.

Nächste Schritte

Wählen Sie eine Methode für die Bereitstellung eines foundation model bei Bedarf:

Wie Sie Foundation-Modelle bei Bedarf mit ein paar einfachen Schritten über den Resource Hub bereitstellen können, erfahren Sie unter Bereitstellen von Foundation-Modellen bei Bedarf über den Resource Hub.
Wie Sie Foundation-Modelle programmatisch bereitstellen können, erfahren Sie unter Bereitstellen von Foundation-Modellen auf Abruf mit der REST-API.

Übergeordnetes Thema: Einsatz von generativen KI-Assets