0 / 0
Zurück zur englischen Version der Dokumentation
Bereitstellung skalieren
Letzte Aktualisierung: 21. Nov. 2024
Bereitstellung skalieren

Wenn Sie eine Onlinebereitstellung für ein Modell oder eine Funktion über einen Bereitstellungsbereich oder programmgesteuert erstellen, wird standardmäßig eine einzelne Kopie des Assets bereitgestellt. Um die Skalierbarkeit und Verfügbarkeit zu erhöhen, können Sie die Anzahl der Kopien (Replikate) erhöhen, indem Sie die Konfiguration der Bereitstellung bearbeiten. Mehr Kopien ermöglichen ein größeres Volumen an Scoring-Anforderungen.

Bereitstellungen können auf die folgenden Arten skaliert werden:

  • Durch eine Aktualisierung der Konfiguration für eine Bereitstellung in einem Bereitstellungsbereich.
  • Programmatisch, mit der watsonx.ai Runtime Python Client Bibliothek oder den watsonx.ai Runtime REST APIs.

Vorbereitende Schritte

Sie müssen Ihre Anmeldedaten für die Aufgabe einrichten, indem Sie einen API-Schlüssel erstellen. Weitere Informationen finden Sie unter Verwalten von Berechtigungsnachweisen für Aufgaben.

Anzahl der Kopien einer Onlinebereitstellung aus einem Bereich ändern

  1. Klicken Sie auf die Registerkarte Bereitstellung Ihres Bereitstellungsbereichs.
  2. Klicken Sie im Aktionsmenü für Ihren Implementierungsnamen auf Bearbeiten.
  3. Ändern Sie im Dialogfeld Bereitstellung bearbeiten die Anzahl der Kopien und klicken Sie auf Speichern.

Anzahl der Replikate einer Implementierung programmgesteuert erhöhen

Wenn Sie ein funktionierendes Beispiel für die programmgesteuerte Skalierung einer Bereitstellung anzeigen oder ausführen wollen, können Sie die Anzahl der Replikate in den Metadaten für eine Bereitstellung erhöhen.

Python-Beispiel

In diesem Beispiel wird der Python-Client verwendet, um die Anzahl der Replikate auf 3 zu setzen.

change_meta = {
                client.deployments.ConfigurationMetaNames.HARDWARE_SPEC: {
                                       "name":"S",
                                       "num_nodes":3}
            }

client.deployments.update(<deployment_id>, change_meta)

Der Wert HARDWARE_SPEC enthält einen Namen, da für die API ein Name oder eine ID angegeben werden muss.

Beispiel für REST-API

curl -k -X PATCH -d '[ { "op": "replace", "path": "/hardware_spec", "value": {  "name": "S", "num_nodes": 2  } } ]' <Deployment end-point URL>

Sie müssen einen Namen für den Wert hardware_spec angeben, aber das Argument wird nicht für die Skalierung angewendet.

Übergeordnetes Thema: Vorhersagebereitstellungen verwalten

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen