Wenn Sie eine Onlinebereitstellung für ein Modell oder eine Funktion über einen Bereitstellungsbereich oder programmgesteuert erstellen, wird standardmäßig eine einzelne Kopie des Assets bereitgestellt. Um die Skalierbarkeit und Verfügbarkeit zu erhöhen, können Sie die Anzahl der Kopien (Replikate) erhöhen, indem Sie die Konfiguration der Bereitstellung bearbeiten. Mehr Kopien ermöglichen ein größeres Volumen an Scoring-Anforderungen.
Bereitstellungen können auf die folgenden Arten skaliert werden:
- Durch eine Aktualisierung der Konfiguration für eine Bereitstellung in einem Bereitstellungsbereich.
- Programmatisch, mit der watsonx.ai Runtime Python Client Bibliothek oder den watsonx.ai Runtime REST APIs.
Vorbereitende Schritte
Sie müssen Ihre Anmeldedaten für die Aufgabe einrichten, indem Sie einen API-Schlüssel erstellen. Weitere Informationen finden Sie unter Verwalten von Berechtigungsnachweisen für Aufgaben.
Anzahl der Kopien einer Onlinebereitstellung aus einem Bereich ändern
- Klicken Sie auf die Registerkarte Bereitstellung Ihres Bereitstellungsbereichs.
- Klicken Sie im Aktionsmenü für Ihren Implementierungsnamen auf Bearbeiten.
- Ändern Sie im Dialogfeld Bereitstellung bearbeiten die Anzahl der Kopien und klicken Sie auf Speichern.
Anzahl der Replikate einer Implementierung programmgesteuert erhöhen
Wenn Sie ein funktionierendes Beispiel für die programmgesteuerte Skalierung einer Bereitstellung anzeigen oder ausführen wollen, können Sie die Anzahl der Replikate in den Metadaten für eine Bereitstellung erhöhen.
Python-Beispiel
In diesem Beispiel wird der Python-Client verwendet, um die Anzahl der Replikate auf 3 zu setzen.
change_meta = {
client.deployments.ConfigurationMetaNames.HARDWARE_SPEC: {
"name":"S",
"num_nodes":3}
}
client.deployments.update(<deployment_id>, change_meta)
Der Wert HARDWARE_SPEC
enthält einen Namen, da für die API ein Name oder eine ID angegeben werden muss.
Beispiel für REST-API
curl -k -X PATCH -d '[ { "op": "replace", "path": "/hardware_spec", "value": { "name": "S", "num_nodes": 2 } } ]' <Deployment end-point URL>
Sie müssen einen Namen für den Wert hardware_spec
angeben, aber das Argument wird nicht für die Skalierung angewendet.
Übergeordnetes Thema: Vorhersagebereitstellungen verwalten