Cuando crea un despliegue en línea para un modelo o función desde un espacio de despliegue o mediante programación, de forma predeterminada se despliega una única copia del activo. Para aumentar la escalabilidad y la disponibilidad, puede aumentar el número de copias (réplicas) editando la configuración del despliegue. Más copias permiten un mayor volumen de solicitudes de puntuación.
Los despliegues se pueden escalar de las siguientes maneras:
- Actualice la configuración de un despliegue en un espacio de despliegue.
- Mediante programación, utilizando la biblioteca cliente ' watsonx.ai Runtime ' Python, o las API REST ' watsonx.ai Runtime.
Antes de empezar
Debe configurar sus credenciales de tarea generando una clave API. Para obtener más información, consulte Gestión de credenciales de tareas.
Cambio del número de copias de un despliegue en línea desde un espacio
- Pulse el separador Despliegue del espacio de despliegue.
- En el menú de acciones del nombre de despliegue, pulse Editar.
- En el cuadro de diálogo Editar despliegue , cambie el número de copias y pulse Guardar.
Aumento del número de réplicas de un despliegue mediante programación
Para ver o ejecutar un ejemplo de trabajo de escalado de un despliegue mediante programación, puede aumentar el número de réplicas en los metadatos para un despliegue.
Ejemplo de Python
Este ejemplo utiliza el cliente Python para establecer el número de réplicas en 3.
change_meta = {
client.deployments.ConfigurationMetaNames.HARDWARE_SPEC: {
"name":"S",
"num_nodes":3}
}
client.deployments.update(<deployment_id>, change_meta)
El valor HARDWARE_SPEC
incluye un nombre porque la API requiere que se proporcione un nombre o un ID.
Ejemplo de API REST
curl -k -X PATCH -d '[ { "op": "replace", "path": "/hardware_spec", "value": { "name": "S", "num_nodes": 2 } } ]' <Deployment end-point URL>
Debe especificar un nombre para el valor hardware_spec
, pero el argumento no se aplica para el escalado.
Tema padre: Gestión de despliegues predictivos