0 / 0
Volver a la versión inglesa de la documentación
Escalado de un despliegue
Última actualización: 21 nov 2024
Escalado de un despliegue

Cuando crea un despliegue en línea para un modelo o función desde un espacio de despliegue o mediante programación, de forma predeterminada se despliega una única copia del activo. Para aumentar la escalabilidad y la disponibilidad, puede aumentar el número de copias (réplicas) editando la configuración del despliegue. Más copias permiten un mayor volumen de solicitudes de puntuación.

Los despliegues se pueden escalar de las siguientes maneras:

  • Actualice la configuración de un despliegue en un espacio de despliegue.
  • Mediante programación, utilizando la biblioteca cliente ' watsonx.ai Runtime ' Python, o las API REST ' watsonx.ai Runtime.

Antes de empezar

Debe configurar sus credenciales de tarea generando una clave API. Para obtener más información, consulte Gestión de credenciales de tareas.

Cambio del número de copias de un despliegue en línea desde un espacio

  1. Pulse el separador Despliegue del espacio de despliegue.
  2. En el menú de acciones del nombre de despliegue, pulse Editar.
  3. En el cuadro de diálogo Editar despliegue , cambie el número de copias y pulse Guardar.

Aumento del número de réplicas de un despliegue mediante programación

Para ver o ejecutar un ejemplo de trabajo de escalado de un despliegue mediante programación, puede aumentar el número de réplicas en los metadatos para un despliegue.

Ejemplo de Python

Este ejemplo utiliza el cliente Python para establecer el número de réplicas en 3.

change_meta = {
                client.deployments.ConfigurationMetaNames.HARDWARE_SPEC: {
                                       "name":"S",
                                       "num_nodes":3}
            }

client.deployments.update(<deployment_id>, change_meta)

El valor HARDWARE_SPEC incluye un nombre porque la API requiere que se proporcione un nombre o un ID.

Ejemplo de API REST

curl -k -X PATCH -d '[ { "op": "replace", "path": "/hardware_spec", "value": {  "name": "S", "num_nodes": 2  } } ]' <Deployment end-point URL>

Debe especificar un nombre para el valor hardware_spec, pero el argumento no se aplica para el escalado.

Tema padre: Gestión de despliegues predictivos

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información