Decision Optimization utiliza las API asíncronas dewatsonx.ai Runtime para permitir que los trabajos se ejecuten en paralelo.
Para resolver un problema, puede crear un nuevo trabajo a partir del despliegue del modelo y asociarle datos. Consulte Pasos de despliegue y el ejemplo de API REST. No se le facturará por desplegar un modelo. Solo se carga la resolución de un modelo con algunos datos, basándose en el tiempo de ejecución.
Para resolver más de un trabajo a la vez, especifique más de un nodo al crea el despliegue. Por ejemplo, en este Ejemplo de API REST, aumente el número de nodos cambiando el valor de la propiedad de los nodos: "nodes" : 1
.
POD (nodos)
Cuando se crea y envía un trabajo, la forma en que se gestiona depende de la configuración actual y de los trabajos que se estén ejecutando para la instancia de watsonx.ai Runtime. Este proceso se muestra en el diagrama siguiente.
- El nuevo trabajo se envía a la cola.
- Si se inicia un POD pero está desocupado (no se ejecuta un trabajo), empieza inmediatamente a procesar este trabajo.
- De lo contrario, si no se alcanza el número máximo de nodos, se inicia un nuevo POD. (El inicio de un POD puede tardar unos segundos). A continuación, el trabajo se asigna a este nuevo POD para su proceso.
- De lo contrario, el trabajo espera en la cola hasta que haya finalizado uno de los POD en ejecución y pueda recoger el trabajo en espera.
La configuración de POD de cada tamaño es la siguiente:
Definición | Nombre | Descripción |
---|---|---|
2 vCPU y 8 GB | S | Small |
4 vCPU y 16 GB | M | Medio |
8 vCPU y 32 GB | L | Grande |
16 vCPU y 64 GB | XL | Extra grande |
Para todas las configuraciones, 1 vCPU y 512 MB se reservan para el uso interno.
Además del tiempo de resolución, el precio depende del tamaño seleccionado a través de un multiplicador.
En la configuración de despliegue, también puede establecer el número máximo de nodos que se van a utilizar.
Los POD en reposo se detienen de forma automática después de un tiempo de espera. Si se envía un nuevo trabajo cuando no hay ningún POD activo, el POD tarda algún tiempo (aproximadamente 30 segundos) en reiniciarse.
Precios basados en tiempo de ejecución (CUH)
Solo se carga el tiempo de resolución de trabajos: no se carga el tiempo de inactividad para los POD.
En función del tamaño del POD utilizado, se utiliza un multiplicador diferente para calcular el número de horas de unidades de capacidad (CUH) utilizadas.
Ejemplo de API REST
Para ver el procedimiento completo de despliegue de un modelo y enlaces a la documentación de Swagger, consulte Ejemplo de API REST.
Ejemplo de API de Python
Además de las API REST, se proporciona una API Python con el tiempo de ejecución dewatsonx.ai para que pueda crear, desplegar y utilizar fácilmente un modelo de Decision Optimization desde un " notebook Python.
Para obtener más información, consulte Ejemplo de clientePython.
Un ejemplo notebook que describe y documenta todos los pasos está disponible en el Centro de recursos.