Implemente modelos de base a petición mediante programación con la API REST. El despliegue de un foundation model bajo demanda hace que esté disponible en hardware dedicado para uso exclusivo de su organización. IBM proporciona un conjunto de modelos curados que están disponibles para su despliegue bajo demanda.
Antes de empezar
- Debe configurar o habilitar sus credenciales de tarea para desplegar modelos de cimentación bajo demanda. Para obtener más información, consulte Gestión de credenciales de tareas.
- Revise los requisitos y consideraciones para desplegar un foundation model a la carta.
Creación de un activo modelo
Puede utilizar el punto final " /ml/v4/models
" para crear un activo para el foundation model que desee desplegar a petición.
El siguiente fragmento de código muestra cómo crear un activo en el repositorio watsonx.ai Runtime para desplegar su foundation model bajo demanda. Utilice el ID de activo generado por este código cuando despliegue su modelo.
curl -X POST "https://<cluster url>/ml/v4/models?version=2024-01-29" \
-H "Authorization: Bearer <replace with your token>" \
-H "content-type: application/json" \
--data '{
"type": "curated_foundation_model_1.0",
"version": "1.0",
"name": "granite",
"space_id": "<Space id for deployment>",
"foundation_model": {
"model_id": "ibm/granite-13b-chat-v2-curated"
}
}'
Creación de un despliegue para un foundation model a la carta
Puede utilizar el punto final " /ml/v4/deployments
" para desplegar un foundation model a petición en un espacio de despliegue. Debe utilizar el ID de activo generado al crear el activo de modelo para su despliegue. Para más información, véase Creación de un activo modelo.
El siguiente fragmento de código muestra cómo crear un despliegue en línea para desplegar su foundation model a petición:
curl -X POST "https://<cluster url>/ml/v4/deployments?version=2024-01-29" \
-H "Authorization: Bearer <replace with your token>" \
-H "content-type: application/json" \
--data '{
"asset": {
"id": <Asset id created>
},
"online": {
"parameters": {
"serving_name": "llma"
}
},
"description": "<Description>,
"name": "mi",
"space_id": <Space id for deployment>
}'
Sondeo del estado de despliegue
Puede consultar el estado del despliegue utilizando el ID de despliegue. Cuando el estado cambia de inicializando a listo, su despliegue está listo para usarse.
El siguiente ejemplo de código muestra cómo utilizar la API REST para sondear el estado de despliegue:
curl -X GET "https://<replace with your cloud hostname>/ml/v4/deployments/<replace with your deployment ID>?version=2024-01-29&project_id=<replace with your project ID>" \
-H "Authorization: Bearer <replace with your token>"
Salida:
"deployed_asset_type": "curated_foundation_model"
Modelos de cimientos de pruebas desplegados a la carta
Puede probar un foundation model que se despliega a petición para inferencias en línea.
El siguiente fragmento de código muestra cómo probar un foundation model que se despliega a petición para la inferencia en línea:
curl -X POST "https://<replace with your cloud hostname>/ml/v1/deployments/<replace with your deployment ID>/text/generation?version=2024-01-29" \
-H "Authorization: Bearer <replace with your token>" \
-H "content-type: application/json" \
--data '{
"input": "Hello, what is your name",
"parameters": {
"max_new_tokens": 200,
"min_new_tokens": 20
}
}'
Gestión de modelos de cimientos desplegados a petición
Acceda, actualice, escale o elimine su foundation model desplegado a petición con la API REST.
Acceso al modelo desplegado
Para recuperar la lista de todos los modelos de la fundación que se despliegan a petición en un espacio de despliegue con la API REST, puede establecer el parámetro de consulta ' type=curated_foundation_model
.
El siguiente ejemplo de código muestra cómo utilizar la API REST para acceder a todos los modelos de la base que se despliegan a petición en un espacio de despliegue:
curl -X GET "https://<replace with yourcloud hostname>/ml/v4/deployments?version=2024-01-29&space_id=<replace with your space ID>&type=curated_foundation_model" \
-H "Authorization: Bearer <replace with your token>"
Actualización de la implantación
Actualice los metadatos de despliegue necesarios para su despliegue, como el nombre, la descripción, las etiquetas, etc.
El siguiente ejemplo de código muestra cómo actualizar el nombre de su foundation model que se despliega bajo demanda:
curl -X PATCH "https://<replace with your cloud hostname>//ml/v4/deployments/<replace with your deployment ID>?version=2024-01-29&project_id=<replace with your space ID>" \
-H "Authorization: Bearer <replace with your token>" \
-H "content-type: application/json" \
--data '[{
"op": "replace",
"path": "/name",
"value": "<replace with updated deployment name>"
}]'
Ampliación de la implantación
En un espacio de despliegue sólo se puede desplegar una instancia de un modelo bajo demanda del modelo foundation model. Para hacer frente a una mayor demanda, puede ampliar la implantación creando copias adicionales.
El siguiente ejemplo de código muestra cómo escalar el número de réplicas para su despliegue:
curl -X PATCH "<replace with your cloud hostname>/ml/v4/deployments/<replace with your deployment ID>?version=2024-01-29&space_id=<replace with your space ID>" \
-H "Authorization: Bearer $token" \
-H "content-type: application/json" \
--data '[{
"op": "replace",
"path": "/hardware_request",
"value": {"num_nodes": 2}
}]'
- Si desea escalar los recursos de hardware, utilice la operación "
PATCH
" con el parámetro "/hardware_request
" y actualice el número de nodos de hardware proporcionando un valor para el parámetro "num_nodes
". No puede utilizar el parámetro "size
" con "/hardware_request
. - No se puede utilizar la operación "
PATCH
" para actualizar los parámetros foundation model (/online/parameters/foundation_model
).
Supresión de un despliegue
Puede eliminar el foundation model desplegado cuando ya no lo necesite para detener los cargos de facturación.
El siguiente ejemplo de código muestra cómo eliminar un foundation model desplegado a petición con la API REST:
curl -vk -X DELETE "https://<replace with your cloud hostname>/ml/v4/deployments/<replace with your deployment ID>?version=2024-01-29&space_id=<replace with your space ID>" -H "Authorization: Bearer <replace with your token>"
Cuaderno de ejemplo
El siguiente bloc de notas de ejemplo muestra la solicitud de modelos de base que se despliegan mediante programación a petición. Debe desplegar su foundation model bajo demanda antes de ejecutar el bloc de notas.
Cuaderno | Descripción |
---|---|
Inferencias con modelos Granite de texto a SQL | Configuración Crear una consulta para el modelo de enlace de esquemas Realizar una inferencia en el modelo de enlace de esquemas utilizando el punto final WX.AI Contabilizar el proceso de la salida del modelo de enlace de esquemas Crear una consulta para el modelo de generación SQL Realizar una inferencia en el modelo de generación SQL utilizando el punto final WX.AI |
Más información
- Modelos de cimientos compatibles
- Prompt Lab
- Despliegue de modelos de cimientos a petición desde el centro de recursos.
- Tarifas por hora para modelos de despliegue a la carta
Tema principal: Despliegue de modelos de cimientos dedicados