0 / 0
Volver a la versión inglesa de la documentación
Despliegue y gestión de modelos de cimentación desplegados a petición con la API REST
Última actualización: 13 dic 2024
Despliegue y gestión de modelos de cimentación desplegados a petición con la API REST

Implemente modelos de base a petición mediante programación con la API REST. El despliegue de un foundation model bajo demanda hace que esté disponible en hardware dedicado para uso exclusivo de su organización. IBM proporciona un conjunto de modelos curados que están disponibles para su despliegue bajo demanda.

Antes de empezar

  1. Debe configurar o habilitar sus credenciales de tarea para desplegar modelos de cimentación bajo demanda. Para obtener más información, consulte Gestión de credenciales de tareas.
  2. Revise los requisitos y consideraciones para desplegar un foundation model a la carta.

Creación de un activo modelo

Puede utilizar el punto final " /ml/v4/models " para crear un activo para el foundation model que desee desplegar a petición.

El siguiente fragmento de código muestra cómo crear un activo en el repositorio watsonx.ai Runtime para desplegar su foundation model bajo demanda. Utilice el ID de activo generado por este código cuando despliegue su modelo.

curl -X POST "https://<cluster url>/ml/v4/models?version=2024-01-29" \
-H "Authorization: Bearer <replace with your token>" \
-H "content-type: application/json" \
--data '{
    "type": "curated_foundation_model_1.0",
    "version": "1.0",
    "name": "granite",
    "space_id": "<Space id for deployment>",
    "foundation_model": {
        "model_id": "ibm/granite-13b-chat-v2-curated"
    }
}'

Creación de un despliegue para un foundation model a la carta

Puede utilizar el punto final " /ml/v4/deployments " para desplegar un foundation model a petición en un espacio de despliegue. Debe utilizar el ID de activo generado al crear el activo de modelo para su despliegue. Para más información, véase Creación de un activo modelo.

Nota: Las implantaciones por lotes no son compatibles con la implantación de modelos de cimientos a petición.

El siguiente fragmento de código muestra cómo crear un despliegue en línea para desplegar su foundation model a petición:

curl -X POST "https://<cluster url>/ml/v4/deployments?version=2024-01-29" \
-H "Authorization: Bearer <replace with your token>" \
-H "content-type: application/json" \
--data '{
  "asset": {
    "id": <Asset id created>
  },
  "online": {
    "parameters": {
      "serving_name": "llma"
    }
  },
  "description": "<Description>,
  "name": "mi",
  "space_id": <Space id for deployment>
}'

Sondeo del estado de despliegue

Puede consultar el estado del despliegue utilizando el ID de despliegue. Cuando el estado cambia de inicializando a listo, su despliegue está listo para usarse.

El siguiente ejemplo de código muestra cómo utilizar la API REST para sondear el estado de despliegue:

curl -X GET "https://<replace with your cloud hostname>/ml/v4/deployments/<replace with your deployment ID>?version=2024-01-29&project_id=<replace with your project ID>" \
-H "Authorization: Bearer <replace with your token>" 

Salida:

"deployed_asset_type": "curated_foundation_model"

Modelos de cimientos de pruebas desplegados a la carta

Puede probar un foundation model que se despliega a petición para inferencias en línea.

El siguiente fragmento de código muestra cómo probar un foundation model que se despliega a petición para la inferencia en línea:

curl -X POST "https://<replace with your cloud hostname>/ml/v1/deployments/<replace with your deployment ID>/text/generation?version=2024-01-29" \
-H "Authorization: Bearer <replace with your token>" \
-H "content-type: application/json" \
--data '{
 "input": "Hello, what is your name",
 "parameters": {
    "max_new_tokens": 200,
    "min_new_tokens": 20
 }
}'

Gestión de modelos de cimientos desplegados a petición

Acceda, actualice, escale o elimine su foundation model desplegado a petición con la API REST.

Acceso al modelo desplegado

Para recuperar la lista de todos los modelos de la fundación que se despliegan a petición en un espacio de despliegue con la API REST, puede establecer el parámetro de consulta ' type=curated_foundation_model.

El siguiente ejemplo de código muestra cómo utilizar la API REST para acceder a todos los modelos de la base que se despliegan a petición en un espacio de despliegue:

curl -X GET "https://<replace with yourcloud hostname>/ml/v4/deployments?version=2024-01-29&space_id=<replace with your space ID>&type=curated_foundation_model" \
-H "Authorization: Bearer <replace with your token>" 

Actualización de la implantación

Actualice los metadatos de despliegue necesarios para su despliegue, como el nombre, la descripción, las etiquetas, etc.

El siguiente ejemplo de código muestra cómo actualizar el nombre de su foundation model que se despliega bajo demanda:

curl -X PATCH "https://<replace with your cloud hostname>//ml/v4/deployments/<replace with your deployment ID>?version=2024-01-29&project_id=<replace with your space ID>" \
-H "Authorization: Bearer <replace with your token>" \
-H "content-type: application/json" \
--data '[{
 "op": "replace",
 "path": "/name",
 "value": "<replace with updated deployment name>"
}]'

Ampliación de la implantación

En un espacio de despliegue sólo se puede desplegar una instancia de un modelo bajo demanda del modelo foundation model. Para hacer frente a una mayor demanda, puede ampliar la implantación creando copias adicionales.

El siguiente ejemplo de código muestra cómo escalar el número de réplicas para su despliegue:

curl -X PATCH "<replace with your cloud hostname>/ml/v4/deployments/<replace with your deployment ID>?version=2024-01-29&space_id=<replace with your space ID>" \
-H "Authorization: Bearer $token" \
-H "content-type: application/json" \
--data '[{
 "op": "replace",
 "path": "/hardware_request",
 "value": {"num_nodes": 2}                
}]'
Importante:
  1. Si desea escalar los recursos de hardware, utilice la operación " PATCH " con el parámetro " /hardware_request " y actualice el número de nodos de hardware proporcionando un valor para el parámetro " num_nodes ". No puede utilizar el parámetro " size " con " /hardware_request.
  2. No se puede utilizar la operación " PATCH " para actualizar los parámetros foundation model (/online/parameters/foundation_model).

Supresión de un despliegue

Puede eliminar el foundation model desplegado cuando ya no lo necesite para detener los cargos de facturación.

El siguiente ejemplo de código muestra cómo eliminar un foundation model desplegado a petición con la API REST:

curl -vk -X DELETE "https://<replace with your cloud hostname>/ml/v4/deployments/<replace with your deployment ID>?version=2024-01-29&space_id=<replace with your space ID>" -H "Authorization: Bearer <replace with your token>"

Cuaderno de ejemplo

El siguiente bloc de notas de ejemplo muestra la solicitud de modelos de base que se despliegan mediante programación a petición. Debe desplegar su foundation model bajo demanda antes de ejecutar el bloc de notas.

Cuaderno de ejemplo
Cuaderno Descripción
Inferencias con modelos Granite de texto a SQL Configuración
Crear una consulta para el modelo de enlace de esquemas
Realizar una inferencia en el modelo de enlace de esquemas utilizando el punto final WX.AI
Contabilizar el proceso de la salida del modelo de enlace de esquemas
Crear una consulta para el modelo de generación SQL
Realizar una inferencia en el modelo de generación SQL utilizando el punto final WX.AI

Más información

Tema principal: Despliegue de modelos de cimientos dedicados

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información