0 / 0
Volver a la versión inglesa de la documentación
Detalles de facturación de los activos de IA generativa
Última actualización: 14 feb 2025
Detalles de facturación de los activos de IA generativa

Obtenga información sobre cómo se mide el uso de los activos de IA generativa mediante unidades de recursos (RU), tarifas horarias o una tarifa plana.

Trabajar con activos de IA generativa con ' watsonx.ai Runtime requiere que esté utilizando ' watsonx.ai. Visión general de IBM watsonx.ai.

Revise los detalles de cómo se miden los recursos utilizando:

  • Unidades de recursos para medir las actividades de inferencia para los modelos de base proporcionados por watsonx.ai.
  • Tarifas por hora para los modelos de cimientos personalizados que importe y despliegue con watsonx.ai.
  • Tarifas por hora para modelos de cimientos curados desplegados bajo demanda en hardware dedicado.
  • Tarifas planas por página para la extracción de texto de documentos.

Una unidad de recursos se utiliza para medir los siguientes recursos:

  • Fichas utilizadas para inferir un modelo de base para generar texto o incrustaciones de texto.
  • Puntos de datos utilizados por un modelo de base de series temporales para pronosticar valores futuros.

Medición de unidades de recursos para inferir modelos de base

Para ver la lista de modelos de bases compatibles y sus precios, consulte Modelos de bases compatibles. Para ver la lista de modelos de codificadores compatibles y sus precios, consulte Modelos de codificadores compatibles.

Al medir la inferencia del modelo de cimientos, una Unidad de Recurso (UR) equivale a 1000 fichas de la entrada y salida del modelo de cimientos. Un token es una unidad básica de texto (normalmente 4 caracteres o 0.75 palabras) que se utiliza en la entrada o la salida para la consulta de un modelo de fundamentos o para la entrada de un modelo de incrustación.

A cada modelo de base proporcionado por IBM watsonx.ai se le asigna un precio de inferencia para la entrada y la salida. El precio se obtiene como múltiplo del precio base de una EF (0.0001). Por ejemplo, un modelo con un precio de0.0006 tiene un multiplicador de 6 veces la tarifa base.

Importante: Existen límites por plan en el número de solicitudes de inferencia por segundo que se envían a un modelo. Si un usuario supera un límite de solicitud de inferencia, una notificación del sistema le orienta.

A un modelo de cimentación ajustado puntualmente se le asigna el mismo precio que al modelo de cimentación subyacente. Para obtener información sobre los modelos de cimentación sintonizados, consulte Tuning Studio. El ajuste de un modelo en Tuning Studio consume unidades de capacidad horaria (CUH). Para obtener más información, consulte Detalles de facturación de los activos de aprendizaje automático.

Medición de unidades de recursos para inferir modelos de series temporales fundamentales

Al medir la previsión del modelo de cimientos, una Unidad de Recurso (UR) equivale a 1000 puntos de datos en la entrada y salida del modelo de cimientos. Un punto de datos es una unidad de contenido de entrada y salida que se expresa como uno o más números.

Clases de facturación por multiplicador

Si está supervisando el uso de modelos con la API watsonx.ai, los precios de los modelos se muestran por niveles de precios, como se indica a continuación:

Tabla 1. Niveles de precios de la API
Modelo de nivel de precios Tipo de recurso Precio por RU en USD Multiplicador
tipo básico
Clase 1 Señales $0.0006 6
Clase 2 Señales $0.0018 18
Clase 3 Señales $0.0050 50
Clase C1 Señales $0.0001 1
Clase 5 Señales $0.00025 2.5
Clase 7 Señales $0.016 160
Clase 8 Señales $0.00015 1.5
Clase 9 Señales $0.00035 3.5
Clase 10 Señales $0.0020 20
Clase 11 Señales $0.000005 0.05
Clase 12 Señales $0.0002 2
Clase 13 Señales $0.00071 7.1
Clase 14 Puntos de datos $0.00013 1.3
Clase 15 Puntos de datos $0.00038 3.8
Nota:

Algunos modelos, como el Mistral Large, tienen precios especiales que no se asignan mediante un multiplicador. Los precios se indican en modelos con soporte.

Cálculo de la tasa de unidad de recursos de fichas por modelo

Para calcular los gastos de inferencia del modelo de la fundación, divida el número total de fichas consumidas durante el mes por 1000 y redondee al alza hasta el 1000 más cercano para obtener el número total de EF. Multiplique el número total de UI por el precio del modelo para obtener los gastos totales de utilización. El precio del modelo varía según el modelo y también puede variar para los tokens de entrada o salida de un modelo determinado.

La fórmula básica es la siguiente:

Total tokens used/1000 = Resource Units (RU) consumed
RU consumed x model price = Total usage charge

El precio base de una UI es de0.0001. El precio de cada modelo de base es un múltiplo del precio base.

Cálculo de la tasa de unidad de recursos de puntos de datos por modelo

Para calcular los cargos por pronóstico con un modelo de base de series temporales, utilice las siguientes ecuaciones:

  • Cálculo de entrada: context length x number of series x number of channels
  • Cálculo de la salida: prediction length x number of series x number of channels

Estas ecuaciones utilizan los siguientes parámetros:

  • La longitud del contexto se refiere al número de puntos de datos históricos que un modelo de base de series temporales utiliza como entrada para hacer predicciones.
  • Una serie es una colección de observaciones realizadas de forma secuencial a lo largo del tiempo. Por ejemplo, al comparar los precios de las acciones de muchas empresas, el historial de precios de las acciones observado para cada empresa es una serie independiente.
  • Los canales son las características o variables específicas que se miden dentro de un conjunto de datos de series temporales.
  • La longitud de predicción es el número de puntos de datos futuros que el modelo debe predecir.
Precios por punto de datos
Tipo de recurso Modelo de nivel de precios Precio en USD por unidad de medida
Introducir puntos de datos Clase 14 $0.00013
Puntos de datos de salida Clase 15 $0.00038

El siguiente ejemplo muestra cómo calcular el coste de una solicitud de previsión de series temporales con los siguientes parámetros:

Parámetros utilizados para calcular el uso de puntos de datos
Parámetro Cantidad de ejemplo
Longitud del contexto (modelo granite-ttm-1536-96-r2 ) 1.536
Canales 10
Serie 1.000
Duración de la predicción 96
  • Total de puntos de datos de entrada: 15 360 000 (longitud de contexto de 1536, 10 canales, para 1000 series)

    15,360,000 / 1,000 = 15,360 x 0.00013 = 1.9968
    
  • Total de puntos de datos de salida: 960 000 (previsión de 96 puntos temporales, 10 canales, para 1000 series)

    960,000 / 1,000 = 960 x 0.00038 = 0.3648
    
  • Precio total de la solicitud de previsión de series temporales: 2.36 $ (coste de entrada 1.9968 $ + coste de salida 0.3648 $)

    1.9968 + 0.3648 = 2.3616
    

Tarifas por hora para modelos de cimentación personalizados

La implantación de modelos de cimientos personalizados requiere el plan Estándar.

Las tarifas de facturación dependen de la configuración del hardware del modelo y se aplican al alojamiento y la inferencia del modelo. Los cargos comienzan cuando el modelo se despliega con éxito y continúan hasta que se elimina el modelo.

Tarifas de facturación del modelo de fundación personalizado
Tamaño de configuración Tarifa por hora en USD
Small $5.22
Medio $10.40
Grande $20.85
Importante: Puede desplegar un máximo de cuatro modelos de base personalizados pequeños, dos medianos o uno grande por cuenta.

Para más detalles sobre la elección de una configuración para un modelo de cimentación personalizado, véase Planificación de la implantación de un modelo de base personalizado.

Tarifas de facturación por horas para modelos de despliegue bajo demanda

Implemente modelos de base bajo demanda cuando desee una solución alojada reservada para uso exclusivo de su organización. Sólo los colegas a los que conceda acceso al despliegue pueden inferir el modelo de la fundación. Un despliegue dedicado significa interacciones más rápidas y con mayor capacidad de respuesta, y permite avisos con ventanas contextuales de mayor longitud. Las tarifas se fijan por modelo y se aplican al alojamiento y la inferencia del modelo. Los cargos comienzan cuando se despliega el modelo y continúan hasta que se elimina.

Nota: El despliegue de modelos de cimientos bajo demanda requiere el plan Estándar.

Para obtener más información sobre la implementación de un modelo de base bajo demanda, incluido el precio, consulte Modelos de base compatibles en watsonx.ai.

Tarifas por página para la extracción de texto de documentos

Utilice el método de extracción de texto de documentos de la API REST de watsonx.ai para convertir archivos PDF muy estructurados y que utilicen diagramas y tablas para transmitir información, en un formato de archivo JSON compatible con modelos de AI.

La facturación se realiza a tanto alzado por página procesada. Una página puede ser una página de texto (hasta 1800 caracteres), una imagen o un marco .tiff. La tarifa de facturación depende de su tipo de plan.

Precios de extracción de textos
Tipo de plan Precio por página en USD
Básica $0.038
Standard $0.030

Más información

Tema principal: watsonx.ai Planes de ejecución