Los recursos de tiempo de ejecución de watsonx.ai, que se miden en unidades de capacidad horaria (CUH), se utilizan para entrenar modelos AutoAI, ejecutar modelos de aprendizaje automático o puntuar modelos desplegados. Cuando se ejecutan servicios de inferencia con modelos de la Fundación, se utilizan recursos de tiempo de ejecución de watsonx.ai, medidos por tokens consumidos o por una tarifa horaria. En este tema se describen los distintos planes que puede elegir, qué servicios se incluyen y cómo se calculan los recursos informáticos.
'watsonx.ai Tiempo de ejecución en ' Cloud Pak for Data as a Service y ' watsonx
El plan de tiempo de ejecución " watsonx.ai " incluye detalles para " watsonx.ai. Watsonx.ai es un estudio de herramientas integradas para trabajar con IA generativa, basada en modelos de base y modelos de aprendizaje automático. Si está utilizando Cloud Pak for Data as a Service, los detalles para trabajar con modelos de base y la inferencia de solicitud de medición utilizando Unidades de recurso no se aplican a su plan.
Para obtener más información sobre watsonx.ai, consulte:
- Visión general de IBM watsonx.ai
- Comparación de IBM watsonx y Cloud Pak for Data as a Service
- Registro en IBM watsonx.ai
Si está habilitado para watsonx y Cloud Pak for Data as a Service, puede conmutar entre las dos plataformas.
Elegir un plan de tiempo de ejecución de watsonx.ai
los planes de tiempo de ejecución "watsonx.ai " regulan cómo se facturan los modelos que se entrenan y despliegan con el tiempo de ejecución " watsonx.ai " y los avisos que se utilizan con los modelos de la base. Seleccione un plan basado en sus necesidades:
- Lite es un plan gratuito con capacidad limitada. Elija este plan si está evaluando watsonx.ai Runtime y desea probar sus capacidades. El plan Lite no admite la ejecución de un experimento de ajuste foundation model en watsonx.
- Essentials es un plan de pago por uso que le proporciona la flexibilidad para crear, desplegar y gestionar modelos que se ajusten a sus necesidades.
- Estándar es un plan empresarial de alta capacidad diseñado para cubrir todas las necesidades de IA de una organización. Este plan conlleva una cuota de instancia mensual que incluye un bloque de 2500 unidades de capacidad horaria (CUH). Cualquier uso de CUH por encima de esta cantidad se cobra a la tarifa del plan. Todos los demás usos se miden en función del consumo. Importante: La tarifa de instancia del plan watsonx.ai Runtime Standard (por ejemplo, $1050/month USD) se factura independientemente del uso de CUH. Por ejemplo, si sólo consume unidades de recursos, se le sigue cobrando la tarifa de instancia. La cuota se prorratea si se cancela el plan.
Para más información sobre planes y precios, consulte " .
Seguimiento del consumo de recursos
A efectos de medición y facturación, los modelos de aprendizaje automático y los despliegues o modelos de cimentación se miden con estas métricas de carga:
Las medidas de capacidad por unidad de hora (CUH) calculan el consumo de recursos por unidad de hora a efectos de uso y facturación. CUH mide toda la actividad en tiempo de ejecución de watsonx.ai excepto la inferencia de Foundation Model.
La Unidad de Recurso (RU) mide el consumo de inferencia foundation model. La inferencia es el proceso por el que se llama al foundation model para generar un resultado en respuesta a una solicitud. Cada RU equivale a 1.000 señales. Un token es una unidad básica de texto (normalmente 4 caracteres o 0.75 palabras) que se utiliza en la entrada o salida de una consulta foundation model. Para obtener detalles sobre las señales, consulte Señales y tokenización.
La tarifa por hora se utiliza para calcular los cargos de los modelos de base personalizados que importas a watsonx.ai y despliegas. La tarifa se basa en el tamaño de la configuración y se cobra mientras dure la implantación del modelo.
El índice de páginas se utiliza para calcular las tarifas de extracción de texto de los documentos. La tarifa por página se fija según el plan.
¿Qué se mide para el consumo de recursos?
Los recursos, ya sean medidos con horas de unidad de capacidad (CUH) o unidades de recurso (RU), se consumen para activos en ejecución, no para trabajar en herramientas. Es decir, no hay ningún cargo por consumo por definir un experimento enAutoAI, pero hay un cargo por ejecutar el experimento para entrenar los procesos del experimento. De forma similar, no hay ningún cargo por crear un espacio de despliegue o definir un trabajo de despliegue, pero hay un cargo por ejecutar un trabajo de despliegue o inferir en un activo desplegado. Los activos que se ejecutan de forma continua, como los cuadernos Jupyter, los activos RStudio, los scripts Bash y los despliegues de modelos personalizados consumen recursos mientras están activos.
watsonx.ai Detalles del plan de tiempo de ejecución
El plan Lite proporciona suficientes recursos gratuitos para evaluar las prestaciones de watsonx.ai. A continuación, puede elegir un plan de pago que coincida con las necesidades de su organización, basándose en las características y la capacidad del plan.
Características del plan | Básica | Elementos básicos | Estándar |
---|---|---|---|
watsonx.ai Uso del tiempo de ejecución en CUH | 20 CUH al mes | Facturación de CUH basada en la tarifa de CUH multiplicada por horas de consumo | 2500 CUH al mes |
Inferencia de modelo de base en señales o unidades de recurso (RU) | 50.000 señales al mes | Facturado para uso (1000 señales = 1 RU) | Facturado para uso (1000 señales = 1 RU) |
Número máximo de trabajos por lotes paralelos de Decision Optimization por despliegue | 2 | 5 | 100 |
Trabajos de despliegue retenidos por espacio | 100 | 1000 | 3000 |
Tiempo de despliegue a desocupado | 1 día | 3 días | 3 días |
Soporte de HIPAA | N/D | N/D | Sólo la región Dallas Debe estar habilitada en su cuenta de IBM Cloud |
Límite de velocidad por ID de plan | 2 solicitudes de inferencia por segundo | 8 solicitudes de inferencia por segundo | 8 solicitudes de inferencia por segundo |
Soporte para modelos de cimentación personalizados | No disponible | No disponible | Facturación horaria por configuración |
Extracción de textos de documentos | No disponible | Facturación por página | Facturación por página |
Ajuste del modelo de cimentación | No disponible | Sintonización facturada a 43 CUH por hora Inferencing billed for token usage |
Sintonización facturada a 43 CUH por hora Inferencing billed for token usage |
Más información
- Detalles de facturación de los activos de IA generativa
- Detalles de facturación de los activos de aprendizaje automático
- Para obtener más información sobre el seguimiento de la asignación y el consumo de recursos informáticos, consulte Utilización en tiempo de ejecución.
- Nombre de catálogo
Tema principal: watsonx.ai Runtime