Uso de cálculo y planes de Watson Machine Learning
Utilice los recursos de Watson Machine Learning , que se miden en horas de unidad de capacidad (CUH), cuando entrena modelos AutoAI , ejecuta modelos de aprendizaje automático o puntúa los modelos desplegados. Los recursos de Watson Machine Learning , medidos en unidades de recursos (RU), se utilizan cuando se ejecutan servicios de inferencia con modelos de base. En este tema se describen los distintos planes que puede elegir, qué servicios se incluyen y cómo se calculan los recursos informáticos.
Watson Machine Learning en Cloud Pak for Data as a Service y watsonx
El plan Watson Machine Learning incluye detalles para watsonx.ai. Watsonx.ai es un estudio de herramientas integradas para trabajar con IA generativa, basada en modelos de base y modelos de aprendizaje automático. Si está utilizando Cloud Pak for Data as a Service, los detalles para trabajar con modelos de base y la inferencia de solicitud de medición utilizando Unidades de recurso no se aplican a su plan.
Si está habilitado para watsonx y Cloud Pak for Data as a Service, puede conmutar entre las dos plataformas.
Elección de un plan de Watson Machine Learning
Vea una comparación de planes y tenga en cuenta los detalles para elegir un plan que se ajuste a sus necesidades.
- Planes de Watson Machine Learning
- Horas de unidad de capacidad (CUH), señales y unidades de recurso (RU)
- Detalles del plan deWatson Machine Learning
- Medición de horas de unidad de capacidad
- Supervisión del uso de CUH y RU
Planes de Watson Machine Learning
Los planes de Watson Machine Learning rigen cómo se le facturan los modelos que entrena y despliega con Watson Machine Learning y las solicitudes que utiliza con los modelos base. Seleccione un plan basado en sus necesidades:
- Lite es un plan gratuito con capacidad limitada. Seleccione este plan si está evaluando Watson Machine Learning y desea probar las prestaciones. El plan Lite no da soporte a la ejecución de un experimento de ajuste de modelo base en watsonx.
- Essentials es un plan de pago por uso que le proporciona la flexibilidad para crear, desplegar y gestionar modelos que se ajusten a sus necesidades.
- Estándar es un plan empresarial de alta capacidad diseñado para dar soporte a todas las necesidades de aprendizaje automático de una organización. Las horas de unidad de capacidad se proporcionan a una tarifa plana, mientras que el consumo de unidad de recursos es de pago por uso.
Para obtener detalles sobre el plan y los precios, consulte IBM Cloud Machine Learning.
Horas de unidad de capacidad (CUH), señales y unidades de recurso (RU)
A efectos de medición y facturación, los modelos y despliegues de aprendizaje automático o los modelos de base se miden con estas unidades:
Horas de unidad de capacidad (CUH) calculan el consumo de recursos por hora de unidad para fines de uso y facturación. CUH mide toda la actividad de Watson Machine Learning excepto la inferencia del modelo de fundación.
Las Unidades de recurso (RU) miden el modelo de base que infiere el consumo. La inferencia es el proceso de llamar al modelo de base para generar salida en respuesta a una solicitud. Cada RU equivale a 1.000 señales. Una señal es una unidad básica de texto (normalmente 4 caracteres o 0.75 palabras) utilizada en la entrada o salida para una solicitud de modelo de base. Elija un plan que se corresponda con sus requisitos de uso.
Un límite de velocidad supervisa y restringe el número de solicitudes de inferencia por segundo procesadas para modelos de base para una instancia de plan de Watson Machine Learning determinada. El límite de tarifa es mayor para los planes de pago que para el plan Lite gratuito.
¿Qué se mide para el consumo de CUH o RU?
Los recursos, ya sean medidos con horas de unidad de capacidad (CUH) o unidades de recurso (RU), se consumen para activos en ejecución, no para trabajar en herramientas. Es decir, no hay ningún cargo por consumo por definir un experimento enAutoAI, pero hay un cargo por ejecutar el experimento para entrenar los procesos del experimento. De forma similar, no hay ningún cargo por crear un espacio de despliegue o definir un trabajo de despliegue, pero hay un cargo por ejecutar un trabajo de despliegue o inferir en un activo desplegado. Los activos que se ejecutan continuamente, como Jupyter, activos de RStudio y scripts de Bash consumen recursos mientras están activos.
Detalles del plan de Watson Machine Learning
El plan Lite proporciona suficientes recursos gratuitos para evaluar las prestaciones de watsonx.ai. A continuación, puede elegir un plan de pago que coincida con las necesidades de su organización, basándose en las características y la capacidad del plan.
Características del plan | Lite | Elementos básicos | Standard |
---|---|---|---|
Uso de Machine Learning en CUH | 20 CUH al mes | Facturación de CUH basada en la tarifa de CUH multiplicada por horas de consumo | 2500 CUH al mes |
Inferencia de modelo de base en señales o unidades de recurso (RU) | 50.000 señales al mes | Facturado para uso (1000 señales = 1 RU) | Facturado para uso (1000 señales = 1 RU) |
Número máximo de trabajos por lotes paralelos de Decision Optimization por despliegue | 2 | 5 | 100 |
Trabajos de despliegue retenidos por espacio | 100 | 1000 | 3000 |
Tiempo de despliegue a desocupado | 1 día | 3 días | 3 días |
Soporte de HIPAA | N/D | N/D | Sólo la región Dallas Debe estar habilitada en su cuenta de IBM Cloud |
Límite de velocidad por ID de plan | 2 solicitudes de inferencia por segundo | 8 solicitudes de inferencia por segundo | 8 solicitudes de inferencia por segundo |
Soporte para modelos de cimentación personalizados | No disponible | No disponible | Facturado por configuración |
Para todos los planes:
- Las unidades de recursos de inferencia (RU) del modelo fundacional se pueden utilizar para la inferencia de Prompt Lab, incluidas la entrada y la salida. Es decir, la solicitud que especifique para la entrada se cuenta además de la salida generada. (Sólowatsonx )
- La inferencia del modelo de fundación está disponible en los centros de datos de Dallas, Frankfurt, Londres y Tokio. (Sólowatsonx )
- El ajuste del modelo de base en Tuning Studio está disponible en los centros de datos de Dallas, Frankfurt, Londres y Tokio. (Sólowatsonx )
- Las clases de modelo determinan la tasa de RU. El precio por RU difiere según la clase de modelo. (Sólowatsonx )
- El consumo de velocidad de la unidad de capacidad/hora (CUH) para el entrenamiento se basa en la herramienta de entrenamiento, la especificación de hardware y el entorno de ejecución.
- El consumo de velocidad de la unidad de capacidad por hora (CUH) para el despliegue se basa en el tipo de despliegue, la especificación de hardware y la especificación de software.
- Watson Machine Learning establece límites en el número de trabajos de despliegue retenidos para cada espacio de despliegue individual. Si supera el límite, no puede crear nuevos trabajos de despliegue hasta que suprima los trabajos existentes o actualice el plan. De forma predeterminada, los metadatos de trabajo se suprimirán automáticamente al cabo de 30 días. Puede alterar temporalmente este valor al crear un trabajo. Consulte Gestión de trabajos.
- El tiempo de inactividad se refiere a la cantidad de tiempo que se debe considerar un despliegue activo entre solicitudes de puntuación. Si un despliegue no recibe solicitudes de puntuación durante una duración determinada, se trata como inactivo o desocupado y la facturación se detiene para todas las infraestructuras distintas de SPSS.
- Un plan permite al menos el límite de velocidad indicado, y el límite de velocidad real puede ser mayor que el límite indicado. Por ejemplo, el plan Lite puede procesar más de 2 solicitudes por segundo sin emitir un error. Si tiene un plan de pago y cree que está alcanzando el límite de velocidad por error, póngase en contacto con el soporte de IBM para obtener ayuda.
Para obtener detalles sobre el plan y los precios, consulte IBM Cloud Machine Learning.
Medición de unidad de recurso (watsonx)
La facturación de unidades de recurso se basa en la tarifa de la clase de facturación para el modelo de base multiplicado por el número de unidades de recurso (RU). Una unidad de recurso es igual a 1000 señales de la entrada y salida de la inferencia del modelo de base. Las tres clases de facturación del modelo de base tienen diferentes tarifas de RU. Los modelos de incorporaciones que vectorizan cadenas de texto se facturan con una tarifa diferente.
Tarifas de facturación de unidad de recurso por clase de modelo
Clase de facturación de modelo | Precio por RU en USD |
---|---|
Clase 1 | $0.0006 |
Clase 2 | $0.0018 |
Clase 3 | $0.0050 |
Clase C1 | $0.0001 |
Clase 5 | $0.00025 |
Clase 7 | $0.016 |
Mistral grande | $0.01 |
Tarifas de facturación de unidad de recurso para modelos de base
Para los modelos siguientes, la tarifa de facturación es la misma para las señales de entrada y salida.
Modelo | Origen | Clase de facturación | Precio por RU en USD |
---|---|---|---|
granite-13b-instruct-v2 | IBM | Clase 1 | 0.0006 $por unidad de negocio |
granite-13b-chat-v2 | IBM | Clase 1 | 0.0006 $por unidad de negocio |
granite-7b-lab | IBM | Clase 1 | 0.0006 $por unidad de negocio |
granite-8b-japanese | IBM | Clase 1 | 0.0006 $por unidad de negocio |
granite-20b-multilingual | IBM | Clase 1 | 0.0006 $por unidad de negocio |
granite-3b-code-instruct | IBM | Clase 1 | 0.0006 $por unidad de negocio |
granite-8b-code-instruct | IBM | Clase 1 | 0.0006 $por unidad de negocio |
granite-20b-code-instruct | IBM | Clase 1 | 0.0006 $por unidad de negocio |
granite-34b-code-instruct | IBM | Clase 1 | 0.0006 $por unidad de negocio |
allam-1-13b-instruct | Terceros | Clase 2 | 0.0018 $por unidad de negocio |
codellama-34b-instruct-hf | Terceros | Clase 2 | 0.0018 $por unidad de negocio |
elyza-japanese-llama-2-7b-instruct | Terceros | Clase 2 | 0.0018 $por unidad de negocio |
flan-t5-xl-3b | Código abierto | Clase 1 | 0.0006 $por unidad de negocio |
flan-t5-xxl-11b | Código abierto | Clase 2 | 0.0018 $por unidad de negocio |
flan-ul2-20b | Código abierto | Clase 3 | 0.0050 $por unidad de negocio |
jais-13b-chat | Código abierto | Clase 2 | 0.0018 $por unidad de negocio |
llama-3-1-8b-instruct | Terceros | Clase 1 | 0.0006 $por unidad de negocio |
llama-3-1-70b-instruct | Terceros | Clase 2 | 0.0018 $por unidad de negocio |
llama-3-8b-instruct | Terceros | Clase 1 | 0.0006 $por unidad de negocio |
llama-3-70b-instruct | Terceros | Clase 2 | 0.0018 $por unidad de negocio |
llama-2-13b-chat | Terceros | Clase 1 | 0.0006 $por unidad de negocio |
llama-2-70b-chat | Terceros | Clase 2 | 0.0018 $por unidad de negocio |
llama2-13b-dpo-v7 | Terceros | Clase 2 | 0.0018 $por unidad de negocio |
mistral-grande | Terceros | Mistral grande | $0.01 por RU |
mixtral-8x7b-instruct-v01 | Código abierto | Clase 1 | 0.0006 $por unidad de negocio |
mt0-xxl-13b | Código abierto | Clase 2 | 0.0018 $por unidad de negocio |
Para los siguientes modelos, la tasa de facturación es diferente para los tokens de entrada y de salida. Los precios se indican en USD.
Modelo | Origen | Señales de entrada | Señales de salida |
---|---|---|---|
llama-3-405b-instruct | Meta | Clase 3: $0.0050 por RU | Clase 7: $0.016 por UI |
Tarifas de facturación de unidad de recurso para modelos de incorporación
La incorporación de modelos transforma las frases en vectores para comparar y recuperar de forma más precisa un texto similar.
Modelo | Origen | Clase de facturación | Precio por RU en USD |
---|---|---|---|
slate.125m.english.rtrvr-v2 | IBM | Clase C1 | 0.0001 $por RU |
slate.125m.english.rtrvr | IBM | Clase C1 | 0.0001 $por RU |
slate.30m.english.rtrvr-v2 | IBM | Clase C1 | 0.0001 $por RU |
slate.30m.english.rtrvr | IBM | Clase C1 | 0.0001 $por RU |
all-MiniLM-L12-v2 | Código abierto | Clase C1 | 0.0001 $por RU |
multilingual-e5-large | Código abierto | Clase C1 | 0.0001 $por RU |
Tarifas por hora para modelos de cimentación personalizados
La implantación de modelos de base personalizados requiere el plan Estándar. Las tarifas de facturación dependen de la configuración del hardware del modelo y se aplican al alojamiento y la inferencia del modelo. Los cargos comienzan cuando el modelo se despliega correctamente y continúan hasta que se elimina.
Tamaño de configuración | Tarifa por hora en USD |
---|---|
Small | $5.22 |
Medio | $10.40 |
Grande | $20.85 |
Para obtener más información sobre cómo elegir una configuración para un modelo de base personalizado, consulte Planificación del despliegue de un modelo de base personalizado.
Tarifas de facturación de la extracción de textos de documentos
Utilice el método de extracción de texto de documentos de la API REST watsonx.ai para convertir archivos PDF muy estructurados y que utilicen diagramas y tablas para transmitir información, en un formato de archivo JSON compatible con el modelo AI. Para obtener más información, consulte Extracción de texto de documentos.
La facturación se basa en el número de páginas procesadas, así como en el tipo de plan.
Tipo de plan | Precio por página en USD |
---|---|
Esencial | $0.038 |
Standard | $0.030 |
Medición de horas de unidad de capacidad (watsonx y Watson Machine Learning)
El consumo de CUH se ve afectado por los recursos de hardware de cálculo que se aplican a una tarea, así como por otros factores como la especificación de software y el tipo de modelo.
Tasas de consumo de CUH por tipo de activo
Tipo de activo | Tipo de capacidad | Unidades de capacidad por hora |
---|---|---|
Experimento AutoAI | 8 vCPU y 32 GB de RAM | 20 |
Entrenamiento de Decision Optimization | 2 vCPU y 8 GB de RAM 4 vCPU y 16 GB de RAM 8 vCPU y 32 GB de RAM 16 vCPU y 64 GB de RAM |
6 7 9 13 |
Despliegues de Decision Optimization | 2 vCPU y 8 GB de RAM 4 vCPU y 16 GB de RAM 8 vCPU y 32 GB de RAM 16 vCPU y 64 GB de RAM |
30 40 50 60 |
Modelos de Machine Learning (entrenamiento, evaluación o puntuación) |
1 vCPU y 4 GB de RAM 2 vCPU y 8 GB de RAM 4 vCPU y 16 GB de RAM 8 vCPU y 32 GB de RAM 16 vCPU y 64 GB de RAM |
0.5 1 2 4 8 |
Experimento de ajuste de modelo de base (solowatsonx ) |
NVIDIA A100 80GB GPU | 43 |
Consumo de CUH por el despliegue y el tipo de infraestructura
El consumo de CUH se calcula utilizando estas fórmulas:
Tipo de despliegue | Infraestructura | Cálculo de CUH |
---|---|---|
En línea | AutoAI, función AI, SPSS, bibliotecas personalizadas Scikit-Learn, Tensorflow, RShiny | deployment_active_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework |
En línea | Spark, PMML, Scikit-Learn, Pytorch, XGBoost | score_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework |
Por lotes | todas las infraestructuras | job_duration_in_hours * no_de_nodos * CUH_rate_for_capacity_type_framework |
Por ejemplo, considere un trabajo de despliegue por lotes de Decision Optimization que se ejecuta durante 15 minutos. El consumo de recursos se calcula de este modo: 15 minutos = 0.25 horas, en 2 nodos y con 2 vCPU y 8 GB de RAM. Esta combinación da como resultado una tasa de CUH de 30, por lo que cada vez que se ejecuta el trabajo consume 0.25 * 2 * 30, lo que equivale a 15 CUH.
Supervisión del uso de recursos
Puede realizar un seguimiento del uso de recursos de los activos que posee o en los que colabora en un proyecto o espacio. Si es propietario o administrador de una cuenta, puede realizar un seguimiento del uso de CUH, RU o de los cargos de facturación por horas de una cuenta completa.
Seguimiento del uso de recursos en un proyecto
Para monitorear el consumo de CUH o RU o el uso por hora en un proyecto:
Vaya al separador Gestionar de un proyecto.
Pulse Recursos para revisar un resumen del consumo de recursos para activos en el proyecto o espacio, o para revisar los detalles de consumo de recursos para activos concretos.
Seguimiento del uso de recursos para una cuenta
Puede realizar un seguimiento del uso de tiempo de ejecución para una cuenta en la página Tiempos de ejecución de entorno si es el propietario o el administrador de la cuenta de IBM Cloud o el propietario del servicio de Watson Machine Learning. Para obtener detalles, consulte Supervisión de recursos.
Seguimiento del consumo de CUH para el aprendizaje automático en un cuaderno
Para calcular las horas de unidad de capacidad en un cuaderno, utilice:
CP = client.service_instance.get_details()
CUH = CUH["entity"]["usage"]["capacity_units"]["current"]/(3600*1000)
print(CUH)
Por ejemplo:
'capacity_units': {'current': 19773430}
19773430/(3600*1000)
returns 5.49 CUH
Para obtener detalles, consulte la sección Instancias de servicio de la documentación de API de IBM Watson Machine Learning.
Más información
- Opciones de cálculo para experimentos de IA automática
- Opciones de cálculo para el entrenamiento y la puntuación de modelos
Tema principal: Watson Machine Learning