0 / 0
Volver a la versión inglesa de la documentación
Uso de cálculo y planes de Watson Machine Learning

Uso de cálculo y planes de Watson Machine Learning

Utilice los recursos de Watson Machine Learning , que se miden en horas de unidad de capacidad (CUH), cuando entrena modelos AutoAI , ejecuta modelos de aprendizaje automático o puntúa los modelos desplegados. Los recursos de Watson Machine Learning , medidos en unidades de recursos (RU), se utilizan cuando se ejecutan servicios de inferencia con modelos de base. En este tema se describen los distintos planes que puede elegir, qué servicios se incluyen y cómo se calculan los recursos informáticos.

Watson Machine Learning en Cloud Pak for Data as a Service y watsonx

Importante:

El plan Watson Machine Learning incluye detalles para watsonx.ai. Watsonx.ai es un estudio de herramientas integradas para trabajar con IA generativa, basada en modelos de base y modelos de aprendizaje automático. Si está utilizando Cloud Pak for Data as a Service, los detalles para trabajar con modelos de base y la inferencia de solicitud de medición utilizando Unidades de recurso no se aplican a su plan.

Para obtener más información sobre watsonx.ai, consulte:

Si está habilitado para watsonx y Cloud Pak for Data as a Service, puede conmutar entre las dos plataformas.

Elección de un plan de Watson Machine Learning

Vea una comparación de planes y tenga en cuenta los detalles para elegir un plan que se ajuste a sus necesidades.

Planes de Watson Machine Learning

Los planes de Watson Machine Learning rigen cómo se le facturan los modelos que entrena y despliega con Watson Machine Learning y las solicitudes que utiliza con los modelos base. Seleccione un plan basado en sus necesidades:

  • Lite es un plan gratuito con capacidad limitada. Seleccione este plan si está evaluando Watson Machine Learning y desea probar las prestaciones. El plan Lite no da soporte a la ejecución de un experimento de ajuste de modelo base en watsonx.
  • Essentials es un plan de pago por uso que le proporciona la flexibilidad para crear, desplegar y gestionar modelos que se ajusten a sus necesidades.
  • Estándar es un plan empresarial de alta capacidad diseñado para dar soporte a todas las necesidades de aprendizaje automático de una organización. Las horas de unidad de capacidad se proporcionan a una tarifa plana, mientras que el consumo de unidad de recursos es de pago por uso.

Para obtener detalles sobre el plan y los precios, consulte IBM Cloud Machine Learning.

Horas de unidad de capacidad (CUH), señales y unidades de recurso (RU)

A efectos de medición y facturación, los modelos y despliegues de aprendizaje automático o los modelos de base se miden con estas unidades:

  • Horas de unidad de capacidad (CUH) calculan el consumo de recursos por hora de unidad para fines de uso y facturación. CUH mide toda la actividad de Watson Machine Learning excepto la inferencia del modelo de fundación.

  • Las Unidades de recurso (RU) miden el modelo de base que infiere el consumo. La inferencia es el proceso de llamar al modelo de base para generar salida en respuesta a una solicitud. Cada RU equivale a 1.000 señales. Una señal es una unidad básica de texto (normalmente 4 caracteres o 0.75 palabras) utilizada en la entrada o salida para una solicitud de modelo de base. Elija un plan que se corresponda con sus requisitos de uso. Para obtener detalles sobre las señales, consulte Señales y tokenización.

  • Un límite de velocidad supervisa y restringe el número de solicitudes de inferencia por segundo procesadas para modelos de base para una instancia de plan de Watson Machine Learning determinada. El límite de tarifa es mayor para los planes de pago que para el plan Lite gratuito.

Nota: Los modelos de base personalizados que importe a Watson Machine Learning y ejecute se facturan a una tarifa por hora, basada en el tamaño de la configuración.

¿Qué se mide para el consumo de CUH o RU?

Los recursos, ya sean medidos con horas de unidad de capacidad (CUH) o unidades de recurso (RU), se consumen para activos en ejecución, no para trabajar en herramientas. Es decir, no hay ningún cargo por consumo por definir un experimento enAutoAI, pero hay un cargo por ejecutar el experimento para entrenar los procesos del experimento. De forma similar, no hay ningún cargo por crear un espacio de despliegue o definir un trabajo de despliegue, pero hay un cargo por ejecutar un trabajo de despliegue o inferir en un activo desplegado. Los activos que se ejecutan continuamente, como los cuadernos Jupyter, los activos RStudio y los scripts Bash, consumen recursos mientras estén activos.

Detalles del plan de Watson Machine Learning

El plan Lite proporciona suficientes recursos gratuitos para evaluar las prestaciones de watsonx.ai. A continuación, puede elegir un plan de pago que coincida con las necesidades de su organización, basándose en las características y la capacidad del plan.

Tabla 1. Detalles del plan
Características del plan Básica Elementos básicos Estándar
Uso de Machine Learning en CUH 20 CUH al mes Facturación de CUH basada en la tarifa de CUH multiplicada por horas de consumo 2500 CUH al mes
Inferencia de modelo de base en señales o unidades de recurso (RU) 50.000 señales al mes Facturado para uso (1000 señales = 1 RU) Facturado para uso (1000 señales = 1 RU)
Número máximo de trabajos por lotes paralelos de Decision Optimization por despliegue 2 5 100
Trabajos de despliegue retenidos por espacio 100 1000 3000
Tiempo de despliegue a desocupado 1 día 3 días 3 días
Soporte de HIPAA N/D N/D Sólo la región Dallas
Debe estar habilitada en su cuenta de IBM Cloud
Límite de velocidad por ID de plan 2 solicitudes de inferencia por segundo 8 solicitudes de inferencia por segundo 8 solicitudes de inferencia por segundo
Soporte para modelos de cimentación personalizados No disponible No disponible Facturado por configuración

Nota: Si actualiza de Essentials a Standard, no puede volver a un plan Essentials. Debe crear un nuevo plan.

Para todos los planes:

  • Las unidades de recursos de inferencia (RU) del modelo fundacional se pueden utilizar para la inferencia de Prompt Lab, incluidas la entrada y la salida. Es decir, la solicitud que especifique para la entrada se cuenta además de la salida generada. (Sólowatsonx )
  • La inferencia del modelo de fundación está disponible en los centros de datos de Dallas, Frankfurt, Londres y Tokio. (Sólowatsonx )
  • El ajuste del modelo de base en Tuning Studio está disponible en los centros de datos de Dallas, Frankfurt, Londres y Tokio. (Sólowatsonx )
  • Las clases de modelo determinan la tasa de RU. El precio por RU difiere según la clase de modelo. (Sólowatsonx )
  • El consumo de velocidad de la unidad de capacidad/hora (CUH) para el entrenamiento se basa en la herramienta de entrenamiento, la especificación de hardware y el entorno de ejecución.
  • El consumo de velocidad de la unidad de capacidad por hora (CUH) para el despliegue se basa en el tipo de despliegue, la especificación de hardware y la especificación de software.
  • Watson Machine Learning establece límites en el número de trabajos de despliegue retenidos para cada espacio de despliegue individual. Si supera el límite, no puede crear nuevos trabajos de despliegue hasta que suprima los trabajos existentes o actualice el plan. De forma predeterminada, los metadatos de trabajo se suprimirán automáticamente al cabo de 30 días. Puede alterar temporalmente este valor al crear un trabajo. Consulte Gestión de trabajos.
  • El tiempo de inactividad se refiere a la cantidad de tiempo que se debe considerar un despliegue activo entre solicitudes de puntuación. Si un despliegue no recibe solicitudes de puntuación durante una duración determinada, se trata como inactivo o desocupado y la facturación se detiene para todas las infraestructuras distintas de SPSS.
  • Un plan permite al menos el límite de velocidad indicado, y el límite de velocidad real puede ser mayor que el límite indicado. Por ejemplo, el plan Lite puede procesar más de 2 solicitudes por segundo sin emitir un error. Si tiene un plan de pago y cree que está alcanzando el límite de velocidad por error, póngase en contacto con el soporte de IBM para obtener ayuda.

Para obtener detalles sobre el plan y los precios, consulte IBM Cloud Machine Learning.

Medición de unidad de recurso (watsonx)

La facturación de unidades de recurso se basa en la tarifa de la clase de facturación para el modelo de base multiplicado por el número de unidades de recurso (RU). Una unidad de recurso es igual a 1000 señales de la entrada y salida de la inferencia del modelo de base. Las tres clases de facturación del modelo de base tienen diferentes tarifas de RU. Los modelos de incorporaciones que vectorizan cadenas de texto se facturan con una tarifa diferente.

Tarifas de facturación de unidad de recurso por clase de modelo

Clase de facturación de modelo Precio por RU en USD
Clase 1 $0.0006
Clase 2 $0.0018
Clase 3 $0.0050
Clase C1 $0.0001
Clase 5 $0.00025
Clase 7 $0.016
Mistral grande $0.01

Tarifas de facturación de unidad de recurso para modelos de base

Para los modelos siguientes, la tarifa de facturación es la misma para las señales de entrada y salida.

Tabla 2a. Detalles de facturación del modelo de base
Modelo Origen Clase de facturación Precio por RU en USD
granite-13b-instruct-v2 IBM Clase 1 0.0006 $por unidad de negocio
granite-13b-chat-v2 IBM Clase 1 0.0006 $por unidad de negocio
granite-7b-lab IBM Clase 1 0.0006 $por unidad de negocio
granite-8b-japanese IBM Clase 1 0.0006 $por unidad de negocio
granite-20b-multilingual IBM Clase 1 0.0006 $por unidad de negocio
granite-3b-code-instruct IBM Clase 1 0.0006 $por unidad de negocio
granite-8b-code-instruct IBM Clase 1 0.0006 $por unidad de negocio
granite-20b-code-instruct IBM Clase 1 0.0006 $por unidad de negocio
granite-34b-code-instruct IBM Clase 1 0.0006 $por unidad de negocio
allam-1-13b-instruct Tercero Clase 2 0.0018 $por unidad de negocio
codellama-34b-instruct-hf Tercero Clase 2 0.0018 $por unidad de negocio
elyza-japanese-llama-2-7b-instruct Tercero Clase 2 0.0018 $por unidad de negocio
flan-t5-xl-3b Código fuente abierto Clase 1 0.0006 $por unidad de negocio
flan-t5-xxl-11b Código fuente abierto Clase 2 0.0018 $por unidad de negocio
flan-ul2-20b Código fuente abierto Clase 3 0.0050 $por unidad de negocio
jais-13b-chat Código fuente abierto Clase 2 0.0018 $por unidad de negocio
llama-3-1-8b-instruct Tercero Clase 1 0.0006 $por unidad de negocio
llama-3-1-70b-instruct Tercero Clase 2 0.0018 $por unidad de negocio
llama-3-8b-instruct Tercero Clase 1 0.0006 $por unidad de negocio
llama-3-70b-instruct Tercero Clase 2 0.0018 $por unidad de negocio
llama-2-13b-chat Tercero Clase 1 0.0006 $por unidad de negocio
llama-2-70b-chat Tercero Clase 2 0.0018 $por unidad de negocio
llama2-13b-dpo-v7 Tercero Clase 2 0.0018 $por unidad de negocio
mistral-grande Tercero Mistral grande $0.01 por RU
mixtral-8x7b-instruct-v01 Código fuente abierto Clase 1 0.0006 $por unidad de negocio
mt0-xxl-13b Código fuente abierto Clase 2 0.0018 $por unidad de negocio

Para los siguientes modelos, la tasa de facturación es diferente para los tokens de entrada y de salida. Los precios se indican en USD.

Tabla 2b. Detalles de facturación del modelo básico cuando la entrada y la salida tienen tarifas diferentes
Modelo Origen Señales de entrada Señales de salida
llama-3-405b-instruct Meta Clase 3: $0.0050 por RU Clase 7: $0.016 por UI

Tarifas de facturación de unidad de recurso para modelos de incorporación

La incorporación de modelos transforma las frases en vectores para comparar y recuperar de forma más precisa un texto similar.

Tabla 3. Incorporar detalles de facturación de modelo
Modelo Origen Clase de facturación Precio por RU en USD
slate.125m.english.rtrvr-v2 IBM Clase C1 0.0001 $por RU
slate.125m.english.rtrvr IBM Clase C1 0.0001 $por RU
slate.30m.english.rtrvr-v2 IBM Clase C1 0.0001 $por RU
slate.30m.english.rtrvr IBM Clase C1 0.0001 $por RU
all-MiniLM-L12-v2 Código fuente abierto Clase C1 0.0001 $por RU
multilingual-e5-large Código fuente abierto Clase C1 0.0001 $por RU

Tarifas por hora para modelos de cimentación personalizados

La implantación de modelos de base personalizados requiere el plan Estándar. Las tarifas de facturación dependen de la configuración del hardware del modelo y se aplican al alojamiento y la inferencia del modelo. Los cargos comienzan cuando el modelo se despliega correctamente y continúan hasta que se elimina.

Tamaño de configuración Tarifa por hora en USD
Pequeña $5.22
Medio $10.40
Grande $20.85
Importante: Puede desplegar un máximo de cuatro modelos de base personalizados pequeños, dos modelos medianos o un modelo grande por cuenta.

Para obtener más información sobre cómo elegir una configuración para un modelo de base personalizado, consulte Planificación del despliegue de un modelo de base personalizado.

Tarifas de facturación de la extracción de textos de documentos

Utilice el método de extracción de texto de documentos de la API REST watsonx.ai para convertir archivos PDF muy estructurados y que utilicen diagramas y tablas para transmitir información, en un formato de archivo JSON compatible con el modelo AI. Para obtener más información, consulte Extracción de texto de documentos.

La facturación se basa en el número de páginas procesadas, así como en el tipo de plan.

Tipo de plan Precio por página en USD
Esencial $0.038
Estándar $0.030

Notas sobre los modelos de IA generativa

  • Un modelo de base ajustado de solicitud se asigna a la misma clase de facturación que el modelo de base subyacente. Por ejemplo, si solicita ajustar un modelo de base de clase 1, el coste para inferir el modelo ajustado se mide con la tarifa de facturación de clase 1. Para obtener información sobre los modelos de base ajustados, consulte Tuning Studio.
  • Para obtener más información sobre cada modelo, consulte Modelos base soportados.
  • Para obtener información sobre el soporte regional para cada modelo, consulte Disponibilidad regional para modelos de base.
Nota: No consume señales cuando utiliza la aplicación de búsqueda y respuesta de IA generativa para este sitio de documentación.

Medición de horas de unidad de capacidad (watsonx y Watson Machine Learning)

El consumo de CUH se ve afectado por los recursos de hardware de cálculo que se aplican a una tarea, así como por otros factores como la especificación de software y el tipo de modelo.

Tasas de consumo de CUH por tipo de activo

Tabla 3. Tasas de consumo de CUH por tipo de activo
Tipo de activo Tipo de capacidad Unidades de capacidad por hora
Experimento de AutoAI 8 vCPU y 32 GB de RAM 20
Entrenamiento de Decision Optimization 2 vCPU y 8 GB de RAM
4 vCPU y 16 GB de RAM
8 vCPU y 32 GB de RAM
16 vCPU y 64 GB de RAM
6
7
9
13
Despliegues de Decision Optimization 2 vCPU y 8 GB de RAM
4 vCPU y 16 GB de RAM
8 vCPU y 32 GB de RAM
16 vCPU y 64 GB de RAM
30
40
50
60
Modelos de Machine Learning
(entrenamiento, evaluación o puntuación)
1 vCPU y 4 GB de RAM
2 vCPU y 8 GB de RAM
4 vCPU y 16 GB de RAM
8 vCPU y 32 GB de RAM
16 vCPU y 64 GB de RAM
0.5
1
2
4
8
Experimento de ajuste de modelo de base
(solowatsonx )
NVIDIA A100 80GB GPU 43

Consumo de CUH por el despliegue y el tipo de infraestructura

El consumo de CUH se calcula utilizando estas fórmulas:

Tabla 4. Consumo de CUH por el despliegue y el tipo de infraestructura
Tipo de despliegue Infraestructura Cálculo de CUH
En línea AutoAI, función AI, SPSS, bibliotecas personalizadas Scikit-Learn, Tensorflow, RShiny deployment_active_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework
En línea Spark, PMML, Scikit-Learn, Pytorch, XGBoost score_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework
Despliegue todas las infraestructuras job_duration_in_hours * no_de_nodos * CUH_rate_for_capacity_type_framework

Por ejemplo, considere un trabajo de despliegue por lotes de Decision Optimization que se ejecuta durante 15 minutos. El consumo de recursos se calcula de este modo: 15 minutos = 0.25 horas, en 2 nodos y con 2 vCPU y 8 GB de RAM. Esta combinación da como resultado una tasa de CUH de 30, por lo que cada vez que se ejecuta el trabajo consume 0.25 * 2 * 30, lo que equivale a 15 CUH.

Supervisión del uso de recursos

Puede realizar un seguimiento del uso de recursos de los activos que posee o en los que colabora en un proyecto o espacio. Si es propietario o administrador de una cuenta, puede realizar un seguimiento del uso de CUH, RU o de los cargos de facturación por horas de una cuenta completa.

Seguimiento del uso de recursos en un proyecto

Para monitorear el consumo de CUH o RU o el uso por hora en un proyecto:

  1. Vaya al separador Gestionar de un proyecto.

  2. Pulse Recursos para revisar un resumen del consumo de recursos para activos en el proyecto o espacio, o para revisar los detalles de consumo de recursos para activos concretos.

    Seguimiento de recursos en un proyecto

Seguimiento del uso de recursos para una cuenta

Puede realizar un seguimiento del uso de tiempo de ejecución para una cuenta en la página Tiempos de ejecución de entorno si es el propietario o el administrador de la cuenta de IBM Cloud o el propietario del servicio de Watson Machine Learning. Para obtener detalles, consulte Supervisión de recursos.

Seguimiento del consumo de CUH para el aprendizaje automático en un cuaderno

Para calcular las horas de unidad de capacidad en un cuaderno, utilice:

CP =  client.service_instance.get_details()
CUH = CUH["entity"]["usage"]["capacity_units"]["current"]/(3600*1000)
print(CUH)

Por ejemplo:

'capacity_units': {'current': 19773430}

19773430/(3600*1000)

returns 5.49 CUH

Para obtener detalles, consulte la sección Instancias de servicio de la documentación de API de IBM Watson Machine Learning.

Más información

Tema principal: Watson Machine Learning

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información