0 / 0
Volver a la versión inglesa de la documentación
Uso de cálculo y planes de Watson Machine Learning

Uso de cálculo y planes de Watson Machine Learning

Utilice los recursos de Watson Machine Learning , que se miden en horas de unidad de capacidad (CUH), cuando entrena modelos AutoAI , ejecuta modelos de aprendizaje automático o puntúa los modelos desplegados. Los recursos de Watson Machine Learning , medidos en unidades de recursos (RU), se utilizan cuando se ejecutan servicios de inferencia con modelos de base. En este tema se describen los distintos planes que puede elegir, qué servicios se incluyen y cómo se calculan los recursos informáticos.

Watson Machine Learning en Cloud Pak for Data as a Service y watsonx

Importante:

El plan Watson Machine Learning incluye detalles para watsonx.ai. Watsonx.ai es un estudio de herramientas integradas para trabajar con IA generativa, basada en modelos de base y modelos de aprendizaje automático. Si está utilizando Cloud Pak for Data as a Service, los detalles para trabajar con modelos de base y la inferencia de solicitud de medición utilizando Unidades de recurso no se aplican a su plan.

Para obtener más información sobre watsonx.ai, consulte:

Si está habilitado para watsonx y Cloud Pak for Data as a Service, puede conmutar entre las dos plataformas.

Elección de un plan de Watson Machine Learning

Vea una comparación de planes y tenga en cuenta los detalles para elegir un plan que se ajuste a sus necesidades.

Planes de Watson Machine Learning

Los planes de Watson Machine Learning rigen cómo se le facturan los modelos que entrena y despliega con Watson Machine Learning y las solicitudes que utiliza con los modelos base. Seleccione un plan basado en sus necesidades:

  • Lite es un plan gratuito con capacidad limitada. Seleccione este plan si está evaluando Watson Machine Learning y desea probar las prestaciones. El plan Lite no da soporte a la ejecución de un experimento de ajuste de modelo base en watsonx.
  • Essentials es un plan de pago por uso que le proporciona la flexibilidad para crear, desplegar y gestionar modelos que se ajusten a sus necesidades.
  • Estándar es un plan empresarial de alta capacidad diseñado para dar soporte a todas las necesidades de aprendizaje automático de una organización. Las horas de unidad de capacidad se proporcionan a una tarifa plana, mientras que el consumo de unidad de recursos es de pago por uso.

Para obtener detalles sobre el plan y los precios, consulte IBM Cloud Machine Learning.

Horas de unidad de capacidad (CUH), señales y unidades de recurso (RU)

A efectos de medición y facturación, los modelos y despliegues de aprendizaje automático o los modelos de base se miden con estas unidades:

  • Horas de unidad de capacidad (CUH) calculan el consumo de recursos por hora de unidad para fines de uso y facturación. CUH mide toda la actividad de Watson Machine Learning excepto la inferencia del modelo de fundación.

  • Las Unidades de recurso (RU) miden el modelo de base que infiere el consumo. La inferencia es el proceso de llamar al modelo de base para generar salida en respuesta a una solicitud. Cada RU equivale a 1.000 señales. Una señal es una unidad básica de texto (normalmente 4 caracteres o 0.75 palabras) utilizada en la entrada o salida para una solicitud de modelo de base. Elija un plan que se corresponda con sus requisitos de uso. Para obtener detalles sobre las señales, consulte Señales y tokenización.

  • Un límite de velocidad supervisa y restringe el número de solicitudes de inferencia por segundo procesadas para modelos de base para una instancia de plan de Watson Machine Learning determinada. El límite de tarifa es mayor para los planes de pago que para el plan Lite gratuito.

Detalles del plan de Watson Machine Learning

El plan Lite proporciona suficientes recursos gratuitos para evaluar las prestaciones de watsonx.ai. A continuación, puede elegir un plan de pago que coincida con las necesidades de su organización, basándose en las características y la capacidad del plan.

Tabla 1. Detalles del plan
Características del plan Básica Elementos básicos Estándar
Uso de Machine Learning en CUH 20 CUH al mes Facturación de CUH basada en la tarifa de CUH multiplicada por horas de consumo 2500 CUH al mes
Inferencia de modelo de base en señales o unidades de recurso (RU) 50.000 señales al mes Facturado para uso (1000 señales = 1 RU) Facturado para uso (1000 señales = 1 RU)
Número máximo de trabajos por lotes paralelos de Decision Optimization por despliegue 2 5 100
Trabajos de despliegue retenidos por espacio 100 1000 3000
Tiempo de despliegue a desocupado 1 día 3 días 3 días
Soporte de HIPAA N/D N/D Sólo la región Dallas
Debe estar habilitada en su cuenta de IBM Cloud
Límite de velocidad por ID de plan 2 solicitudes de inferencia por segundo 8 solicitudes de inferencia por segundo 8 solicitudes de inferencia por segundo

Nota: Si actualiza de Essentials a Standard, no puede volver a un plan Essentials. Debe crear un nuevo plan.

Para todos los planes:

  • Las unidades de recurso (RU) de inferencia de modelo fundacional se pueden utilizar para la inferencia de Prompt Lab , incluidas la entrada y la salida. Es decir, la solicitud que especifique para la entrada se cuenta además de la salida generada. (Sólowatsonx )
  • La inferencia de modelo de base solo está disponible para los centros de datos de Dallas, Frankfurt y Tokio. (Sólowatsonx )
  • El ajuste del modelo de base en Tuning Studio sólo está disponible para los centros de datos de Dallas, Frankfurt y Tokio. (Sólowatsonx )
  • Tres clases de modelo determinan la tasa de RU. El precio por RU difiere según la clase de modelo. (Sólowatsonx )
  • El consumo de velocidad de la unidad de capacidad/hora (CUH) para el entrenamiento se basa en la herramienta de entrenamiento, la especificación de hardware y el entorno de ejecución.
  • El consumo de velocidad de la unidad de capacidad por hora (CUH) para el despliegue se basa en el tipo de despliegue, la especificación de hardware y la especificación de software.
  • Watson Machine Learning establece límites en el número de trabajos de despliegue retenidos para cada espacio de despliegue individual. Si supera el límite, no puede crear nuevos trabajos de despliegue hasta que suprima los trabajos existentes o actualice el plan. De forma predeterminada, los metadatos de trabajo se suprimirán automáticamente al cabo de 30 días. Puede alterar temporalmente este valor al crear un trabajo. Consulte Gestión de trabajos.
  • El tiempo de inactividad se refiere a la cantidad de tiempo que se debe considerar un despliegue activo entre solicitudes de puntuación. Si un despliegue no recibe solicitudes de puntuación durante una duración determinada, se trata como inactivo o desocupado y la facturación se detiene para todas las infraestructuras distintas de SPSS.
  • Un plan permite al menos el límite de velocidad indicado, y el límite de velocidad real puede ser mayor que el límite indicado. Por ejemplo, el plan Lite puede procesar más de 2 solicitudes por segundo sin emitir un error. Si tiene un plan de pago y cree que está alcanzando el límite de velocidad por error, póngase en contacto con el soporte de IBM para obtener ayuda.

Para obtener detalles sobre el plan y los precios, consulte IBM Cloud Machine Learning.

Medición de unidad de recurso (watsonx)

La facturación de unidades de recurso se basa en la tarifa de la clase de facturación para el modelo de base multiplicado por el número de unidades de recurso (RU). Una unidad de recurso es igual a 1000 señales de la entrada y salida de la inferencia del modelo de base. Las tres clases de facturación del modelo de base tienen diferentes tarifas de RU.

Tabla 2. Detalles de facturación del modelo de base
Modelo Origen Clase de facturación Precio por unidad de negocio
granite-13b-instruct-v2 IBM Clase 1 0.0006 $por unidad de negocio
granite-13b-instruct-v1 IBM Clase 1 0.0006 $por unidad de negocio
granite-13b-chat-v2 IBM Clase 1 0.0006 $por unidad de negocio
granite-13b-chat-v1 IBM Clase 1 0.0006 $por unidad de negocio
granite-8b-japanese IBM Clase 1 0.0006 $por unidad de negocio
granite-20b-multilingual IBM Clase 1 0.0006 $por unidad de negocio
codellama-34b-instruct-hf Código fuente abierto Clase 2 0.0018 $por unidad de negocio
elyza-japanese-llama-2-7b-instruct Código fuente abierto Clase 2 0.0018 $por unidad de negocio
flan-t5-xl-3b Código fuente abierto Clase 1 0.0006 $por unidad de negocio
flan-t5-xxl-11b Código fuente abierto Clase 2 0.0018 $por unidad de negocio
flan-ul2-20b Código fuente abierto Clase 3 0.0050 $por unidad de negocio
llama-2-13b-chat Código fuente abierto Clase 1 0.0006 $por unidad de negocio
llama-2-70b-chat Código fuente abierto Clase 2 0.0018 $por unidad de negocio
mixtral-8x7b-instruct-v01 Código fuente abierto Clase 1 0.0006 $por unidad de negocio
mixtral-8x7b-instruct-v01-q Código fuente abierto Clase 1 0.0006 $por unidad de negocio
mt0-xxl-13b Código fuente abierto Clase 2 0.0018 $por unidad de negocio
starcoder-15.5b Código fuente abierto Clase 2 0.0018 $por unidad de negocio

  • Un modelo de base ajustado de solicitud se asigna a la misma clase de facturación que el modelo de base subyacente. Por ejemplo, si solicita ajustar un modelo de base de clase 1, el coste para inferir el modelo ajustado se mide con la tarifa de facturación de clase 1. Para obtener información sobre los modelos de base ajustados, consulte Tuning Studio.
  • Para obtener más información sobre cada modelo, consulte Modelos base soportados.
  • Para obtener información sobre el soporte regional para cada modelo, consulte Disponibilidad regional para modelos de base.
Nota: No consume señales cuando utiliza la aplicación de búsqueda y respuesta de IA generativa para este sitio de documentación.

Medición de horas de unidad de capacidad (watsonx y Watson Machine Learning)

El consumo de CUH se ve afectado por los recursos de hardware de cálculo que se aplican a una tarea, así como por otros factores como la especificación de software y el tipo de modelo.

Tasas de consumo de CUH por tipo de activo

Tabla 3. Tasas de consumo de CUH por tipo de activo
Tipo de activo Tipo de capacidad Unidades de capacidad por hora
Experimento de AutoAI 8 vCPU y 32 GB de RAM 20
Entrenamiento de Decision Optimization 2 vCPU y 8 GB de RAM
4 vCPU y 16 GB de RAM
8 vCPU y 32 GB de RAM
16 vCPU y 64 GB de RAM
6
7
9
13
Despliegues de Decision Optimization 2 vCPU y 8 GB de RAM
4 vCPU y 16 GB de RAM
8 vCPU y 32 GB de RAM
16 vCPU y 64 GB de RAM
30
40
50
60
Modelos de Machine Learning
(entrenamiento, evaluación o puntuación)
1 vCPU y 4 GB de RAM
2 vCPU y 8 GB de RAM
4 vCPU y 16 GB de RAM
8 vCPU y 32 GB de RAM
16 vCPU y 64 GB de RAM
0.5
1
2
4
8
Experimento de ajuste de modelo de base
(solowatsonx )
NVIDIA A100 80GB GPU 43

Consumo de CUH por el despliegue y el tipo de infraestructura

El consumo de CUH para despliegues se calcula utilizando estas fórmulas:

Tabla 4. Consumo de CUH por el despliegue y el tipo de infraestructura
Tipo de despliegue Infraestructura Cálculo de CUH
En línea AutoAI, funciones y scripts de Python , SPSS, Scikit-Learn custom libraries, Tensorflow, RShiny deployment_active_duration * no_of_nodes * CUH_rate_for_capacity_type_framework
En línea Spark, PMML, Scikit-Learn, Pytorch, XGBoost score_duration_in_seconds * no_of_nodes * CUH_rate_for_capacity_type_framework
Lote todas las infraestructuras job_duration_in_seconds * no_of_nodes * CUH_rate_for_capacity_type_framework

Supervisión del uso de recursos

Puede realizar un seguimiento del uso de CUH o RU para activos de los que es propietario o en los que colabora en un proyecto o espacio. Si es propietario o administrador de una cuenta, puede realizar un seguimiento del uso de CUH o RU para toda una cuenta.

Seguimiento del uso de CUH o RU en un proyecto

Para supervisar el consumo de CUH o RU en un proyecto:

  1. Vaya al separador Gestionar de un proyecto.

  2. Pulse Recursos para revisar un resumen del consumo de recursos para activos en el proyecto o espacio, o para revisar los detalles de consumo de recursos para activos concretos.

    Seguimiento de recursos en un proyecto

Seguimiento del uso de CUH para una cuenta

Puede realizar un seguimiento del uso de tiempo de ejecución para una cuenta en la página Tiempos de ejecución de entorno si es el propietario o el administrador de la cuenta de IBM Cloud o el propietario del servicio de Watson Machine Learning. Para obtener detalles, consulte Supervisión de recursos.

Seguimiento del consumo de CUH para el aprendizaje automático en un cuaderno

Para calcular las horas de unidad de capacidad en un cuaderno, utilice:

CP =  client.service_instance.get_details()
CUH = CUH["entity"]["usage"]["capacity_units"]["current"]/(3600*1000)
print(CUH)

Por ejemplo:

'capacity_units': {'current': 19773430}

19773430/(3600*1000)

returns 5.49 CUH

Para obtener detalles, consulte la sección Instancias de servicio de la documentación de API de IBM Watson Machine Learning.

Más información

Tema principal: Watson Machine Learning

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información