0 / 0
Volver a la versión inglesa de la documentación
Opciones de recursos de cálculo para el editor de cuadernos en los proyectos

Opciones de recursos de cálculo para el editor de cuadernos en los proyectos

Cuando ejecuta un cuaderno en el editor de cuadernos de un proyecto, elige una plantilla de entorno, que define los recursos de cálculo para el entorno de ejecución. La plantilla de entorno especifica el tipo, tamaño y potencia de la configuración de hardware, más la configuración de software. Para cuadernos, las plantillas de entorno incluyen un lenguaje soportado de Python y R.

Tipos de entornos

Puede utilizar estos tipos de entornos para ejecutar cuadernos:

La mayoría de los tipos de entorno para cuadernos tienen plantillas de entorno predeterminadas para que pueda empezar rápidamente. De lo contrario, puede crear plantillas de entorno personalizadas.

Tipos de entorno para cuadernos
Tipo de entorno Plantillas predeterminadas Plantillas personalizadas
CPU Anaconda
Clústers Spark
GPU

Releases de tiempo de ejecución

Los entornos predeterminados para los cuadernos se añaden como un afiliado de un release de tiempo de ejecución y con el prefijo Runtime seguido del año de release y la versión de release.

Un release de tiempo de ejecución especifica una lista de bibliotecas de ciencia de datos clave y una versión de lenguaje, por ejemplo Python 3.10. Todos los entornos de un release de tiempo de ejecución se crean basándose en las versiones de biblioteca definidas en el release, lo que garantiza el uso coherente de las bibliotecas de ciencia de datos en todas las aplicaciones de ciencia de datos.

El release de Runtime 23.1 está disponible para Python 3.10 y R 4.2.

Mientras se da soporte a un release de tiempo de ejecución, IBM actualizará las versiones de biblioteca para abordar los requisitos de seguridad. Tenga en cuenta que estas actualizaciones no cambiarán las versiones de <Major>.<Minor> de las bibliotecas, sino sólo las versiones de <Patch> . Esto garantiza que los activos del cuaderno seguirán ejecutándose.

Paquetes de biblioteca incluidos en tiempos de ejecución

Para versiones específicas de paquetes de biblioteca de ciencia de datos populares incluidos en los tiempos de ejecución de Watson Studio , consulte estas tablas:

Tabla 3. Paquetes y sus versiones en tiempo de ejecución 23.1 para Python
Biblioteca Tiempo de ejecución 23.1 en Python 3.10
Keras 2.12
Lale 0.7
LightGBM 3.3
NumPy 1.23
ONNX 1.13
ONNX Runtime 1.13
OpenCV 4.7
pandas 1.5
PyArrow 11.0
PyTorch 2.0
scikit-learn 1.1
SciPy 1.10
SnapML 1.13
TensorFlow 2.12
XGBoost 1.6
Tabla 4. Paquetes y sus versiones en Runtime 23.1 para R
Biblioteca Tiempo de ejecución 23.1 en R 4.2
flecha 11.0
coche 3.0
signo de intercalación 6.0
catooles 1.18
predicción 8.16
ggplot2 3.3
gmnet 4.1
Hmisc 4.7
Keras 2.12
lme4 1.1
mvtnorm 1.1
pandoc 2.12
psique 2.2
pitón 3.10
bosque aleatorio 4.7
reticulado 1.25
Sandwich 3.0
scikit-learn 1.1
espaciales 7.3
TensorFlow 2.12
tidyr 1.2
XGBoost 1.6

Además de las bibliotecas listadas en las tablas, los tiempos de ejecución incluyen muchas otras bibliotecas útiles. Para ver la lista completa, seleccione el separador Gestionar en el proyecto y, a continuación, pulse Plantillas, seleccione el separador Entornos y, a continuación, pulse uno de los entornos listados.

Plantillas de entorno de CPU

Puede seleccionar cualquiera de las siguientes plantillas de entorno de CPU predeterminadas para cuadernos. Las plantillas de entorno predeterminadas se listan en Plantillas en la página Entornos en el separador Gestionar del proyecto.

DO Indica que las plantillas de entorno incluyen las bibliotecas CPLEX y DOcplex para modelar y resolver problemas de optimización de decisiones que superan la complejidad soportada por la edición comunitaria de las bibliotecas en los otros entornos Python predeterminados. Consulte Cuadernos Decision Optimization.

NLP Indica que las plantillas de entorno incluyen la biblioteca de Watson Natural Language Processing con modelos ya entrenados para tareas de proceso de lenguaje que se pueden ejecutar sobre datos no estructurados. Consulte Utilización de la biblioteca de Watson Natural Language Processing. Este entorno predeterminado debe ser lo suficientemente grande como para ejecutar los modelos ya entrenados.

Plantillas de entorno de CPU predeterminadas para cuadernos
Nombre Configuración de hardware Tasa de CUH por hora
Tiempo de ejecución 23.1 en Python 3.10 XXS 1 vCPU y 4 GB de RAM 0.5
Tiempo de ejecución 23.1 en Python 3.10 XS 2 vCPU y 8 GB de RAM 1
Tiempo de ejecución 23.1 en Python 3.10 S 4 vCPU y 16 GB de RAM 2
NLP + DO Runtime 23.1 en Python 3.10 XS 2 vCPU y 8 GB de RAM 6
Tiempo de ejecución 23.1 en R 4.2 S 4 vCPU y 16 GB de RAM 2

Detenga todos los tiempos de ejecución de CPU activos cuando ya no los necesite, para evitar consumir horas de unidad de capacidad extra (CUH). Consulte Tiempo de espera de inactividad de CPU.

Cuadernos y entornos de CPU

Cuando abre un cuaderno en modalidad de edición en un entorno de tiempo de ejecución de CPU, se conecta exactamente una sesión interactiva a un kernel de Jupyter para el lenguaje del cuaderno y el tiempo de ejecución del entorno que seleccione. El tiempo de ejecución se inicia por usuario único y no por cuaderno. Esto significa que si abre un segundo cuaderno con la misma plantilla de entorno en el mismo proyecto, se inicia un segundo kernel en el mismo tiempo de ejecución. Los recursos de tiempo de ejecución los comparten los kernels Jupyter que se inician en el tiempo de ejecución. Los recursos de tiempo de ejecución también se comparten si la CPU tiene GPU.

Si desea evitar compartir tiempos de ejecución pero desea utilizar la misma plantilla de entorno para varios cuadernos en un proyecto, debe crear plantillas de entorno personalizadas con las mismas especificaciones y asociar cada cuaderno con su propia plantilla.

Si es necesario, puede reiniciar o volver a conectarse al kernel. Cuando reinicia un kernel, este se detiene y se inicia en la misma sesión, pero se pierden todos los resultados de la ejecución. Cuando se vuelve a conectar a un kernel después de perder una conexión, el cuaderno se conecta a la misma sesión de kernel y están disponibles todos los resultados de ejecución anteriores que se han guardado.

Plantillas de entorno Spark

Puede seleccionar cualquiera de las siguientes plantillas de entorno de Spark predeterminado para cuadernos. Las plantillas de entorno predeterminadas se listan en Plantillas en la página Entornos en el separador Gestionar del proyecto.

Plantillas de entorno Spark predeterminadas para cuadernos
Nombre Configuración de hardware Tasa de CUH por hora
Default Spark 3.3 & R 4.2 2 Ejecutores cada uno: 1 vCPU y 4 GB de RAM;
Controlador: 1 vCPU y 4 GB de RAM
1
Default Spark 3.4 & R 4.2 2 Ejecutores cada uno: 1 vCPU y 4 GB de RAM;
Controlador: 1 vCPU y 4 GB de RAM
1

Detenga todos los tiempos de ejecución de Spark activos cuando ya no los necesite, para evitar consumir horas de unidad de capacidad extra (CUH). Consulte Tiempo de espera de inactividad de Spark.

Grandes entornos de Spark

Si tiene el plan Watson Studio Professional, puede crear plantillas de entorno personalizadas para entornos Spark más grandes.

Los usuarios de planes profesionales pueden tener hasta 35 ejecutores y pueden elegir entre las siguientes opciones tanto para el controlador como para el ejecutor:

Configuraciones de hardware para entornos Spark
Configuración de hardware
1 vCPU y 4 GB de RAM
2 vCPU y 8 GB de RAM
3 vCPU y 12 GB de RAM

La tasa de CUH por hora aumenta en 0,5 por cada vCPU que se añade. Por ejemplo, 1x Driver: 3vCPU with 12GB of RAM y 4x Executors: 2vCPU with 8GB of RAM son (3 + (4 * 2)) = 11 vCPUs y 5.5 CUH.

Entornos de cuadernos y de Spark

Puede seleccionar la misma plantilla de entorno Spark para más de un cuaderno. Cada cuaderno asociado con dicho entorno tiene su propio clúster Spark dedicado y no se comparte ningún recurso.

Cuando inicia un entorno de Spark, se necesitan recursos adicionales para Jupyter Enterprise Gateway, Spark Master y los daemons de trabajador de Spark. Estos recursos adicionales son 1 vCPU y 2 GB de RAM para el controlador y 1 GB de RAM para cada ejecutor. Debe tener en cuenta estos recursos adicionales al seleccionar el tamaño de hardware de un entorno de Spark. Por ejemplo: si crea un cuaderno y selecciona Default Spark 3.3 & Python 3.10, el clúster de Spark consume 3 vCPU y 12 GB de RAM pero, como 1 vCPU y 4 GB de RAM son necesarios para los recursos adicionales, los recursos que quedan para el cuaderno son 2 vCPU y 8 GB de RAM.

Sistemas de archivos en un clúster Spark

Si desea compartir archivos entre ejecutores y el controlador o kernel de un clúster de Spark, puede utilizar el sistema de archivos compartidos en /home/spark/shared.

Si desea utilizar sus propias bibliotecas personalizadas, puede almacenarlas en /home/spark/shared/user-libs/. Hay cuatro subdirectorios bajo /home/spark/shared/user-libs/ que están preconfigurados para que estén disponibles para los tiempos de ejecución Python y R o Java.

Las tablas siguientes listan los subdirectorios preconfigurados donde puede añadir sus bibliotecas personalizadas.

Tabla 5. Subdirectorios preconfigurados para bibliotecas personalizadas
Directorio Tipo de biblioteca
/home/spark/shared/user-libs/python3/ Bibliotecas Python 3
/home/spark/shared/user-libs/R/ Paquetes R
/home/spark/shared/user-libs/spark2/ Archivos JAR Java

Para compartir las bibliotecas entre un controlador Spark y los ejecutores:

  1. Descargue sus bibliotecas personalizadas o archivos JAR en el directorio preconfigurado adecuado.
  2. Reinicie el kernel desde el menú del cuaderno pulsando Kernel > Reiniciar kernel. Esto carga sus bibliotecas personalizadas o archivo JAR en Spark.

Tenga en cuenta que estas bibliotecas no son persistentes. Cuando detenga el tiempo de ejecución del entorno y vuelva a reiniciarlo más tarde, deberá volver a cargar las bibliotecas.

Plantillas de entorno de GPU

Puede seleccionar la siguiente plantilla de entorno de GPU para los cuadernos. Las plantillas de entorno se listan en Plantillas en la página Entornos en el separador Gestionar del proyecto.

Los nombres de plantilla de entorno de GPU indican la potencia del acelerador. Las plantillas de entorno de GPU incluyen la biblioteca Watson Natural Language Processing con modelos entrenados previamente para tareas de proceso de lenguaje que puede ejecutar en datos no estructurados. Consulte Utilización de la biblioteca Watson Natural Language Processing.

~ Indica que la plantilla de entorno requiere el plan Watson Studio Professional. Consulte Planes de la oferta.

Plantillas de entorno de GPU predeterminadas para cuadernos
Nombre Configuración de hardware Tasa de CUH por hora
GPU V100 Runtime 23.1 en Python 3.10 ~ 40 vCPU + 172 GB RAM + 1 NVIDIA TESLA V100 (1 GPU) 69
GPU 2xV100 Runtime 23.1 en Python 3.10 ~ 80 vCPU y 344 GB de RAM + 2 NVIDIA TESLA V100 (2 GPU) 136

Detenga todos los tiempos de ejecución de GPU activos cuando ya no los necesite, para evitar consumir horas de unidad de capacidad extra (CUH). Consulte Tiempo de espera de inactividad de GPU.

Cuadernos y entornos GPU

Los entornos de GPU para cuadernos solo están disponibles en la región de servicio de IBM Cloud de Dallas.

Puede seleccionar la misma plantilla de entorno Python y GPU para más de un cuaderno en un proyecto. En este caso, cada kernel de cuaderno se ejecuta en la misma instancia de tiempo de ejecución y los recursos se comparten. Para evitar compartir recursos de tiempo de ejecución, cree varias plantillas de entorno personalizadas con las mismas especificaciones y asocie cada cuaderno con su propia plantilla.

Especificaciones de hardware predeterminadas para modelos de puntuación con Watson Machine Learning

Cuando se invoca la API de Watson Machine Learning dentro de un cuaderno, se consumen recursos de cálculo del servicio Watson Machine Learning, así como los recursos de cálculo para el cuaderno kernel.

Puede seleccionar cualquiera de las siguientes especificaciones de hardware cuando se conecte a Watson Machine Learning y cree un despliegue.

Especificaciones de hardware disponibles al invocar el Servicio de Watson Machine Learning en un cuaderno
Capacidad Configuración de hardware Tasa de CUH por hora
Extra pequeño 1x4 = 1 vCPU y 4 GB RAM 0.5
Small 2x8 = 2 vCPU y 8 GB RAM 1
Medio 4x16 = 4 vCPU y 16 GB RAM 2
Grande 8x32 = 8 vCPU y 32 GB RAM 4

Archivos de datos en entornos de cuaderno

Si está trabajando con conjuntos de datos grandes, debe almacenar los conjuntos de datos en fragmentos más pequeños en IBM Cloud Object Storage asociados con el proyecto y procesar los datos en fragmentos en el cuaderno. Alternativamente, debería ejecutar el cuaderno en un entorno de Spark.

Tenga en cuenta que el sistema de archivos de cada tiempo de ejecución no es persistente y no se puede compartir entre entornos. Para persistir archivos en Watson Studio, debe utilizar IBM Cloud Object Storage. La forma más fácil de utilizar IBM Cloud Object Storage en los cuadernos en los proyectos es aprovechar paquete project-lib para Python o el paquete project-lib para R.

Uso de cálculo por servicio

Los tiempos de ejecución del cuaderno consumen recursos de cálculo como CUH de Watson Studio, mientras se ejecutan entornos predeterminados o personalizados. Puede supervisar el consumo de CUH de Watson Studio en el proyecto en la página Uso de recursos en la pestaña Gestionar del proyecto.

Los cuadernos también pueden consumir CUH del servicio Watson Machine Learning cuando el cuaderno invoca el Watson Machine Learning para puntuar un modelo. Puede supervisar la cantidad total mensual de consumo de CUH para el servicio Watson Machine Learning en la página Uso de recursos de la pestaña Gestionar del proyecto.

Seguimiento del consumo de CUH para Watson Machine Learning en un cuaderno

Para calcular las horas de unidad de capacidad consumidas por un cuaderno, ejecute este código en el cuaderno:

CP =  client.service_instance.get_details()
CUH = CUH["entity"]["usage"]["capacity_units"]["current"]/(3600*1000)
print(CUH)

Por ejemplo:

'capacity_units': {'current': 19773430}

19773430/(3600*1000)

returns 5.49 CUH

Para obtener detalles, consulte la sección Instancias de servicio de la documentación de API de IBM Watson Machine Learning.

Ámbito de tiempo de ejecución

Los tiempos de ejecución de entorno siempre se circunscriben a una plantilla de entorno y a un usuario dentro de un proyecto. Si diferentes usuarios en un proyecto trabajan con el mismo entorno, cada usuario obtendrá un tiempo de ejecución diferente.

Si selecciona ejecutar una versión de un cuaderno como un trabajo planificado, cada trabajo planificado siempre se iniciará en un tiempo de ejecución dedicado. El tiempo de ejecución se detiene cuando finaliza el trabajo.

Modificación del entorno de un cuaderno

Puede cambiar entornos por distintos motivos, por ejemplo, puede:

  • Seleccionar un entorno con más potencia de proceso o más RAM
  • Cambiar de un entorno sin Spark a un entorno de Spark

Solo puede cambiar el entorno de un cuaderno si el cuaderno está desbloqueado. Puede cambiar el entorno:

  • En el cuaderno abierto en modalidad de edición:

    1. Guarde sus cambios del cuaderno.
    2. Pulse el icono Información del cuaderno (Icono Información de cuaderno) en la barra de herramientas del cuaderno y seleccione Entorno.
    3. Seleccione otra plantilla con la potencia de cálculo y la capacidad de memoria de la lista.
    4. Seleccione Cambiar entorno. Esto detiene el tiempo de ejecución activo e inicia el entorno que acaba de seleccionar.
  • Desde la página Activos de su proyecto:

    1. Seleccione el cuaderno en la sección Cuadernos, pulse Acciones > Cambiar entorno y seleccione otro entorno. El kernel debe estar detenido para poder cambiar el entorno. La próxima vez que se abra el cuaderno para edición, se creará una instancia de este nuevo entorno de ejecución.
  • En el trabajo del cuaderno editando la plantilla de trabajo. Consulte Edición de valores de trabajo.

Próximos pasos

Más información

Tema principal: Calcular recursos para herramientas

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información