0 / 0
Volver a la versión inglesa de la documentación
Opciones de recursos de cálculo para el editor de cuadernos en los proyectos
Opciones de recursos de cálculo para el editor de cuadernos en los proyectos

Opciones de recursos de cálculo para el editor de cuadernos en los proyectos

Cuando ejecuta un cuaderno en el editor de cuadernos de un proyecto, elige una plantilla de entorno, que define los recursos de cálculo para el entorno de ejecución. La plantilla de entorno especifica el tipo, tamaño y potencia de la configuración de hardware, más la configuración de software. Para los cuadernos, las plantillas de entorno incluyen un lenguaje compatible Python, R o Scala.

Tipos de entornos

Puede utilizar estos tipos de entornos para ejecutar cuadernos:

La mayoría de los tipos de entorno para cuadernos tienen plantillas de entorno predeterminadas para que pueda empezar rápidamente. De lo contrario, puede crear plantillas de entorno personalizadas.

Tipos de entorno para cuadernos
Tipo de entorno Plantillas predeterminadas Plantillas personalizadas
CPU Anaconda
Clústers Spark
GPU

Releases de tiempo de ejecución

Los entornos predeterminados para los cuadernos se añaden como un afiliado de un release de tiempo de ejecución y con el prefijo Runtime seguido del año de release y la versión de release.

Un release de tiempo de ejecución especifica una lista de bibliotecas de ciencia de datos clave y una versión de lenguaje, por ejemplo Python 3.10. Todos los entornos de un release de tiempo de ejecución se crean basándose en las versiones de biblioteca definidas en el release, lo que garantiza el uso coherente de las bibliotecas de ciencia de datos en todas las aplicaciones de ciencia de datos.

El primer release de tiempo de ejecución en 2022 solo está disponible para Python 3.9 y tiene el prefijo Runtime 22.1. El segundo release de 2022 está disponible para Python 3.10 y R 4.2 y tiene el prefijo Runtime 22.2.

Mientras se da soporte a un release de tiempo de ejecución, IBM actualizará las versiones de biblioteca para abordar los requisitos de seguridad. Tenga en cuenta que estas actualizaciones no cambiarán las versiones de <Major>.<Minor> de las bibliotecas, sino sólo las versiones de <Patch> . Esto garantiza que los activos del cuaderno seguirán ejecutándose.

Por ejemplo: un release de tiempo de ejecución da soporte a TensorFlow 2.9. En Cloud Pak for Data 4.6, el release de tiempo de ejecución contendrá TensorFlow 2.9.0. Aunque TensorFlow puede actualizarse a la versión 2.9.1 o 2.9.2 en releases posteriores de Cloud Pak for Data 4.6.x , no se actualizará a la versión 2.10.

Bibliotecas en los releases de tiempo de ejecución 22.x

Los releases de 22.x Runtime incluyen los siguientes paquetes de biblioteca de ciencia de datos populares para Python y R.

Releases de tiempo de ejecución para Python 3.10 y 3.9 que listan bibliotecas y sus versiones:

Tabla 1. Paquetes y sus versiones en los releases de 22.x Runtime para Python
Biblioteca Runtime 22.2 en Python 3.10 Runtime 22.1 en Python 3.9
Dali 1.15 1.9
Horovod 0,25 0.23
Keras 2.9 2.7
Lale 0.6 0.6
LightGBM 3.3 3.3
NumPy 1.23 1.20
ONNX 1,12 1.10
ONNX Runtime 1,12 1.10
OpenCV 4.6 4.5
pandas 1,4 1.3
PyArrow 8,0 5.0
PyTorch 1,12 1.10
scikit-learn 1,1 1.0
SciPy 1.8 1.7
SnapML 1.8 1.8
TensorBoard 2.9 2.7
TensorFlow 2.9 2.7
XGBoost 1,6 1,5

Los releases de tiempo de ejecución 22.2 para R 4.2 listan las bibliotecas y sus versiones:

Tabla 2. Paquetes y sus versiones en los releases 22.2 Runtime para R
Biblioteca Runtime 22.2 en R 4.2
flecha 8,0
car 3.0
signo de intercalación 6,0
catooles 1,18
predicción 8.16
ggplot2 3.3
gmnet 4.1
Hmisc 4.7
Keras 2.9
lme4 1,1
mvtnorm 1,1
pandoc 2.12
psique 2.2
python 3.10
bosque aleatorio 4.7
reticulado 1,25
sándwich 3.0
scikit-learn 1,1
espaciales 7.3
TensorFlow 2.9
tidyr 1.2
XGBoost 1,6

Los releases de 22.x Runtime para Python y R incluyen un gran conjunto de otras bibliotecas útiles además de las bibliotecas listadas en la tabla. Para ver la lista completa, seleccione la plantilla de entorno Runtime 22.2 on Python 3.10 o Runtime 22.2 on R 4.2 en Plantillas en la página Entornos en el separador Gestionar del proyecto.

Plantillas de entorno de CPU

Puede seleccionar cualquiera de las siguientes plantillas de entorno de CPU predeterminadas para cuadernos. Las plantillas de entorno predeterminadas se listan en Plantillas en la página Entornos en el separador Gestionar del proyecto.

DO Indica que las plantillas de entorno incluyen las bibliotecas CPLEX y DOcplex para modelar y resolver problemas de optimización de decisiones que superan la complejidad soportada por la edición comunitaria de las bibliotecas en los otros entornos Python predeterminados. Consulte Cuadernos de Decision Optimization.

NLP Indica que las plantillas de entorno incluyen la biblioteca de Watson Natural Language Processing con modelos ya entrenados para tareas de proceso de lenguaje que se pueden ejecutar sobre datos no estructurados. Consulte Utilización de la biblioteca de Watson Natural Language Processing. Este entorno predeterminado debe ser lo suficientemente grande como para ejecutar los modelos ya entrenados.

~ Indica que las plantillas de entorno requieren el plan Watson Studio Enterprise . Consulte Planes de la oferta.

* Indica que la plantilla de entorno está en desuso.

Plantillas de entorno de CPU predeterminadas para cuadernos
Nombre Configuración de hardware Tasa de CUH por hora
Runtime 22.2 en Python 3.10 XXS 1 vCPU y 2 GB de RAM 0,5
Runtime 22.2 en Python 3.10 XS 2 vCPU y 8 GB de RAM 2
Runtime 22.2 en Python 3.10 S 4 vCPU y 16 GB de RAM 4
Runtime 22.1 en Python 3.9 XXS 1 vCPU y 2 GB de RAM 0,5
Runtime 22.1 en Python 3.9 XS 2 vCPU y 8 GB de RAM 2
Runtime 22.1 en Python 3.9 S 4 vCPU y 16 GB de RAM 4
DO + NLP Runtime 22.2 en Python 3.10 2 vCPU y 8 GB de RAM 6
DO + NLP Runtime 22.1 en Python 3.9 2 vCPU y 8 GB de RAM 6
Runtime 22.2 en R 4.2 S 4 vCPU y 16 GB de RAM 4
R 3.6 S * predeterminado 4 vCPU y 16 GB de RAM 4
R 3.6 M predeterminado ~ * 16 vCPU y 64 GB de RAM 8

Debe detener todos los tiempos de ejecución activos cuando ya no los necesite para evitar el consumo de horas de unidad de capacidad (CUH) adicionales. Consulte Tiempo de espera de inactividad de CPU.

Cuadernos y entornos de CPU

Cuando abre un cuaderno en modalidad de edición en un entorno de tiempo de ejecución de CPU, se conecta exactamente una sesión interactiva a un kernel de Jupyter para el lenguaje del cuaderno y el tiempo de ejecución del entorno que seleccione. El tiempo de ejecución se inicia por usuario único y no por cuaderno. Esto significa que si abre un segundo cuaderno con la misma plantilla de entorno en el mismo proyecto, se inicia un segundo kernel en el mismo tiempo de ejecución. Los recursos de tiempo de ejecución los comparten los kernels Jupyter que se inician en el tiempo de ejecución. Los recursos de tiempo de ejecución también se comparten si la CPU tiene GPU.

Si desea evitar compartir tiempos de ejecución pero desea utilizar la misma plantilla de entorno para varios cuadernos en un proyecto, debe crear plantillas de entorno personalizadas con las mismas especificaciones y asociar cada cuaderno con su propia plantilla.

Si es necesario, puede reiniciar o volver a conectarse al kernel. Cuando reinicia un kernel, este se detiene y se inicia en la misma sesión, pero se pierden todos los resultados de la ejecución. Cuando se vuelve a conectar a un kernel después de perder una conexión, el cuaderno se conecta a la misma sesión de kernel y están disponibles todos los resultados de ejecución anteriores que se han guardado.

Plantillas de entorno Spark

Puede seleccionar cualquiera de las siguientes plantillas de entorno de Spark predeterminado para cuadernos. Las plantillas de entorno predeterminadas se listan en Plantillas en la página Entornos en el separador Gestionar del proyecto.

* Indica que el entorno incluye bibliotecas de Runtime 22.1.

~ Indica que la plantilla de entorno está en desuso. Considere cambiar a una versión más nueva tan pronto como pueda.

Plantillas de entorno Spark predeterminadas para cuadernos
Nombre Configuración de hardware Tasa de CUH por hora
Spark 3.3 & Python 3.9 *
Spark 3.3 & R 3.6 predeterminado
2 Ejecutores cada uno: 1 vCPU y 4 GB de RAM;
Controlador: 1 vCPU y 4 GB de RAM
1
Default Spark 3.2 & Python 3.9 * ~
Default Spark 3.2 & R 3.6 ~
Default Spark 3.2 & Escala 2.12 ~
2 Ejecutores cada uno: 1 vCPU y 4 GB de RAM;
Controlador: 1 vCPU y 4 GB de RAM
1

Debe detener todos los tiempos de ejecución activos cuando ya no los necesite para evitar el consumo de horas de unidad de capacidad (CUH) adicionales. Consulte Tiempo de espera de inactividad de Spark.

Grandes entornos de Spark

Los usuarios de planes estándar y de empresa pueden crear plantillas de entorno personalizadas para entornos de Spark más grandes.

Los usuarios de planes estándar y de empresa pueden tener hasta 35 ejecutores y pueden elegir entre las siguientes opciones para el controlador y el ejecutor:

Configuración de hardware
1 vCPU y 4 GB de RAM
1 vCPU y 8 GB de RAM
1 vCPU y 12 GB de RAM

La tasa de CUH por hora aumenta en 0,5 por cada vCPU que se añade. Por ejemplo, 1x Driver: 3vCPU with 12GB of RAM y 4x Executors: 2vCPU with 8GB of RAM son (3 + (4 * 2)) = 11 vCPUs y 5.5 CUH.

Entornos de cuadernos y de Spark

Puede seleccionar la misma plantilla de entorno Spark para más de un cuaderno. Cada cuaderno asociado con dicho entorno tiene su propio clúster Spark dedicado y no se comparte ningún recurso.

Cuando inicia un entorno de Spark, se necesitan recursos adicionales para Jupyter Enterprise Gateway, Spark Master y los daemons de trabajador de Spark. Estos recursos adicionales son 1 vCPU y 2 GB de RAM para el controlador y 1 GB de RAM para cada ejecutor. Debe tener en cuenta estos recursos adicionales al seleccionar el tamaño de hardware de un entorno de Spark. Por ejemplo: si crea un cuaderno y selecciona Default Spark 3.3 & Python 3.9, el clúster de Spark consume 3 vCPU y 12 GB de RAM pero, como 1 vCPU y 4 GB de RAM son necesarios para los recursos adicionales, los recursos que quedan para el cuaderno son 2 vCPU y 8 GB de RAM.

Sistemas de archivos en un clúster Spark

Si desea compartir los archivos entre ejecutores y el controlador o kernel de un clúster Spark, puede utilizar el sistema de archivos compartidos en /home/spark/shared.

Si desea utilizar sus propias bibliotecas compartidas, puede almacenarlas en /home/spark/shared/user-libs/. Existen cuatro subdirectorios bajo /home/spark/shared/user-libs/ que se han preconfigurado para que estén disponibles para los tiempos de ejecución de Python, R y Scala o Java.

Las tablas siguientes listan los subdirectorios preconfigurados donde puede añadir sus bibliotecas personalizadas.

Tabla 1. Subdirectorios preconfigurados para bibliotecas personalizadas
Directorio Tipo de biblioteca
/home/spark/shared/user-libs/python3/ Bibliotecas Python 3
/home/spark/shared/user-libs/R/ Paquetes R
/home/spark/shared/user-libs/spark2/ Archivos JAR de Java o Scala

Para compartir las bibliotecas entre un controlador Spark y los ejecutores:

  1. Descargue sus bibliotecas personalizadas o archivos JAR en el directorio preconfigurado adecuado.
  2. Reinicie el kernel desde el menú del cuaderno pulsando Kernel > Reiniciar kernel. Esto carga sus bibliotecas personalizadas o archivo JAR en Spark.

Tenga en cuenta que estas bibliotecas no son persistentes. Cuando detenga el tiempo de ejecución del entorno y vuelva a reiniciarlo más tarde, deberá volver a cargar las bibliotecas.

Plantillas de entorno de GPU

Puede seleccionar la siguiente plantilla de entorno de GPU para los cuadernos. Las plantillas de entorno se listan en Plantillas en la página Entornos en el separador Gestionar del proyecto.

Los nombres de plantilla de entorno de GPU indican la potencia del acelerador. Las plantillas de entorno de GPU incluyen la biblioteca Watson Natural Language Processing con modelos entrenados previamente para tareas de proceso de lenguaje que puede ejecutar en datos no estructurados. Consulte Utilización de la biblioteca Watson Natural Language Processing.

~ Indica que la plantilla de entorno requiere el plan Watson Studio Professional. Consulte Planes de la oferta.

* Indica que la plantilla de entorno está limitada y sólo se puede utilizar en cuadernos que ya estén utilizando esta plantilla. Empiece a utilizar una plantilla de GPU V100 .

Plantillas de entorno de GPU predeterminadas para cuadernos
Nombre Configuración de hardware Tasa de CUH por hora
GPU V100 Runtime 22.2 en Python 3.10 ~ 40 vCPU + 172 GB + 1 NVIDIA TESLA V100 (1 GPU) 69
GPU V100 Runtime 22.1 en Python 3.9 ~ 40 vCPU + 172 GB + 1 NVIDIA TESLA V100 (1 GPU) 69
GPU K80 Runtime 22.1 en Python 3.9 ~ * 4 vCPU + 24 GB + 0.5 NVIDIA TESLA K80 (1 GPU) 6

Debe detener todos los tiempos de ejecución de GPU activos cuando ya no los necesite para evitar el consumo de horas de unidad de capacidad (CUH) adicionales. Consulte Tiempo de espera de inactividad de GPU.

Cuadernos y entornos GPU

Los entornos de GPU para cuadernos solo están disponibles en la región de servicio de IBM Cloud de Dallas.

Puede seleccionar la misma plantilla de entorno Python y GPU para más de un cuaderno en un proyecto. En este caso, cada kernel de cuaderno se ejecuta en la misma instancia de tiempo de ejecución y los recursos se comparten. Para evitar compartir recursos de tiempo de ejecución, cree varias plantillas de entorno personalizadas con las mismas especificaciones y asocie cada cuaderno con su propia plantilla.

Especificaciones de hardware predeterminadas para modelos de puntuación con Watson Machine Learning

Cuando se invoca la API de Watson Machine Learning dentro de un cuaderno, se consumen recursos de cálculo del servicio Watson Machine Learning, así como los recursos de cálculo para el cuaderno kernel.

Puede seleccionar cualquiera de las siguientes especificaciones de hardware cuando se conecte a Watson Machine Learning y cree un despliegue.

Especificaciones de hardware disponibles al invocar el Servicio de Watson Machine Learning en un cuaderno
Capacidad Configuración de hardware Tasa de CUH por hora
Extra pequeño 1x4 = 1 vCPU y 4 GB RAM 0,5
Small 2x8 = 2 vCPU y 8 GB RAM 1
Medio 4x16 = 4 vCPU y 16 GB RAM 2
Grande 8x32 = 8 vCPU y 32 GB RAM 4

Archivos de datos en entornos de cuaderno

Si está trabajando con conjuntos de datos grandes, debe almacenar los conjuntos de datos en fragmentos más pequeños en IBM Cloud Object Storage asociados con el proyecto y procesar los datos en fragmentos en el cuaderno. Alternativamente, debería ejecutar el cuaderno en un entorno de Spark.

Tenga en cuenta que el sistema de archivos de cada tiempo de ejecución no es persistente y no se puede compartir entre entornos. Para persistir archivos en Watson Studio, debe utilizar IBM Cloud Object Storage. La forma más fácil de utilizar IBM Cloud Object Storage en los cuadernos en los proyectos es aprovechar paquete project-lib para Python o el paquete project-lib para R.

Uso de cálculo por servicio

Los tiempos de ejecución del cuaderno consumen recursos de cálculo como CUH de Watson Studio, mientras se ejecutan entornos predeterminados o personalizados. Puede supervisar el consumo de CUH de Watson Studio en el proyecto en la página Uso de recursos en la pestaña Gestionar del proyecto.

Los cuadernos también pueden consumir CUH del servicio Watson Machine Learning cuando el cuaderno invoca el Watson Machine Learning para puntuar un modelo. Puede supervisar la cantidad total mensual de consumo de CUH para el servicio Watson Machine Learning en la página Uso de recursos de la pestaña Gestionar del proyecto.

Seguimiento del consumo de CUH para Watson Machine Learning en un cuaderno

Para calcular las horas de unidad de capacidad consumidas por un cuaderno, ejecute este código en el cuaderno:

CP =  client.service_instance.get_details()
CUH = CUH["entity"]["usage"]["capacity_units"]["current"]/(3600*1000)
print(CUH)

Por ejemplo:

'capacity_units': {'current': 19773430}

19773430/(3600*1000)

returns 5.49 CUH

Para obtener más detalles, consulte la sección Instancias de servicio de la documentación API de IBM Watson Machine Learning.

Ámbito de tiempo de ejecución

Los tiempos de ejecución de entorno siempre se circunscriben a una plantilla de entorno y a un usuario dentro de un proyecto. Si diferentes usuarios en un proyecto trabajan con el mismo entorno, cada usuario obtendrá un tiempo de ejecución diferente.

Si selecciona ejecutar una versión de un cuaderno como un trabajo planificado, cada trabajo planificado siempre se iniciará en un tiempo de ejecución dedicado. El tiempo de ejecución se detiene cuando finaliza el trabajo.

Modificación del entorno de un cuaderno

Puede cambiar entornos por distintos motivos, por ejemplo, puede:

  • Seleccionar un entorno con más potencia de proceso o más RAM
  • Cambiar de un entorno sin Spark a un entorno de Spark

Solo puede cambiar el entorno de un cuaderno si el cuaderno está desbloqueado. Puede cambiar el entorno:

  • En el cuaderno abierto en modalidad de edición:

    1. Guarde sus cambios del cuaderno.
    2. Pulse el icono Información del cuaderno (Icono Información de cuaderno) en la barra de herramientas del cuaderno y seleccione Entorno.
    3. Seleccione otra plantilla con la potencia de cálculo y la capacidad de memoria de la lista.
    4. Seleccione Cambiar entorno.
      Esto detiene el tiempo de ejecución activo e inicia el entorno recién seleccionado.
  • En la página Activos de su proyecto:

    1. Seleccione el cuaderno en la sección Cuadernos, pulse Acciones > Cambiar entorno y seleccione otro entorno. El kernel debe estar detenido para poder cambiar el entorno. La próxima vez que se abra el cuaderno para edición, se creará una instancia de este nuevo entorno de ejecución.
  • En el trabajo del cuaderno editando la plantilla de trabajo. Consulte Edición de valores de trabajo.

Próximos pasos

Más información

Tema principal: Elección de recursos de cálculo para herramientas