在项目中的 Notebook 编辑器中运行 Notebook 时,请选择环境模板,该模板定义运行时环境的计算资源。 环境模板指定硬件配置以及软件配置的类型,大小和功能。 对于 Notebook ,环境模板包含受支持的 Python 和 R 语言。
- 环境类型
- 运行时发行版
- CPU 环境模板
- Spark 环境模板
- GPU 环境模板
- 使用watsonx.aiRuntime 对模型进行评分的默认硬件规格
- Notebook 环境中的数据文件
- 计算使用情况(按服务)
- 运行时作用域
- 更改环境
环境类型
您可以使用这些类型的环境来运行笔记本电脑:
- Anaconda CPU 环境,适用于标准工作负载。
- Spark 环境,适用于由平台或由其他服务提供的并行处理。
- GPU 环境,适用于计算密集型机器学习模型。
笔记本的大多数环境类型都具有缺省环境模板,因此您可以快速入门。 否则,可以 创建定制环境模板。
环境类型 | 默认模板 | 自定义模板 |
---|---|---|
Anaconda CPU | ✓ | ✓ |
Spark 集群 | ✓ | ✓ |
GPU | ✓ | ✓ |
运行时发行版
笔记本的缺省环境将添加为运行时发行版的关联项,并以 Runtime
作为前缀,后跟发行版年份和发行版版本。
运行时发行版指定关键数据科学库和语言版本的列表,例如 Python 3.10。 运行时发行版的所有环境都基于该发行版中定义的库版本进行构建,从而确保在所有数据科学应用程序中一致地使用数据科学库。
一个24.1运行时版本适用于不同版本的Python和 R。
IBMRuntime23.1受到限制。 自 2024 年 11 月 21 日起,您将无法使用23.1运行时创建新笔记本或自定义环境。 此外,您不能使用基于23.1运行时的软件规格创建新的部署。 为确保无缝体验并利用最新功能和改进,请切换到IBMRuntime24.1。 此更改适用于 "watsonx.ai工作室的 "Cloud Pak for Data as a Service"和 "IBM"watsonx as a Service。
支持运行时发行版时, IBM 将更新库版本以满足安全需求。 请注意,这些更新不会更改库的 <Major>.<Minor>
版本,而只会更改 <Patch>
版本。 这将确保 Notebook 资产将继续运行。
运行时中包含的库包
有关watsonx.aiStudio 运行时中包含的流行数据科学库包的具体版本,请参阅这些表格:
库 | 运行24.1在Python 3.11 |
---|---|
Keras | 2.14.0 |
拉莱 | 0.8.x |
LightGBM | 4.2.0 |
NumPy | 1.26.4 |
ONNX | 1.16 |
ONNX 运行时 | 1.16.3 |
OpenCV | 4.8.1 |
pandas | 2.1.4 |
PyArrow | 15.0.1 |
PyTorch | 2.1.2 |
scikit-learn | 1.3.0 |
SciPy | 1.11.4 |
SnapML | 1.14.6 |
TensorFlow | 2.14.1 |
XGBoost | 2.0.3 |
库 | 运行24.1在 R 上4.3 |
---|---|
箭头 | 15.0 |
汽车 | 3.1 |
插入标记 | 6.0 |
卡托尔 | 1.18 |
预测 | 8.21 |
ggplot2 | 3.4 |
格尔梅特 | 4.1 |
赫米什克 | 5.1 |
Keras | 2.13 |
lme4 | 1.1 |
Mvtnorm | 1.2 |
潘多克 | 2.12 |
心理 | 2.3 |
球蟒 | 3.11 |
随机森林 | 4.7 |
网纹 | 1.34 |
三明治 | 3.0 |
scikit-learn | 1.3 |
空间 | 7.3 |
Tensorflow | 2.15 |
蒂迪尔 | 1.3 |
XGBoost | 1.7 |
除了表中列出的库外,运行时还包含许多其他有用的库。 要查看完整列表,请选择项目中的 管理 选项卡,然后单击 模板,选择 环境 选项卡,然后单击其中一个列出的环境。
CPU 环境模板
您可以为 Notebook 选择以下任何缺省 CPU 环境模板。 缺省环境模板列示在项目的 管理 选项卡的 " 环境 " 页面上的 模板 下。
DO
指示环境模板包含 CPLEX 和 DOcplex 库,用于对超出其他缺省 Python 环境中库的 Community Edition 支持的复杂性的决策优化问题进行建模和求解。 请参阅 Decision Optimization Notebook。
NLP
指示环境模板包含 Watson Natural Language Processing 库,其中包含用于语言处理任务的预训练模型,您可以在非结构化数据上运行这些模型。 请参阅 使用 Watson Natural Language Processing 库。 此缺省环境应该足以运行预先训练的模型。
名称 | 硬件配置 | 每小时 CUH 速率 |
---|---|---|
运行24.1在Python 3.10 XXS | 1 个 vCPU 和 4 GB RAM | 0.5 |
运行24.1在Python 3.10 XS | 2 个 vCPU 和 8 GB RAM | 1 |
运行24.1在Python 3.10年代 | 4 个 vCPU 和 16 GB RAM | 2 |
NLP + DO 运行时24.1在Python 3.11 XS | 2 个 vCPU 和 8 GB RAM | 6 |
运行24.1在 R 上4.3年代 | 4 个 vCPU 和 16 GB RAM | 2 |
不再需要所有活动 CPU 运行时时停止,以防止消耗额外的容量单位小时数 (CUH)。 请参阅 CPU 空闲超时。
Notebook 和 CPU 环境
在 CPU 运行时环境中以编辑方式打开 Notebook 时,对于您选择的 Notebook 语言和环境运行时,只有一个交互式会话连接到 Jupyter 内核。 运行时是按单个用户启动的,而不是按笔记本启动的。 这意味着,如果在同一项目中打开具有相同环境模板的第二个 Notebook ,那么将在同一运行时中启动第二个内核。 运行时资源由您在运行时启动的Jupyter内核共享。 有关更多信息,请参阅 运行时作用域。
如有必要,可以重新启动或重新连接内核。 重新启动内核时,内核将停止,然后再次在同一会话中启动,但所有执行结果将丢失。 在连接中断后重新连接到内核时,该 Notebook 会连接到同一内核会话,所有已保存的先前执行结果都可用。
Spark 环境模板
您可以为 Notebook 选择以下任何缺省 Spark 环境模板。 缺省环境模板列示在项目的 管理 选项卡的 " 环境 " 页面上的 模板 下。
名称 | 硬件配置 | 每小时 CUH 速率 |
---|---|---|
Default Spark 3.4 & Python 3.10 |
2 每个执行程序: 1 vCPU 和 4 GB RAM; 驱动程序: 1 vCPU 和 4 GB RAM |
1 |
Default Spark 3.4 & R 4.2 |
2 每个执行程序: 1 vCPU 和 4 GB RAM; 驱动程序: 1 vCPU 和 4 GB RAM |
1 |
不再需要时停止所有活动的 Spark 运行时,以防止消耗额外的容量单位小时 (CUH)。 请参阅 Spark 空闲超时。
大型 Spark 环境
如果你拥有watsonx.aiStudio专业计划,你可以为更大的Spark环境创建自定义环境模板。
专业套餐用户最多可以拥有 35 个执行者,并且可以从以下选项中选择驱动程序和执行者:
硬件配置 |
---|
1 个 vCPU 和 4 GB RAM |
2 个 vCPU 和 8 GB RAM |
3 个 vCPU 和 12 GB RAM |
对于添加的每个 vCPU ,每小时 CUH 速率将增加 0.5 。 例如, 1x Driver: 3vCPU with 12GB of RAM
和 4x Executors: 2vCPU with 8GB of RAM
等于 (3 + (4 * 2)) = 11 vCPUs
和 5.5 CUH
。
Notebook 和 Spark 环境
您可以为多个 Notebook 选择相同的 Spark 环境模板。 与该环境关联的每个 Notebook 都具有自己的专用 Spark 集群,并且不共享任何资源。
启动 Spark 环境时,Jupyter Enterprise Gateway、Spark Master 和 Spark 工作程序守护程序需要额外的资源。 这些额外资源对于驱动程序相当于 1 个 vCPU 资源和 2 GB RAM,对于每个执行程序相当于 1 GB RAM。 在选择 Spark 环境的硬件规模时,需要考虑这些额外的资源。 例如:如果创建笔记本电脑并选择Default Spark 3.4 & Python 3.10
,Spark 集群将消耗 3 个vCPU和 12 GB 内存,但由于额外资源需要 1 个vCPU和 4 GB 内存,笔记本电脑的剩余资源为 2 个vCPU和 8 GB 内存。
Spark 集群上的文件系统
要在 Spark 集群的执行程序以及驱动程序或内核之间共享文件,您可使用 /home/spark/shared
中的共享文件系统。
如果要使用自己的定制库,那么可以将其存储在 /home/spark/shared/user-libs/
下。 /home/spark/shared/user-libs/
下有四个子目录预先配置为可供 Python 和 R 或 Java 运行时使用。
下表列出可以添加定制库的预配置子目录。
目录 | 库类型 |
---|---|
/home/spark/shared/user-libs/python3/ |
Python 3 库 |
/home/spark/shared/user-libs/R/ |
R 程序包 |
/home/spark/shared/user-libs/spark2/ |
Java JAR 文件 |
要跨 Spark 驱动程序和执行程序共享库,请执行以下操作:
- 将定制库或 JAR 文件下载到相应的预配置目录。
- 通过单击 内核> 重新启动内核从笔记本菜单中重新启动内核。 这将在 Spark 中装入定制库或 JAR 文件。
请注意,这些库不会持久保存。 当您停止环境运行时,然后再次将其重新启动时,需要再次装入这些库。
GPU 环境模板
您可以为 Notebook 选择以下 GPU 环境模板。 环境模板列示在项目的 管理 选项卡上 " 环境 " 页面上的 模板 下。
GPU 环境模板名称指示加速器电源。 GPU 环境模板包含 Watson Natural Language Processing 库,其中包含用于语言处理任务的预训练模型,您可以在非结构化数据上运行这些模型。 请参阅 使用 Watson Natural Language Processing 库。
~表示环境模板需要watsonx.aiStudio Professional 计划。 请参阅产品套餐。
名称 | 硬件配置 | 每小时 CUH 速率 |
---|---|---|
图形处理器V100运行24.1在Python 3.11 ~ | 40 vCPU + 172 GB RAM + 1 NVIDIA TESLA V100 (1 GPU) | 68 |
图形处理器2xV100运行24.1在Python 3.11 ~ | 80 vCPU 和 344 GB RAM + 2 NVIDIA TESLA V100 (2 GPU) | 136 |
不再需要所有活动 GPU 运行时时停止,以防止消耗额外的容量单位小时 (CUH)。 请参阅 GPU 空闲超时。
Notebook 和 GPU 环境
Notebook 的 GPU 环境仅在达拉斯 IBM Cloud 服务地区可用。
您可以为项目中的多个 Notebook 选择相同的 Python 和 GPU 环境模板。 在此情况下,每个 Notebook 内核都在同一运行时实例中运行,并且会共享资源。 为避免共享运行时资源,请创建多个具有相同规范的定制环境模板,并使每个 Notebook 与其自己的模板相关联。
使用watsonx.aiRuntime 对模型进行评分的默认硬件规格
在笔记本中调用watsonx.aiRuntime API时,需要消耗watsonx.aiRuntime服务的计算资源以及笔记本内核的计算资源。
在连接到watsonx.aiRuntime 并创建部署时,您可以选择以下任何一种硬件规格。
容量大小 | 硬件配置 | 每小时 CUH 速率 |
---|---|---|
极小 | 1x4 = 1 个 vCPU 和 4 GB RAM | 0.5 |
小 | 2x8 = 2 个 vCPU 和 8 GB RAM | 1 |
中 | 4x16 = 4 个 vCPU 和 16 GB RAM | 2 |
大 | 8x32 = 8 个 vCPU 和 32 GB RAM | 4 |
Notebook 环境中的数据文件
如果您使用的是大型数据集,那么应将数据集以较小的块存储在与项目关联的 IBM Cloud Object Storage 中,并在 Notebook 中处理块中的数据。 或者,您应该在 Spark 环境中运行 Notebook。
请注意,每个运行时的文件系统都是非持久的,无法在环境之间共享。 要在watsonx.aiStudio 中持久保存文件,您应该使用IBM Cloud Object Storage。 在项目笔记本中使用 IBM Cloud Object Storage的最简单方法是利用 project-lib
Python 软件包或 project-lib
R 软件包。
计算使用情况(按服务)
在运行默认或自定义环境时,笔记本运行时会消耗来自watsonx.aiStudio 的 CUH 计算资源。 您可以在项目的 "Manage(管理)"选项卡上的 "Resource usage(资源使用)"页面监控项目中watsonx.aiStudio CUH 的消耗情况。
当笔记本调用watsonx.aiRuntime为模型评分时,笔记本也可以从watsonx.aiRuntime服务中消耗CUH。 您可以在项目 "管理 "选项卡上的 "资源使用"页面监控watsonx.aiRuntime 服务每月消耗的 CUH 总量。
在笔记本中跟踪watsonx.aiRuntime 的 CUH 消耗量
要计算 Notebook 使用的容量单位小时数,请在该 Notebook 中运行以下代码:
CP = client.service_instance.get_details()
CUH = CUH["entity"]["usage"]["capacity_units"]["current"]/(3600*1000)
print(CUH)
例如:
'capacity_units': {'current': 19773430}
19773430/(3600*1000)
returns 5.49 CUH
有关详细信息,请参阅IBM watsonx.aiRuntime API文档中的服务实例部分。
运行时作用域
环境运行时的作用域始终限定为环境模板和项目中的用户。 如果项目中的不同用户使用相同的环境,那么每个用户将获得一个单独的运行时。
如果选择将 Notebook 的某个版本作为已调度作业运行,那么每个已调度作业将始终在专用运行时中启动。 当作业完成后,运行时将停止。
更改 Notebook 的环境
您可以出于不同原因切换环境,例如,您可以:
- 选择处理能力更强或 RAM 更多的环境
- 从使用不带 Spark 的环境更改为 Spark 环境
只有将 Notebook 解锁后,才能更改它的环境。 您可以更改环境:
在以编辑方式打开的 Notebook 中:
- 保存 Notebook 更改。
- 单击笔记本工具栏上的笔记本信息图标 ",然后单击 "环境"。
- 从列表中选择另一个具有计算能力和内存容量的模板。
- 选择更改环境。 这将停止活动运行时并启动新选择的环境。
从项目的资产页面:
- 在 "笔记本" 部分中选择笔记本,单击 操作> 更改环境 ,然后选择另一个环境。 必须先停止内核,然后才能更改环境。 这个新的运行时环境将在您下次打开该 Notebook 进行编辑时实例化。
在 Notebook 作业中,通过编辑作业模板。 请参阅编辑作业设置。
后续步骤
了解更多信息
父主题: 计算工具的资源