0 / 0
Go back to the English version of the documentation
Spark 环境
Last updated: 2024年10月07日
项目中的 Spark 环境

如果 Notebook 包含 Spark API,或者您希望使用 Spark 运行时来创建机器学习模型或模型流程,那么需要将工具与 Spark 服务或环境相关联。 通过 Spark 环境,您可以配置 Spark 驱动程序的大小以及执行程序的大小和数量。

Spark 选项

在 Watson Studio 中,您可以使用:

  • 在 Watson Studio 下提供的 Spark 环境。

    所有 Watson Studio 用户都可以创建具有不同硬件和软件配置的 Spark 环境。 Spark 环境以服务形式提供 Spark 内核(SparkR、PySpark 和 Scala)。 每个内核具有专用 Spark 集群和 Spark 执行程序。 Spark 环境消耗的容量单位小时数 (CUH) 将被跟踪。

  • 通过 IBM Cloud 提供的 Spark 服务。

    通过 IBM Analytics Engine,在 IBM Cloud 上为您提供了 Hortonworks Data Platform。 每个集群计算节点和您自己的本地 HDFS 都有一个 VM。 您将获得 Spark 和整个 Hadoop 生态系统。 为您授予了 Shell 访问权,并且您还可以创建 Notebook。 Watson Studio 下未提供 IBM Analytics Engine;必须通过 IBM Cloud 单独购买。 请参阅添加关联服务

缺省环境定义

您可以使用缺省 Spark 环境定义来快速开始在 Watson Studio 工具中使用 Spark Notebook,而不必自行创建环境定义。 缺省环境定义列示在项目的环境页面上。

环境 硬件配置
Default Spark 3.0 & Python 3.7 每个执行器 2 个:1vCPU和 4 GB 内存;
驱动程序:1vCPU和 4 GB 内存
Default Spark 3.0 & R 3.6 每个执行器 2 个:1vCPU和 4 GB 内存;
驱动程序:1vCPU和 4 GB 内存
Default Spark 3.0 & Scala 2.12 每个执行器 2 个:1vCPU和 4 GB 内存;
驱动程序:1vCPU和 4 GB 内存
Default Spark 2.4 & Python 3.7 每个执行器 2 个:1vCPU和 4 GB 内存;
驱动程序:1vCPU和 4 GB 内存
Default Spark 2.4 & R 3.6 每个执行器 2 个:1vCPU和 4 GB 内存;
驱动程序:1vCPU和 4 GB 内存
Default Spark 2.4 & Scala 2.11 每个执行器 2 个:1vCPU和 4 GB 内存;
驱动程序:1vCPU和 4 GB 内存
Default Spark 2.3 & Scala 2.11 每个执行器 2 个:1vCPU和 4 GB 内存;
驱动程序:1vCPU和 4 GB 内存
Default Spark 2.3 & R 2.4 每个执行器 2 个:1vCPU和 4 GB 内存;
驱动程序:1vCPU和 4 GB 内存

注意:启动 Spark 环境时,JupyterEnterprise Gateway、Spark Master 和 Spark Worker 守护进程需要额外的资源。 这些额外资源对于驱动程序相当于 1 个 vCPU 资源和 2 GB RAM,对于每个执行程序相当于 1 GB RAM。 在选择 Spark 环境的硬件规模时,需要考虑这些额外的资源。 例如:如果您创建 Notebook 并选择 Default Spark 3.0 & Python 3.7,那么 Spark 集群将使用 3 个 vCPU 和 12 GB RAM,但是,由于额外资源需要 1 个 vCPU 和 4 GB RAM,因此 Notebook 的剩余资源为 2 个 vCPU 和 8 GB RAM。

Notebook 和 Spark 环境

创建 Notebook 时,您可以选择要在其中运行 Notebook 的 Spark 运行时。 您可以选择缺省 Spark 环境定义,或者选择从项目的环境页面创建的 Spark 环境定义。

您可以创建多个 Notebook 并选择同一个 Spark 环境定义。 与该环境关联的每个 Notebook 都有自己的专用 Spark 集群,不会共享任何资源。 例如,如果使用同一个 Spark 环境定义创建两个 Notebook,那么会启动两个 Spark 集群(每个 Notebook 对应一个集群),这意味着每个 Notebook 都有自己的 Spark 驱动程序和 Spark 执行程序集。

您可以打开以下样本 Notebook,以了解如何在 Watson Studio 中使用 Spark 环境:

Spark 集群上的文件系统

要在 Spark 集群的执行程序以及驱动程序或内核之间共享文件,您可使用 /home/spark/shared 中的共享文件系统。

如果要使用自己的定制库,那么可以将其存储在 /home/spark/shared/user-libs/ 下。 /home/spark/shared/user-libs/ 下有四个预配置为可供 Python、R 和 Scala 或 Java 运行时使用的子目录。

下表列出可以添加定制库的预配置子目录。

目录 库类型
/home/spark/shared/user-libs/python3/ Python 3 库
/home/spark/shared/user-libs/R/ R 程序包
/home/spark/shared/user-libs/spark2/ Java 或 Scala JAR 文件

要跨 Spark 驱动程序和执行程序共享库,请执行以下操作:

  1. 将定制库或 JAR 文件下载到相应的预配置目录。
  2. 在笔记本菜单中单击内核> 重启内核,重新启动内核。 这将在 Spark 中装入定制库或 JAR 文件。

请注意,这些库不会持久保存。 当您停止环境运行时,然后再次将其重新启动时,需要再次装入这些库。

运行时日志

当停止 Spark 运行时,累计的日志会添加到与项目相关联的 IBM Cloud Object Storage 存储区。 如果要查看这些日志,请从 IBM Cloud Object Storage 存储区下载这些日志。

后续步骤

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more