Spark 環境

最終更新: 2024年10月07日

プロジェクト内のスパーク環境

ノートブックに Spark API が含まれている場合、または Spark ランタイムを使用して機械学習モデルまたはモデル・フローを作成する場合は、ツールを Spark サービスまたは Spark 環境に関連付ける必要があります。 Spark 環境では、Spark ドライバーのサイズと、実行プログラムのサイズおよび数を構成することができます。

Spark オプション
デフォルトの環境定義
ノートブックおよび Spark 環境
Spark クラスター上のファイル・システム
ランタイム・ログ

Spark オプション

Watson Studio では、以下を使用できます。

Watson Studio で提供されている Spark 環境。

すべての Watson Studio ユーザーは、さまざまなハードウェア構成およびソフトウェア構成を使用して Spark 環境を作成できます。 Spark 環境は、Spark カーネルをサービス (SparkR、PySpark、および Scala) として提供します。各カーネルは、専用の Spark クラスターおよび Spark 実行プログラムを取得します。 Spark 環境は、追跡されるキャパシティー・ユニット時間 (CUH) を使用します。
IBM Cloud で提供されている Spark サービス。

IBM Analytics Engine では、IBM Cloud 上の Hortonworks Data Platform が提供されています。クラスター計算ノードごとに 1 つの VM および独自のローカル HDFS が得られます。 Spark と Hadoop エコシステム全体を利用できます。シェル・アクセス権限が付与されるので、ノートブックを作成することもできます。 IBM Analytics Engine は、Watson Studio では提供されていません。IBM Cloud を介して別途購入する必要があります。関連サービスの追加を参照してください。

デフォルトの環境定義

デフォルトの Spark 環境定義を使用すると、独自の環境定義を作成しなくても、すぐに Watson Studio ツールで Spark ノートブックを使い始めることができます。デフォルトの環境定義は、プロジェクトの「環境」ページにリストされます。

環境	ハードウェア構成
`Default Spark 3.0 & Python 3.7`	2 Executors each: 1 vCPU and 4 GB RAM; Driver: 1 vCPU and 4 GB RAM
`Default Spark 3.0 & R 3.6`	2 Executors each: 1 vCPU and 4 GB RAM; Driver: 1 vCPU and 4 GB RAM
`Default Spark 3.0 & Scala 2.12`	2 Executors each: 1 vCPU and 4 GB RAM; Driver: 1 vCPU and 4 GB RAM
`Default Spark 2.4 & Python 3.7`	2 Executors each: 1 vCPU and 4 GB RAM; Driver: 1 vCPU and 4 GB RAM
`Default Spark 2.4 & R 3.6`	2 Executors each: 1 vCPU and 4 GB RAM; Driver: 1 vCPU and 4 GB RAM
`Default Spark 2.4 & Scala 2.11`	2 Executors each: 1 vCPU and 4 GB RAM; Driver: 1 vCPU and 4 GB RAM
`Default Spark 2.3 & Scala 2.11`	2 Executors each: 1 vCPU and 4 GB RAM; Driver: 1 vCPU and 4 GB RAM
`Default Spark 2.3 & R 2.4`	2 Executors each: 1 vCPU and 4 GB RAM; Driver: 1 vCPU and 4 GB RAM

注：Spark環境を起動すると、JupyterEnterprise Gateway、Spark Master、およびSparkワーカーデーモン用に余分なリソースが必要になります。これらの追加リソースの量は、ドライバー用に 1 つの vCPU と 2 GB の RAM、各実行プログラム用に 1 GB の RAM です。 Spark 環境のハードウェア・サイズを選択する際には、これらの追加リソースを考慮する必要があります。例えば、ノートブックを作成してDefault Spark 3.0 & Python 3.7を選択した場合、Sparkクラスタは3vCPUと12 GB RAMを消費しますが、余分なリソースとして1vCPUと4 GB RAMが必要となるため、ノートブックに残るリソースは2vCPUと8 GB RAMとなります。

ノートブックおよび Spark 環境

ノートブックを作成する際に、ノートブックを実行する Spark ランタイムを選択することができます。デフォルトの Spark 環境定義を選択することも、プロジェクトの「環境」ページから自分で作成した Spark 環境定義を選択することもできます。

複数のノートブックを作成し、同じ Spark 環境定義を選択することができます。環境に関連付けられているすべてのノートブックは、それぞれが専用の Spark クラスターを持っており、リソースは共有されません。例えば、同じ Spark 環境定義を使用して 2 つのノートブックを作成した場合、2 つの Spark クラスター (ノートブックごとに 1 つ) が開始されます。これは、各ノートブックに独自の Spark ドライバーと Spark 実行プログラムのセットがあることを意味します。

次のサンプル・ノートブックを開いて、Watson Studio で Spark 環境を使用する方法を確認できます。

Use Spark ML and Scala to detect network intrusions

Spark クラスター上のファイル・システム

実行プログラムと、Spark クラスターのドライバーまたはカーネルの間でファイルを共有する場合は、 /home/spark/sharedで共有ファイル・システムを使用できます。

独自のカスタム・ライブラリーを使用する場合は、 /home/spark/shared/user-libs/に保存できます。 /home/spark/shared/user-libs/ の下には、 Python、R、および Scala または Java ランタイムで使用できるように事前構成された 4 つのサブディレクトリーがあります。

以下の表は、カスタム・ライブラリーを追加できる、事前構成されたサブディレクトリーをリストしています。

ディレクトリー	ライブラリーのタイプ
`/home/spark/shared/user-libs/python3/`	Python 3 ライブラリー
`/home/spark/shared/user-libs/R/`	R パッケージ
`/home/spark/shared/user-libs/spark2/`	Java または Scala JAR ファイル

Spark ドライバーおよび実行プログラムの間でライブラリーを共有するには、以下のようにします。

カスタム・ライブラリーまたは JAR ファイルを該当する事前構成ディレクトリーにダウンロードします。
カーネル > カーネルの再始動をクリックして、ノートブック・メニューからカーネルを再始動してください。これにより、カスタム・ライブラリーまたは JAR ファイルが Spark にロードされます。

これらのライブラリーは永続的には保存されないことに注意してください。環境ランタイムを停止して、後で再始動する場合は、ライブラリーを再度ロードする必要があります。

ランタイム・ログ

Spark ランタイムが停止されると、プロジェクトに関連付けられている IBM Cloud Object Storage バケットに累積ログが追加されます。これらのログを表示する場合は、IBM Cloud Object Storage バケットからダウンロードします。

次のステップ

トピックは役に立ちましたか?

0/1000