0 / 0
資料の 英語版 に戻る

Spark 環境

最終更新: 2024年10月07日
プロジェクト内のスパーク環境

ノートブックに Spark API が含まれている場合、または Spark ランタイムを使用して機械学習モデルまたはモデル・フローを作成する場合は、ツールを Spark サービスまたは Spark 環境に関連付ける必要があります。 Spark 環境では、Spark ドライバーのサイズと、実行プログラムのサイズおよび数を構成することができます。

Spark オプション

Watson Studio では、以下を使用できます。

  • Watson Studio で提供されている Spark 環境。

    すべての Watson Studio ユーザーは、さまざまなハードウェア構成およびソフトウェア構成を使用して Spark 環境を作成できます。 Spark 環境は、Spark カーネルをサービス (SparkR、PySpark、および Scala) として提供します。 各カーネルは、専用の Spark クラスターおよび Spark 実行プログラムを取得します。 Spark 環境は、追跡されるキャパシティー・ユニット時間 (CUH) を使用します。

  • IBM Cloud で提供されている Spark サービス。

    IBM Analytics Engine では、IBM Cloud 上の Hortonworks Data Platform が提供されています。 クラスター計算ノードごとに 1 つの VM および独自のローカル HDFS が得られます。 Spark と Hadoop エコシステム全体を利用できます。 シェル・アクセス権限が付与されるので、ノートブックを作成することもできます。 IBM Analytics Engine は、Watson Studio では提供されていません。IBM Cloud を介して別途購入する必要があります。 関連サービスの追加を参照してください。

デフォルトの環境定義

デフォルトの Spark 環境定義を使用すると、独自の環境定義を作成しなくても、すぐに Watson Studio ツールで Spark ノートブックを使い始めることができます。 デフォルトの環境定義は、プロジェクトの「環境」ページにリストされます。

環境 ハードウェア構成
Default Spark 3.0 & Python 3.7 2 Executors each: 1 vCPU and 4 GB RAM;
Driver: 1 vCPU and 4 GB RAM
Default Spark 3.0 & R 3.6 2 Executors each: 1 vCPU and 4 GB RAM;
Driver: 1 vCPU and 4 GB RAM
Default Spark 3.0 & Scala 2.12 2 Executors each: 1 vCPU and 4 GB RAM;
Driver: 1 vCPU and 4 GB RAM
Default Spark 2.4 & Python 3.7 2 Executors each: 1 vCPU and 4 GB RAM;
Driver: 1 vCPU and 4 GB RAM
Default Spark 2.4 & R 3.6 2 Executors each: 1 vCPU and 4 GB RAM;
Driver: 1 vCPU and 4 GB RAM
Default Spark 2.4 & Scala 2.11 2 Executors each: 1 vCPU and 4 GB RAM;
Driver: 1 vCPU and 4 GB RAM
Default Spark 2.3 & Scala 2.11 2 Executors each: 1 vCPU and 4 GB RAM;
Driver: 1 vCPU and 4 GB RAM
Default Spark 2.3 & R 2.4 2 Executors each: 1 vCPU and 4 GB RAM;
Driver: 1 vCPU and 4 GB RAM

:Spark環境を起動すると、JupyterEnterprise Gateway、Spark Master、およびSparkワーカーデーモン用に余分なリソースが必要になります。 これらの追加リソースの量は、ドライバー用に 1 つの vCPU と 2 GB の RAM、各実行プログラム用に 1 GB の RAM です。 Spark 環境のハードウェア・サイズを選択する際には、これらの追加リソースを考慮する必要があります。 例えば、ノートブックを作成してDefault Spark 3.0 & Python 3.7を選択した場合、Sparkクラスタは3vCPUと12 GB RAMを消費しますが、余分なリソースとして1vCPUと4 GB RAMが必要となるため、ノートブックに残るリソースは2vCPUと8 GB RAMとなります。

ノートブックおよび Spark 環境

ノートブックを作成する際に、ノートブックを実行する Spark ランタイムを選択することができます。 デフォルトの Spark 環境定義を選択することも、プロジェクトの「環境」ページから自分で作成した Spark 環境定義を選択することもできます。

複数のノートブックを作成し、同じ Spark 環境定義を選択することができます。 環境に関連付けられているすべてのノートブックは、それぞれが専用の Spark クラスターを持っており、リソースは共有されません。 例えば、同じ Spark 環境定義を使用して 2 つのノートブックを作成した場合、2 つの Spark クラスター (ノートブックごとに 1 つ) が開始されます。これは、各ノートブックに独自の Spark ドライバーと Spark 実行プログラムのセットがあることを意味します。

次のサンプル・ノートブックを開いて、Watson Studio で Spark 環境を使用する方法を確認できます。

Spark クラスター上のファイル・システム

実行プログラムと、Spark クラスターのドライバーまたはカーネルの間でファイルを共有する場合は、 /home/spark/sharedで共有ファイル・システムを使用できます。

独自のカスタム・ライブラリーを使用する場合は、 /home/spark/shared/user-libs/に保存できます。 /home/spark/shared/user-libs/ の下には、 Python、R、および Scala または Java ランタイムで使用できるように事前構成された 4 つのサブディレクトリーがあります。

以下の表は、カスタム・ライブラリーを追加できる、事前構成されたサブディレクトリーをリストしています。

ディレクトリー ライブラリーのタイプ
/home/spark/shared/user-libs/python3/ Python 3 ライブラリー
/home/spark/shared/user-libs/R/ R パッケージ
/home/spark/shared/user-libs/spark2/ Java または Scala JAR ファイル

Spark ドライバーおよび実行プログラムの間でライブラリーを共有するには、以下のようにします。

  1. カスタム・ライブラリーまたは JAR ファイルを該当する事前構成ディレクトリーにダウンロードします。
  2. カーネル > カーネルの再始動をクリックして、ノートブック・メニューからカーネルを再始動してください。 これにより、カスタム・ライブラリーまたは JAR ファイルが Spark にロードされます。

これらのライブラリーは永続的には保存されないことに注意してください。 環境ランタイムを停止して、後で再始動する場合は、ライブラリーを再度ロードする必要があります。

ランタイム・ログ

Spark ランタイムが停止されると、プロジェクトに関連付けられている IBM Cloud Object Storage バケットに累積ログが追加されます。 これらのログを表示する場合は、IBM Cloud Object Storage バケットからダウンロードします。

次のステップ