RStudio での Spark の使用
RStudio IDE は Spark with R 環境ランタイムで開始できませんが、Spark カーネルにプログラムでアクセスすることにより、R スクリプトと Shiny アプリで Spark を使用できます。
RStudio は sparklyr
パッケージを使用して 「R」 から 「Spark」 に接続します。 sparklyr
パッケージには、「Spark」 データ・フレームへの dplyr
インターフェースと、「Spark」 の分散機械学習パイプラインへの 「R」 インターフェースが含まれています。
RStudio から Spark に接続できます。
- IBM watsonx.aiStudioのRStudioコンテナでローカルに実行されるSparkカーネルに接続することで、以下のことが可能になります
どちらの方法についても、RStudio にはアプリケーションで Spark カーネルに接続する方法を示すサンプル・コード・スニペットが含まれています。
IDE の起動後に RStudio で Spark を使用するには、次のようにします。
ホーム・ディレクトリーの下の
ibm_sparkaas_demos
ディレクトリーを見つけて開きます。 このディレクトリーには以下の R スクリプトが含まれています。- 含まれている R サンプル・スクリプトに関する詳細を記載する README
spark_kernel_basic_local.R
には、ローカル 「Spark」 カーネルに接続する方法を示すサンプル・コードが含まれていますspark_kernel_basic_remote.R
には、リモート 「Spark」 カーネルに接続する方法を示すサンプル・コードが含まれていますsparkaas_flights.R
ファイルとsparkaas_mtcars.R
ファイルは、小さなサンプル・アプリケーションで 「Spark」 を使用する方法の 2 つの例です
R スクリプトまたはアプリケーションでサンプル・コード・スニペットを使用することで、Spark の使用を始めることができます。
RStudio から Spark への接続
Sparklyr
R パッケージを使用して RStudio から Spark に接続するには、Spark with R 環境が必要です。 提供されているデフォルトの Spark with R 環境を使用することも、カスタム Spark with R 環境を作成することもできます。 カスタム環境を作成するには、 環境テンプレートの作成を参照してください。
RStudio 環境で RStudio を起動した後、以下の手順に従います。
以下のサンプル・コードを使用して、Spark 環境の詳細のリストを取得し、RStudio セッションから Spark カーネルに接続します。
# load spark R packages
library(ibmwsrspark)
library(sparklyr)
# load kernels
kernels <- load_spark_kernels()
# display kernels
display_spark_kernels()
# get spark kernel Configuration
conf <- get_spark_config(kernels[1])
# Set spark configuration
conf$spark.driver.maxResultSize <- "1G"
# connect to Spark kernel
sc <- spark_connect(config = conf)
次に、「Spark」 から切断するには、以下を使用します:
# disconnect
spark_disconnect(sc)
これらのコマンドの例は、README の /home/wsuser/ibm_sparkaas_demos
に記載されています。
親トピック: RStudio