Spark in RStudio verwenden
Obwohl die RStudio-IDE nicht in einer Spark mit R-Umgebungslaufzeit gestartet werden kann, können Sie Spark in Ihren R-Scripts und Shiny-Anwendungen verwenden, indem Sie programmgesteuert auf Spark-Kernel zugreifen.
In RStudio wird mithilfe des Pakets sparklyr
eine Verbindung von R zu Spark hergestellt. Das Paket sparklyr
enthält eine dplyr
-Schnittstelle zu Spark-DataFrames sowie eine R-Schnittstelle zu den Spark-Pipelines für verteiltes maschinelles Lernen.
Sie können eine Verbindung zu Spark über RStudio herstellen:
- Durch die Verbindung mit einem Spark-Kernel, der lokal im RStudio-Container in IBM watsonx.ai Studio läuft
RStudio enthält Beispielcodeausschnitte, die veranschaulichen, wie für beide Methoden in Ihren Anwendungen eine Verbindung zu einem Spark-Kernel hergestellt wird.
Gehen Sie wie folgt vor, um Spark in RStudio zu verwenden, nachdem Sie die IDE gestartet haben:
Suchen Sie das Verzeichnis
ibm_sparkaas_demos
in Ihrem Ausgangsverzeichnis und öffnen Sie es. Das Verzeichnis enthält die folgenden R-Scripts:- Eine Readme-Datei mit Details zu den enthaltenen R-Beispielscripts
spark_kernel_basic_local.R
enthält Beispielcode zum Herstellen einer Verbindung zu einem lokalen Spark-Kernspark_kernel_basic_remote.R
enthält Beispielcode zum Herstellen einer Verbindung zu einem fernen Spark-Kern- Die Dateien
sparkaas_flights.R
undsparkaas_mtcars.R
sind zwei Beispiele für die Verwendung von Spark in einer kleinen Beispielanwendung.
Verwenden Sie die Beispielcodeausschnitte in Ihren R-Scripts oder Anwendungen für einen leichteren Einstieg in Spark.
Verbindung zu Spark über RStudio herstellen
Um eine Verbindung zu Spark über RStudio mithilfe des Sparklyr
R-Pakets herzustellen, benötigen Sie eine Spark with R-Umgebung. Sie können entweder die bereitgestellte Spark with R-Standardumgebung verwenden oder eine angepasste Spark with R-Umgebung erstellen. Informationen zum Erstellen einer angepassten Umgebung finden Sie unter Umgebungsvorlagen erstellen.
Führen Sie die folgenden Schritte aus, nachdem Sie RStudio in einer RStudio-Umgebung gestartet haben:
Verwenden Sie den folgenden Beispielcode, um eine Liste der Spark-Umgebungsdetails abzurufen und eine Verbindung zu einem Spark-Kernel aus Ihrer RStudio-Sitzung herzustellen:
# load spark R packages
library(ibmwsrspark)
library(sparklyr)
# load kernels
kernels <- load_spark_kernels()
# display kernels
display_spark_kernels()
# get spark kernel Configuration
conf <- get_spark_config(kernels[1])
# Set spark configuration
conf$spark.driver.maxResultSize <- "1G"
# connect to Spark kernel
sc <- spark_connect(config = conf)
Um dann von Spark zu trennen, benutzen Sie:
# disconnect
spark_disconnect(sc)
Beispiele für diese Befehle finden Sie in der Readme-Datei unter /home/wsuser/ibm_sparkaas_demos
.
Übergeordnetes Thema: RStudio