0 / 0
Zurück zur englischen Version der Dokumentation

Spark in RStudio verwenden

Letzte Aktualisierung: 21. Nov. 2024
Spark in RStudio verwenden

Obwohl die RStudio-IDE nicht in einer Spark mit R-Umgebungslaufzeit gestartet werden kann, können Sie Spark in Ihren R-Scripts und Shiny-Anwendungen verwenden, indem Sie programmgesteuert auf Spark-Kernel zugreifen.

In RStudio wird mithilfe des Pakets sparklyr eine Verbindung von R zu Spark hergestellt. Das Paket sparklyr enthält eine dplyr-Schnittstelle zu Spark-DataFrames sowie eine R-Schnittstelle zu den Spark-Pipelines für verteiltes maschinelles Lernen.

Sie können eine Verbindung zu Spark über RStudio herstellen:

  • Durch die Verbindung mit einem Spark-Kernel, der lokal im RStudio-Container in IBM watsonx.ai Studio läuft

RStudio enthält Beispielcodeausschnitte, die veranschaulichen, wie für beide Methoden in Ihren Anwendungen eine Verbindung zu einem Spark-Kernel hergestellt wird.

Gehen Sie wie folgt vor, um Spark in RStudio zu verwenden, nachdem Sie die IDE gestartet haben:

  1. Suchen Sie das Verzeichnis ibm_sparkaas_demos in Ihrem Ausgangsverzeichnis und öffnen Sie es. Das Verzeichnis enthält die folgenden R-Scripts:

    • Eine Readme-Datei mit Details zu den enthaltenen R-Beispielscripts
    • spark_kernel_basic_local.R enthält Beispielcode zum Herstellen einer Verbindung zu einem lokalen Spark-Kern
    • spark_kernel_basic_remote.R enthält Beispielcode zum Herstellen einer Verbindung zu einem fernen Spark-Kern
    • Die Dateien sparkaas_flights.Rund sparkaas_mtcars.R sind zwei Beispiele für die Verwendung von Spark in einer kleinen Beispielanwendung.
  2. Verwenden Sie die Beispielcodeausschnitte in Ihren R-Scripts oder Anwendungen für einen leichteren Einstieg in Spark.

Verbindung zu Spark über RStudio herstellen

Um eine Verbindung zu Spark über RStudio mithilfe des Sparklyr R-Pakets herzustellen, benötigen Sie eine Spark with R-Umgebung. Sie können entweder die bereitgestellte Spark with R-Standardumgebung verwenden oder eine angepasste Spark with R-Umgebung erstellen. Informationen zum Erstellen einer angepassten Umgebung finden Sie unter Umgebungsvorlagen erstellen.

Führen Sie die folgenden Schritte aus, nachdem Sie RStudio in einer RStudio-Umgebung gestartet haben:

Verwenden Sie den folgenden Beispielcode, um eine Liste der Spark-Umgebungsdetails abzurufen und eine Verbindung zu einem Spark-Kernel aus Ihrer RStudio-Sitzung herzustellen:

# load spark R packages
library(ibmwsrspark)
library(sparklyr)

# load kernels
kernels <- load_spark_kernels()

# display kernels
display_spark_kernels()

# get spark kernel Configuration

conf <- get_spark_config(kernels[1])
# Set spark configuration
conf$spark.driver.maxResultSize <- "1G"
# connect to Spark kernel

sc <- spark_connect(config = conf)

Um dann von Spark zu trennen, benutzen Sie:

# disconnect
spark_disconnect(sc)

Beispiele für diese Befehle finden Sie in der Readme-Datei unter /home/wsuser/ibm_sparkaas_demos.

Übergeordnetes Thema: RStudio