Korzystanie ze środowiska Spark w RStudio | IBM Cloud Pak for Data as a Service

Translation not up to date

The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.

Go back to the English version of the documentation

Korzystanie ze środowiska Spark w RStudio

Last updated: 27 lip 2023

Korzystanie ze środowiska Spark w RStudio

Mimo że środowisko IDE produktu RStudio nie może być uruchomione w środowisku Spark ze środowiskiem R środowiska wykonawczego, można użyć środowiska Spark w skryptach R i aplikacji Shiny, uzyskując dostęp do jąder Spark programowo. Program RStudio używa pakietu sparklyr do połączenia się ze Spark z R. Pakiet sparklyr zawiera interfejs dplyr do ramek danych Spark, a także interfejs R do rozproszonych potoków uczenia maszynowego Spark.

Możesz połączyć się z Spark z RStudio:

Przez połączenie z jądrem Spark, który działa lokalnie w kontenerze RStudio w produkcie IBM Watson Studio

W programie RStudio znajdują się przykładowe fragmenty kodu, które pokazują, jak połączyć się z jądrem Spark w aplikacjach dla obu metod.

Aby korzystać ze środowiska Spark w produkcie RStudio po uruchomieniu środowiska IDE:

Znajdź katalog ibm_sparkaas_demos w katalogu osobistym i otwórz go. Katalog zawiera następujące skrypty R:
- Plik readme zawierający szczegółowe informacje o dołączonych skryptach przykładowych R
- spark_kernel_basic_local.R zawiera przykładowy kod sposobu łączenia się z lokalnym jądrem Spark
- spark_kernel_basic_remote.R zawiera przykładowy kod sposobu łączenia się ze zdalnym jądrem Spark.
- Pliki sparkaas_flights.Ri sparkaas_mtcars.R to dwa przykłady użycia środowiska Spark w małej przykładowej aplikacji.
Aby ułatwić rozpoczęcie korzystania z programu Spark, należy użyć przykładowych fragmentów kodu w skryptach R lub aplikacjach.

Łączenie się z Spark z RStudio

Aby połączyć się z produktem Spark z produktu RStudio za pomocą pakietu Sparklyr R, należy użyć środowiska Spark ze środowiskiem R. Można użyć domyślnego środowiska Spark z udostępnionym środowiskiem R lub utworzyć niestandardowy park Spark ze środowiskiem R. Informacje na temat tworzenia środowiska niestandardowego zawiera sekcja Tworzenie szablonów środowiska.

Po uruchomieniu produktu RStudio w środowisku produktu RStudio wykonaj następujące kroki:

Użyj następującego kodu przykładowego, aby uzyskać listę szczegółów środowiska Spark i połączyć się z jądrem Spark z sesji RStudio:

# load spark R packages
library(ibmwsrspark)
library(sparklyr)

# load kernels
kernels <- load_spark_kernels()

# display kernels
display_spark_kernels()

# get spark kernel Configuration

conf <- get_spark_config(kernels[1])
# Set spark configuration
conf$spark.driver.maxResultSize <- "1G"
# connect to Spark kernel

sc <- spark_connect(config = conf)

Następnie, aby rozłączyć się ze Spark, należy użyć:

# disconnect
spark_disconnect(sc)

Przykłady tych komend znajdują się w pliku readme w sekcji /home/wsuser/ibm_sparkaas_demos.

Temat nadrzędny: RStudio