0 / 0
Go back to the English version of the documentation
Korzystanie ze środowiska Spark w RStudio
Last updated: 27 lip 2023
Korzystanie ze środowiska Spark w RStudio

Mimo że środowisko IDE produktu RStudio nie może być uruchomione w środowisku Spark ze środowiskiem R środowiska wykonawczego, można użyć środowiska Spark w skryptach R i aplikacji Shiny, uzyskując dostęp do jąder Spark programowo. Program RStudio używa pakietu sparklyr do połączenia się ze Spark z R. Pakiet sparklyr zawiera interfejs dplyr do ramek danych Spark, a także interfejs R do rozproszonych potoków uczenia maszynowego Spark.

Możesz połączyć się z Spark z RStudio:

  • Przez połączenie z jądrem Spark, który działa lokalnie w kontenerze RStudio w produkcie IBM Watson Studio

W programie RStudio znajdują się przykładowe fragmenty kodu, które pokazują, jak połączyć się z jądrem Spark w aplikacjach dla obu metod.

Aby korzystać ze środowiska Spark w produkcie RStudio po uruchomieniu środowiska IDE:

  1. Znajdź katalog ibm_sparkaas_demos w katalogu osobistym i otwórz go. Katalog zawiera następujące skrypty R:

    • Plik readme zawierający szczegółowe informacje o dołączonych skryptach przykładowych R
    • spark_kernel_basic_local.R zawiera przykładowy kod sposobu łączenia się z lokalnym jądrem Spark
    • spark_kernel_basic_remote.R zawiera przykładowy kod sposobu łączenia się ze zdalnym jądrem Spark.
    • Pliki sparkaas_flights.Ri sparkaas_mtcars.R to dwa przykłady użycia środowiska Spark w małej przykładowej aplikacji.
  2. Aby ułatwić rozpoczęcie korzystania z programu Spark, należy użyć przykładowych fragmentów kodu w skryptach R lub aplikacjach.

Łączenie się z Spark z RStudio

Aby połączyć się z produktem Spark z produktu RStudio za pomocą pakietu Sparklyr R, należy użyć środowiska Spark ze środowiskiem R. Można użyć domyślnego środowiska Spark z udostępnionym środowiskiem R lub utworzyć niestandardowy park Spark ze środowiskiem R. Informacje na temat tworzenia środowiska niestandardowego zawiera sekcja Tworzenie szablonów środowiska.

Po uruchomieniu produktu RStudio w środowisku produktu RStudio wykonaj następujące kroki:

Użyj następującego kodu przykładowego, aby uzyskać listę szczegółów środowiska Spark i połączyć się z jądrem Spark z sesji RStudio:

# load spark R packages
library(ibmwsrspark)
library(sparklyr)

# load kernels
kernels <- load_spark_kernels()

# display kernels
display_spark_kernels()

# get spark kernel Configuration

conf <- get_spark_config(kernels[1])
# Set spark configuration
conf$spark.driver.maxResultSize <- "1G"
# connect to Spark kernel

sc <- spark_connect(config = conf)

Następnie, aby rozłączyć się ze Spark, należy użyć:

# disconnect
spark_disconnect(sc)

Przykłady tych komend znajdują się w pliku readme w sekcji /home/wsuser/ibm_sparkaas_demos.

Temat nadrzędny: RStudio

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more