Použití programu Spark v aplikaci RStudio

Translation not up to date

The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.

Go back to the English version of the documentation

Použití programu Spark v aplikaci RStudio

Last updated: 26. 7. 2023

Použití programu Spark v aplikaci RStudio

Přestože aplikace RStudio IDE nelze spustit v prostředí Spark s běhovou komponentou R, můžete pomocí programu Spark ve vašich skriptech a aplikacích Spark programově přistupovat k jádrům Spark. Produkt RStudio používá balík produktu sparklyr k připojení k produktu Spark z R. Balík produktu sparklyr obsahuje rozhraní produktu dplyr pro datové rámce Spark stejně jako rozhraní R pro distribuovanou počítačovou ropovodu se Sparksem.

Můžete se připojit k Spark z RStudio:

Připojením k jádru Spark, které je spuštěno lokálně v kontejneru RStudio v produktu IBM Watson Studio

Aplikace RStudio obsahuje ukázkové úseky kódu, které ukazují, jak se připojit k jádru Spark ve vašich aplikacích pro obě metody.

Chcete-li použít produkt Spark v aplikaci RStudio po spuštění integrovaného vývojového prostředí, postupujte takto:

Vyhledejte adresář ibm_sparkaas_demos ve svém domovském adresáři a otevřete jej. Adresář obsahuje následující skripty R:
- Soubor README s podrobnostmi o zahrnutých ukázkových skriptech R
- spark_kernel_basic_local.R obsahuje vzorový kód, jak se připojit k lokálnímu jádru Spark
- spark_kernel_basic_remote.R obsahuje vzorový kód, jak se připojit ke vzdálenému jádru Spark
- Soubory sparkaas_flights.Ra sparkaas_mtcars.R jsou dva příklady použití produktu Spark v malé ukázkové aplikaci.
Použijte úseky kódu ukázky ve vašich skriptech R nebo aplikacích, které vám pomohou začít používat Spark.

Připojování k produktu Spark z nástroje RStudio

Chcete-li se připojit do Spark z RStudio pomocí balíku Sparklyr R, potřebujete prostředí Spark s prostředím R. Můžete buď použít výchozí prostředí Spark s prostředím R, které je poskytnuto, nebo vytvořit vlastní prostředí Spark s prostředím R. Chcete-li vytvořit vlastní prostředí, prohlédněte si téma Vytvoření šablon prostředí.

Postupujte takto po spuštění aplikace RStudio v prostředí RStudio:

Chcete-li získat seznam podrobností prostředí Spark a připojit se k jádru Spark ze své relace RStudio, použijte následující vzorový kód:

# load spark R packages
library(ibmwsrspark)
library(sparklyr)

# load kernels
kernels <- load_spark_kernels()

# display kernels
display_spark_kernels()

# get spark kernel Configuration

conf <- get_spark_config(kernels[1])
# Set spark configuration
conf$spark.driver.maxResultSize <- "1G"
# connect to Spark kernel

sc <- spark_connect(config = conf)

Pak se můžete odpojit od Spark, použít:

# disconnect
spark_disconnect(sc)

Příklady těchto příkazů jsou k dispozici v souboru README v části /home/wsuser/ibm_sparkaas_demos.

Nadřízené téma: RStudio