Utilizzo di Spark in RStudio
Sebbene l'IDE RStudio non possa essere avviato in un runtime dell'ambiente Spark with R, è possibile utilizzare Spark negli script R e nelle applicazioni Shiny accedendo ai kernel Spark in modo programmatico.
RStudio utilizza il pacchetto sparklyr
per connettersi a Spark da R. Il pacchetto sparklyr
include un'interfaccia dplyr
per i frame di dati Spark nonché un'interfaccia R per le pipeline di machine learning distribuite di Spark.
Puoi connetterti a Spark da RStudio:
- Collegandosi a un kernel Spark che viene eseguito localmente nel contenitore RStudio in IBM watsonx.ai Studio
RStudio include snippet code di esempio che mostrano come collegarsi ad un kernel di Spark nelle applicazioni per entrambi i metodi.
Per utilizzare Spark in RStudio dopo aver lanciato l'IDE:
Individuare la directory
ibm_sparkaas_demos
sotto la propria directory home e aprirla. La directory contiene i seguenti script R:- Un readme con dettagli sugli script di esempio R inclusi
spark_kernel_basic_local.R
include il codice di esempio di come connettersi a un kernel Spark localespark_kernel_basic_remote.R
include il codice di esempio di come connettersi a un kernel Spark remoto- I file
sparkaas_flights.R
esparkaas_mtcars.R
sono due esempi di come utilizzare Spark in una piccola applicazione di esempio
Usa i snippet di codice di esempio nei tuoi script R o applicazioni per aiutarti a iniziare a usare Spark.
Connessione a Spark da RStudio
Per connettersi a Spark da RStudio utilizzando il package Sparklyr
R, è necessario un ambiente Spark con R. È possibile utilizzare l'ambiente Spark con R predefinito fornito oppure creare un ambiente Spark con R personalizzato. Per creare un ambiente personalizzato, consultare Creazione di modelli di ambiente.
Dopo aver avviato RStudio in ambiente RStudio, effettuare le seguenti operazioni:
Utilizzare il seguente codice di esempio per ottenere un elenco dei dettagli dell'ambiente Spark e per connettersi a un kernel Spark dalla sessione RStudio:
# load spark R packages
library(ibmwsrspark)
library(sparklyr)
# load kernels
kernels <- load_spark_kernels()
# display kernels
display_spark_kernels()
# get spark kernel Configuration
conf <- get_spark_config(kernels[1])
# Set spark configuration
conf$spark.driver.maxResultSize <- "1G"
# connect to Spark kernel
sc <- spark_connect(config = conf)
Poi per disconnettersi da Spark, utilizzare:
# disconnect
spark_disconnect(sc)
Esempi di questi comandi sono forniti in readme sotto /home/wsuser/ibm_sparkaas_demos
.
Argomento principale: RStudio