0 / 0
Torna alla versione inglese della documentazione

Utilizzo di Spark in RStudio

Ultimo aggiornamento: 21 nov 2024
Utilizzo di Spark in RStudio

Sebbene l'IDE RStudio non possa essere avviato in un runtime dell'ambiente Spark with R, è possibile utilizzare Spark negli script R e nelle applicazioni Shiny accedendo ai kernel Spark in modo programmatico.

RStudio utilizza il pacchetto sparklyr per connettersi a Spark da R. Il pacchetto sparklyr include un'interfaccia dplyr per i frame di dati Spark nonché un'interfaccia R per le pipeline di machine learning distribuite di Spark.

Puoi connetterti a Spark da RStudio:

  • Collegandosi a un kernel Spark che viene eseguito localmente nel contenitore RStudio in IBM watsonx.ai Studio

RStudio include snippet code di esempio che mostrano come collegarsi ad un kernel di Spark nelle applicazioni per entrambi i metodi.

Per utilizzare Spark in RStudio dopo aver lanciato l'IDE:

  1. Individuare la directory ibm_sparkaas_demos sotto la propria directory home e aprirla. La directory contiene i seguenti script R:

    • Un readme con dettagli sugli script di esempio R inclusi
    • spark_kernel_basic_local.R include il codice di esempio di come connettersi a un kernel Spark locale
    • spark_kernel_basic_remote.R include il codice di esempio di come connettersi a un kernel Spark remoto
    • I file sparkaas_flights.Re sparkaas_mtcars.R sono due esempi di come utilizzare Spark in una piccola applicazione di esempio
  2. Usa i snippet di codice di esempio nei tuoi script R o applicazioni per aiutarti a iniziare a usare Spark.

Connessione a Spark da RStudio

Per connettersi a Spark da RStudio utilizzando il package Sparklyr R, è necessario un ambiente Spark con R. È possibile utilizzare l'ambiente Spark con R predefinito fornito oppure creare un ambiente Spark con R personalizzato. Per creare un ambiente personalizzato, consultare Creazione di modelli di ambiente.

Dopo aver avviato RStudio in ambiente RStudio, effettuare le seguenti operazioni:

Utilizzare il seguente codice di esempio per ottenere un elenco dei dettagli dell'ambiente Spark e per connettersi a un kernel Spark dalla sessione RStudio:

# load spark R packages
library(ibmwsrspark)
library(sparklyr)

# load kernels
kernels <- load_spark_kernels()

# display kernels
display_spark_kernels()

# get spark kernel Configuration

conf <- get_spark_config(kernels[1])
# Set spark configuration
conf$spark.driver.maxResultSize <- "1G"
# connect to Spark kernel

sc <- spark_connect(config = conf)

Poi per disconnettersi da Spark, utilizzare:

# disconnect
spark_disconnect(sc)

Esempi di questi comandi sono forniti in readme sotto /home/wsuser/ibm_sparkaas_demos.

Argomento principale: RStudio