0 / 0
Volver a la versión inglesa de la documentación

Utilización de Spark en RStudio

Última actualización: 21 nov 2024
Utilización de Spark en RStudio

Aunque el IDE de RStudio no se puede iniciar en un entorno de ejecución de entorno de Spark con R, puede utilizar Spark en los scripts R y las aplicaciones Shiny accediendo a los kernels de Spark mediante programación.

RStudio utiliza el paquete sparklyr para conectarse a Spark desde R. El paquete sparklyr incluye una interfaz dplyr para las tramas de datos de Spark, así como una interfaz R para las interconexiones de aprendizaje automático distribuidas de Spark.

Puede conectarse a Spark desde RStudio:

  • Mediante la conexión a un núcleo Spark que se ejecuta localmente en el contenedor RStudio en IBM watsonx.ai Studio

RStudio incluye fragmentos de código de ejemplo que muestran cómo conectarse a un kernel Spark en las aplicaciones para ambos métodos.

Para utilizar Spark en RStudio después de haber lanzado el IDE:

  1. Localice el directorio ibm_sparkaas_demos bajo el directorio inicial y ábralo. El directorio contiene los siguientes scripts R:

    • Un readme con detalles sobre los scripts de ejemplo R incluidos
    • spark_kernel_basic_local.R incluye código de ejemplo sobre cómo conectarse a un kernel de Spark local
    • spark_kernel_basic_remote.R incluye código de ejemplo sobre cómo conectarse a un kernel de Spark remoto
    • Los archivos sparkaas_flights.R y sparkaas_mtcars.R son dos ejemplos de cómo utilizar Spark en una aplicación de ejemplo pequeña
  2. Utilice los fragmentos de código de ejemplo en los scripts o aplicaciones R para ayudarle a empezar a utilizar Spark.

Conexión a Spark desde RStudio

Para conectarse a Spark desde RStudio utilizando el paquete Sparklyr R, necesita un entorno Spark con R. Puede utilizar el entorno Spark con R predeterminado que se proporciona o crear un entorno Spark con R. Para crear un entorno personalizado, consulte Creación de plantillas de entorno.

Siga estos pasos después de iniciar RStudio en un entorno de RStudio:

Utilice el siguiente código de ejemplo para obtener una lista de los detalles del entorno de Spark y para conectarse a un kernel de Spark desde la sesión de RStudio:

# load spark R packages
library(ibmwsrspark)
library(sparklyr)

# load kernels
kernels <- load_spark_kernels()

# display kernels
display_spark_kernels()

# get spark kernel Configuration

conf <- get_spark_config(kernels[1])
# Set spark configuration
conf$spark.driver.maxResultSize <- "1G"
# connect to Spark kernel

sc <- spark_connect(config = conf)

A continuación, para desconectarse de Spark, utilice:

# disconnect
spark_disconnect(sc)

En el archivo readme de /home/wsuser/ibm_sparkaas_demos se proporcionan ejemplos de estos mandatos.

Tema principal: RStudio