0 / 0
Retourner à la version anglaise de la documentation

Utilisation de Spark dans RStudio

Dernière mise à jour : 21 nov. 2024
Utilisation de Spark dans RStudio

Bien que l'environnement d'exécution intégré RStudio ne puisse pas être démarré dans un environnement d'exécution Spark with R, vous pouvez utiliser Spark dans des scripts R et des applications Shiny en accédant aux noyaux Spark par programmation.

RStudio utilise le module sparklyr pour se connecter à Spark à partir de R. Le module sparklyr inclut une interface dplyr pour les trames de données Spark, ainsi qu'une interface R pour les pipelines d'apprentissage de la machine distribuée de Spark.

Vous pouvez vous connecter à Spark à partir de RStudio:

  • En se connectant à un noyau Spark qui s'exécute localement dans le conteneur RStudio dans IBM watsonx.ai Studio

RStudio inclut des exemples de fragment de code qui expliquent comment se connecter à un noyau Spark dans des applications via les deux méthodes.

Pour utiliser Spark dans RStudio après avoir lancé l'interface IDE :

  1. Localisez le répertoire ibm_sparkaas_demos sous votre répertoire de base et ouvrez-le. Le répertoire contient les scripts R suivants :

    • Un fichier Readme avec des détails sur les exemples de script R inclus
    • spark_kernel_basic_local.R inclut un exemple de code de connexion à un noyau Spark local
    • spark_kernel_basic_remote.R inclut un exemple de code de connexion à un noyau distant Spark
    • Les fichiers sparkaas_flights.Ret sparkaas_mtcars.R sont deux exemples d'utilisation de Spark dans un petit échantillon d'application
  2. Utilisez les exemples de fragment de code de vos scripts R ou de vos applications pour votre mise en route avec Spark.

Connexion à Spark depuis RStudio

Pour vous connecter à Spark à partir de RStudio à l'aide du package Sparklyr R, vous avez besoin d'un environnement Spark avec R. Vous pouvez utiliser l'environnement Spark with R par défaut fourni ou créer un environnement Spark with R personnalisé. Pour créer un environnement personnalisé, voir Création de modèles d'environnement.

Après avoir lancé RStudio dans un environnement RStudio, procédez comme suit:

Utilisez l'exemple de code suivant pour obtenir une liste des détails de l'environnement Spark et pour vous connecter à un noyau Spark à partir de votre session RStudio:

# load spark R packages
library(ibmwsrspark)
library(sparklyr)

# load kernels
kernels <- load_spark_kernels()

# display kernels
display_spark_kernels()

# get spark kernel Configuration

conf <- get_spark_config(kernels[1])
# Set spark configuration
conf$spark.driver.maxResultSize <- "1G"
# connect to Spark kernel

sc <- spark_connect(config = conf)

Puis, pour vous déconnecter de Spark, utilisez :

# disconnect
spark_disconnect(sc)

Des exemples de ces commandes sont fournis dans le fichier readme sous /home/wsuser/ibm_sparkaas_demos.

Rubrique parent: RStudio