Utilisation de Spark dans RStudio
Bien que l'environnement d'exécution intégré RStudio ne puisse pas être démarré dans un environnement d'exécution Spark with R, vous pouvez utiliser Spark dans des scripts R et des applications Shiny en accédant aux noyaux Spark par programmation.
RStudio utilise le module sparklyr
pour se connecter à Spark à partir de R. Le module sparklyr
inclut une interface dplyr
pour les trames de données Spark, ainsi qu'une interface R pour les pipelines d'apprentissage de la machine distribuée de Spark.
Vous pouvez vous connecter à Spark à partir de RStudio:
- En se connectant à un noyau Spark qui s'exécute localement dans le conteneur RStudio dans IBM watsonx.ai Studio
RStudio inclut des exemples de fragment de code qui expliquent comment se connecter à un noyau Spark dans des applications via les deux méthodes.
Pour utiliser Spark dans RStudio après avoir lancé l'interface IDE :
Localisez le répertoire
ibm_sparkaas_demos
sous votre répertoire de base et ouvrez-le. Le répertoire contient les scripts R suivants :- Un fichier Readme avec des détails sur les exemples de script R inclus
spark_kernel_basic_local.R
inclut un exemple de code de connexion à un noyau Spark localspark_kernel_basic_remote.R
inclut un exemple de code de connexion à un noyau distant Spark- Les fichiers
sparkaas_flights.R
etsparkaas_mtcars.R
sont deux exemples d'utilisation de Spark dans un petit échantillon d'application
Utilisez les exemples de fragment de code de vos scripts R ou de vos applications pour votre mise en route avec Spark.
Connexion à Spark depuis RStudio
Pour vous connecter à Spark à partir de RStudio à l'aide du package Sparklyr
R, vous avez besoin d'un environnement Spark avec R. Vous pouvez utiliser l'environnement Spark with R par défaut fourni ou créer un environnement Spark with R personnalisé. Pour créer un environnement personnalisé, voir Création de modèles d'environnement.
Après avoir lancé RStudio dans un environnement RStudio, procédez comme suit:
Utilisez l'exemple de code suivant pour obtenir une liste des détails de l'environnement Spark et pour vous connecter à un noyau Spark à partir de votre session RStudio:
# load spark R packages
library(ibmwsrspark)
library(sparklyr)
# load kernels
kernels <- load_spark_kernels()
# display kernels
display_spark_kernels()
# get spark kernel Configuration
conf <- get_spark_config(kernels[1])
# Set spark configuration
conf$spark.driver.maxResultSize <- "1G"
# connect to Spark kernel
sc <- spark_connect(config = conf)
Puis, pour vous déconnecter de Spark, utilisez :
# disconnect
spark_disconnect(sc)
Des exemples de ces commandes sont fournis dans le fichier readme sous /home/wsuser/ibm_sparkaas_demos
.
Rubrique parent: RStudio