RStudio에서 Spark 사용
RStudio IDE는 R 환경 런타임으로 Spark에서 시작할 수 없지만 Spark 커널에 프로그래밍 방식으로 액세스하여 R 스크립트와 Shiny 앱에서 Spark를 사용할 수 있습니다.
RStudio는 sparklyr
패키지를 사용하여 R에서 Spark에 연결합니다. sparklyr
패키지에는 Spark 데이터 프레임에 대한 dplyr
인터페이스와 Spark의 분산형 머신 러닝 파이프라인에 대한 R 인터페이스가 포함되어 있습니다.
RStudio에서 Spark에 연결할 수 있습니다.
- IBM watsonx.ai Studio의 RStudio 컨테이너에서 로컬로 실행되는 Spark 커널에 연결합니다
RStudio에는 두 가지 방법 모두에 대해 애플리케이션에서 Spark 커널에 연결하는 방법을 보여주는 샘플 코드 스니펫이 포함됩니다.
IDE를 실행한 후에 RStudio에서 Spark를 사용하려면 다음을 수행하십시오.
홈 디렉토리에서
ibm_sparkaas_demos
디렉토리를 찾아 여십시오. 디렉토리에는 다음 R 스크립트가 포함됩니다.- 포함된 R 샘플 스크립트에 대한 세부사항이 있는 readme
spark_kernel_basic_local.R
에는 로컬 Spark 커널에 연결하는 방법에 대한 샘플 코드가 포함되어 있습니다.spark_kernel_basic_remote.R
에는 원격 Spark 커널에 연결하는 방법에 대한 샘플 코드가 포함되어 있습니다.sparkaas_flights.R
및sparkaas_mtcars.R
파일은 소형 샘플 애플리케이션에서 Spark를 사용하는 방법에 대한 두 가지 예제입니다.
Spark 사용을 시작하려면 R 스크립트 또는 애플리케이션에서 샘플 코드 스니펫을 사용하십시오.
RStudio에서 Spark에 연결
Sparklyr
R 패키지를 사용하여 RStudio에서 Spark에 연결하려면 Spark with R 환경이 필요합니다. 제공되는 R 환경에서 기본 Spark를 사용하거나 R 환경에서 사용자 정의 Spark를 작성할 수 있습니다. 사용자 정의 환경을 작성하려면 환경 템플리트 작성을 참조하십시오.
RStudio 환경에서 RStudio를 실행한 후 다음 단계를 수행하십시오.
다음 샘플 코드를 사용하여 Spark 환경 세부사항 목록을 가져오고 RStudio 세션에서 Spark 커널에 연결하십시오.
# load spark R packages
library(ibmwsrspark)
library(sparklyr)
# load kernels
kernels <- load_spark_kernels()
# display kernels
display_spark_kernels()
# get spark kernel Configuration
conf <- get_spark_config(kernels[1])
# Set spark configuration
conf$spark.driver.maxResultSize <- "1G"
# connect to Spark kernel
sc <- spark_connect(config = conf)
그런 다음 Spark에서 연결을 끊으려면 다음을 사용하십시오.
# disconnect
spark_disconnect(sc)
이러한 명령의 예제는 /home/wsuser/ibm_sparkaas_demos
의 Readme에 제공됩니다.
상위 주제: RStudio