0 / 0
영어 버전 문서로 돌아가기

RStudio에서 Spark 사용

마지막 업데이트 날짜: 2024년 11월 21일
RStudio에서 Spark 사용

RStudio IDE는 R 환경 런타임으로 Spark에서 시작할 수 없지만 Spark 커널에 프로그래밍 방식으로 액세스하여 R 스크립트와 Shiny 앱에서 Spark를 사용할 수 있습니다.

RStudio는 sparklyr 패키지를 사용하여 R에서 Spark에 연결합니다. sparklyr 패키지에는 Spark 데이터 프레임에 대한 dplyr 인터페이스와 Spark의 분산형 머신 러닝 파이프라인에 대한 R 인터페이스가 포함되어 있습니다.

RStudio에서 Spark에 연결할 수 있습니다.

  • IBM watsonx.ai Studio의 RStudio 컨테이너에서 로컬로 실행되는 Spark 커널에 연결합니다

RStudio에는 두 가지 방법 모두에 대해 애플리케이션에서 Spark 커널에 연결하는 방법을 보여주는 샘플 코드 스니펫이 포함됩니다.

IDE를 실행한 후에 RStudio에서 Spark를 사용하려면 다음을 수행하십시오.

  1. 홈 디렉토리에서 ibm_sparkaas_demos 디렉토리를 찾아 여십시오. 디렉토리에는 다음 R 스크립트가 포함됩니다.

    • 포함된 R 샘플 스크립트에 대한 세부사항이 있는 readme
    • spark_kernel_basic_local.R에는 로컬 Spark 커널에 연결하는 방법에 대한 샘플 코드가 포함되어 있습니다.
    • spark_kernel_basic_remote.R에는 원격 Spark 커널에 연결하는 방법에 대한 샘플 코드가 포함되어 있습니다.
    • sparkaas_flights.Rsparkaas_mtcars.R 파일은 소형 샘플 애플리케이션에서 Spark를 사용하는 방법에 대한 두 가지 예제입니다.
  2. Spark 사용을 시작하려면 R 스크립트 또는 애플리케이션에서 샘플 코드 스니펫을 사용하십시오.

RStudio에서 Spark에 연결

Sparklyr R 패키지를 사용하여 RStudio에서 Spark에 연결하려면 Spark with R 환경이 필요합니다. 제공되는 R 환경에서 기본 Spark를 사용하거나 R 환경에서 사용자 정의 Spark를 작성할 수 있습니다. 사용자 정의 환경을 작성하려면 환경 템플리트 작성을 참조하십시오.

RStudio 환경에서 RStudio를 실행한 후 다음 단계를 수행하십시오.

다음 샘플 코드를 사용하여 Spark 환경 세부사항 목록을 가져오고 RStudio 세션에서 Spark 커널에 연결하십시오.

# load spark R packages
library(ibmwsrspark)
library(sparklyr)

# load kernels
kernels <- load_spark_kernels()

# display kernels
display_spark_kernels()

# get spark kernel Configuration

conf <- get_spark_config(kernels[1])
# Set spark configuration
conf$spark.driver.maxResultSize <- "1G"
# connect to Spark kernel

sc <- spark_connect(config = conf)

그런 다음 Spark에서 연결을 끊으려면 다음을 사용하십시오.

# disconnect
spark_disconnect(sc)

이러한 명령의 예제는 /home/wsuser/ibm_sparkaas_demos의 Readme에 제공됩니다.

상위 주제: RStudio