最简便的SparkR安装方法

  • 下载安装最新版本的R
  • 下载安装Spark(这个你可以选择1.6.2或者2.0.0版本)
  • 选装RStudio
  • 在R下告诉Spark的路径
Sys.setenv(SPARK_HOME="/Users/steven/Applications/spark2")
.libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths()))
library(SparkR)
  • 体验起来吧(以Spark 2.0.0为例)
sc <- sparkR.session(master="local[2]")
df <- createDataFrame(iris)   #R data.frame to Spark DataFrame
createOrReplaceTempView(df,"iris") #注册成临时表(视图)
x<-sql("select * from iris")#体验下Spark SQL
nrow(x)#
summary(x)

collect(df)#Spark DataFrame to R data.frame
sparkR.session.stop()
  • 好处
  1. 安装简便,快速
  2. 可以1.6.2和2.0.0共存,使用的时候只要设定不同的SPARK_HOME,就可以获得想要的版本
  3. Linux,macOS,Windows通用