Tag:spark

sparklyr-R语言访问Spark的另外一种方法

Spark自带了R语言的支持-SparkR,前面我也介绍了最简便的SparkR安装方法,这里我们换个方式,使用Rstudio提供的接口,sparklyr。 提供了完整的 dplyr后台实现 方便与Spark MLlib or H2O Sparkling Water整合 方便基于SPARK API编写自己的扩展 安装(记得安装Java虚拟机), devtools::install_github("rstudio/sparklyr") #install.packages("sparklyr") #以上两种方法都可以 library(sparklyr) #选择spark和hadoop的版本 spark_install(version = "2.0.1",hadoop_version = "2.7") 连接Spark library(sparklyr) sc <- spark_connect(master = "local") 读取数据…

Read More

Apache Zeppelin-多语言多用途Notebook

Apache Zeppelin,A web-based notebook that enables interactive data analytics. You can make beautiful data-driven, interactive and collaborative documents with SQL, Scala and more. 一个网页版本的notebook,支持交互式数据分析。 使用它,你可以用SQL,Scala等方便地创建漂亮的数据驱动,交互式和协同合作的文档。   Multi-purpose Notebook(多用途Notebook) Data Ingestion(数据集成)…

Read More

SparkR连接PostgreSQL数据库

成功安装了SparkR后,让我们来尝试下如何从PostgreSQL读取数据, Sys.setenv(SPARK_HOME="/Users/steven/Applications/spark2") .libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths())) library(SparkR) d.pg="org.postgresql:postgresql:9.4.1209.jre7" sc <- sparkR.session(master="local",sparkPackages=c(d.pg)) url<-"jdbc:postgresql://localhost:5432/steven?user=postgres&password=" driver<-"org.postgresql.Driver" df.pg <- read.jdbc(source="jdbc", url=url, tableName ="public.mtcars",driver=driver) printSchema(df.pg) collect(df.pg) #createOrReplaceTempView(df.pg,"mtcars") #sql("select * from mtcars") sparkR.session.stop() 从代码可以看到,主要指定sparkPackages和read.jdbc命令,这段命令只要稍做修改,同样适用MySQL等支持JDBC连接的数据库。

Read More

最简便的SparkR安装方法

下载安装最新版本的R 下载安装Spark(这个你可以选择1.6.2或者2.0.0版本) 选装RStudio 在R下告诉Spark的路径 Sys.setenv(SPARK_HOME="/Users/steven/Applications/spark2") .libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths())) library(SparkR) 体验起来吧(以Spark 2.0.0为例) sc <- sparkR.session(master="local") df <- createDataFrame(iris) #R data.frame to Spark DataFrame createOrReplaceTempView(df,"iris") #注册成临时表(视图) x<-sql("select * from iris")#体验下Spark SQL…

Read More

没有SAS,如何解析读取SAS7BDAT?

ReadStat(c) haven(R, bases on ReadStat),最新版读取5G的sas7bdat成功 sas7bdat(R),读取5G的sas7bdat失败 sas7bdat.parso(R, 基于 parso), 未测试 spark-sas7bdat(sparkR, 基于 parso), spark版本,读取5G的sas7bdat成功,但后续分析失败 parso(java), 读取5G的sas7bdat成功, 并基于它写了一个H2 Databased存储过程sasread sas7bdat(python),读取5G的sas7bdat成功

Read More