Currently browsing tag

sparkR

sparklyr-R语言访问Spark的另外一种方法

Spark自带了R语言的支持-SparkR,前面我也介绍了最简便的SparkR安装方法,这里我们换个方式,使用Rstudio提供的接口,sparklyr。 提供了完整的 dplyr后台实现 方便与Spark MLlib or H2O Sparkling Water整合 方便基于SPARK API编写自己的扩展 安装(记得安装Java虚拟机),

连接Spark

读取数据

列出所有的表

使用dplyr

画图 …

SparkR连接PostgreSQL数据库

成功安装了SparkR后,让我们来尝试下如何从PostgreSQL读取数据,

从代码可以看到,主要指定sparkPackages和read.jdbc命令,这段命令只要稍做修改,同样适用MySQL等支持JDBC连接的数据库。

最简便的SparkR安装方法

下载安装最新版本的R 下载安装Spark(这个你可以选择1.6.2或者2.0.0版本) 选装RStudio 在R下告诉Spark的路径

体验起来吧(以Spark 2.0.0为例)

好处 安装简便,快速 可以1.6.2和2.0.0共存,使用的时候只要设定不同的SPARK_HOME,就可以获得想要的版本 Linux,macOS,Windows通用