Currently browsing tag

spark

sparklyr-R语言访问Spark的另外一种方法

Spark自带了R语言的支持-SparkR,前面我也介绍了最简便的SparkR安装方法,这里我们换个方式,使用Rstudio提供的接口,sparklyr。 提供了完整的 dplyr后台实现 方便与Spark MLlib or H2O Sparkling Water整合 方便基于SPARK API编写自己的扩展 安装(记得安装Java虚拟机),

连接Spark

读取数据

列出所有的表

使用dplyr

画图 …

Apache Zeppelin-多语言多用途Notebook

Apache Zeppelin,A web-based notebook that enables interactive data analytics. You can make beautiful data-driven, interactive and collaborative documents with SQL, Scala and …

SparkR连接PostgreSQL数据库

成功安装了SparkR后,让我们来尝试下如何从PostgreSQL读取数据,

从代码可以看到,主要指定sparkPackages和read.jdbc命令,这段命令只要稍做修改,同样适用MySQL等支持JDBC连接的数据库。

最简便的SparkR安装方法

下载安装最新版本的R 下载安装Spark(这个你可以选择1.6.2或者2.0.0版本) 选装RStudio 在R下告诉Spark的路径

体验起来吧(以Spark 2.0.0为例)

好处 安装简便,快速 可以1.6.2和2.0.0共存,使用的时候只要设定不同的SPARK_HOME,就可以获得想要的版本 Linux,macOS,Windows通用

没有SAS,如何解析读取SAS7BDAT?

ReadStat(c) haven(R, bases on ReadStat),最新版读取5G的sas7bdat成功 sas7bdat(R),读取5G的sas7bdat失败 sas7bdat.parso(R, 基于 parso), 未测试 spark-sas7bdat(sparkR, 基于 parso), spark版本,读取5G的sas7bdat成功,但后续分析失败 parso(java), 读取5G的sas7bdat成功, 并基于它写了一个H2 Databased存储过程sasread sas7bdat(python),读取5G的sas7bdat成功