Tag:spark

November 1, 2016

alitrack R H2O Sparkling Water, spark, Spark MLlib, sparklyr, sparkR, 机器学习

sparklyr-R语言访问Spark的另外一种方法

Spark自带了R语言的支持-SparkR，前面我也介绍了最简便的SparkR安装方法，这里我们换个方式，使用Rstudio提供的接口，sparklyr。提供了完整的 dplyr后台实现方便与Spark MLlib or H2O Sparkling Water整合方便基于SPARK API编写自己的扩展安装(记得安装Java虚拟机)， devtools::install_github("rstudio/sparklyr") #install.packages("sparklyr") #以上两种方法都可以 library(sparklyr) #选择spark和hadoop的版本 spark_install(version = "2.0.1",hadoop_version = "2.7") 连接Spark library(sparklyr) sc <- spark_connect(master = "local") 读取数据…

August 18, 2016

alitrack 大数据 Apache Zeppelin, JDBC, Markdown, python, Shell, spark

Apache Zeppelin-多语言多用途Notebook

Apache Zeppelin，A web-based notebook that enables interactive data analytics. You can make beautiful data-driven, interactive and collaborative documents with SQL, Scala and more. 一个网页版本的notebook，支持交互式数据分析。使用它，你可以用SQL，Scala等方便地创建漂亮的数据驱动，交互式和协同合作的文档。 Multi-purpose Notebook（多用途Notebook） Data Ingestion（数据集成）…

August 18, 2016

alitrack 大数据 JDBC, MySQL, PostgreSQL, spark, Spark SQL, sparkR

SparkR连接PostgreSQL数据库

成功安装了SparkR后，让我们来尝试下如何从PostgreSQL读取数据， Sys.setenv(SPARK_HOME="/Users/steven/Applications/spark2") .libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths())) library(SparkR) d.pg="org.postgresql:postgresql:9.4.1209.jre7" sc <- sparkR.session(master="local",sparkPackages=c(d.pg)) url<-"jdbc:postgresql://localhost:5432/steven?user=postgres&password=" driver<-"org.postgresql.Driver" df.pg <- read.jdbc(source="jdbc", url=url, tableName ="public.mtcars",driver=driver) printSchema(df.pg) collect(df.pg) #createOrReplaceTempView(df.pg,"mtcars") #sql("select * from mtcars") sparkR.session.stop() 从代码可以看到，主要指定sparkPackages和read.jdbc命令，这段命令只要稍做修改，同样适用MySQL等支持JDBC连接的数据库。

August 18, 2016

alitrack 大数据 RStudio, spark, Spark SQL, sparkR

最简便的SparkR安装方法

下载安装最新版本的R 下载安装Spark（这个你可以选择1.6.2或者2.0.0版本）选装RStudio 在R下告诉Spark的路径 Sys.setenv(SPARK_HOME="/Users/steven/Applications/spark2") .libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths())) library(SparkR) 体验起来吧（以Spark 2.0.0为例） sc <- sparkR.session(master="local") df <- createDataFrame(iris) #R data.frame to Spark DataFrame createOrReplaceTempView(df,"iris") #注册成临时表（视图） x<-sql("select * from iris")#体验下Spark SQL…

August 11, 2016

alitrack Software java, pandas, parso, python, R, sas7bdat, sasread, spark

没有SAS，如何解析读取SAS7BDAT？

ReadStat(c) haven(R, bases on ReadStat)，最新版读取5G的sas7bdat成功 sas7bdat(R)，读取5G的sas7bdat失败 sas7bdat.parso(R, 基于 parso)，未测试 spark-sas7bdat(sparkR, 基于 parso)， spark版本，读取5G的sas7bdat成功，但后续分析失败 parso(java)，读取5G的sas7bdat成功，并基于它写了一个H2 Databased存储过程sasread sas7bdat(python)，读取5G的sas7bdat成功