Category: 大数据

PostgreSQL9.5 下安装MADlib

下载安装MADlib前的准备工作,安装编译环境和必要的组件: apt-get update apt-get install build-essential m4 postgresql-server-dev-9.5 \ postgresql-plpython-9.5 git cmake 下载、编译、安装MADlib: git clone https://github.com/apache/incubator-madlib cd incubator-madlib ./configure make install 部署MADlib到指定数据库 /usr/local/madlib/bin/madpack -p postgres -c postgres@127.0.0.1/test install  

Read More

Apache Zeppelin-多语言多用途Notebook

Apache Zeppelin,A web-based notebook that enables interactive data analytics. You can make beautiful data-driven, interactive and collaborative documents with SQL, Scala and more. 一个网页版本的notebook,支持交互式数据分析。 使用它,你可以用SQL,Scala等方便地创建漂亮的数据驱动,交互式和协同合作的文档。   Multi-purpose Notebook(多用途Notebook) Data Ingestion(数据集成)…

Read More

SparkR连接PostgreSQL数据库

成功安装了SparkR后,让我们来尝试下如何从PostgreSQL读取数据, Sys.setenv(SPARK_HOME="/Users/steven/Applications/spark2") .libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths())) library(SparkR) d.pg="org.postgresql:postgresql:9.4.1209.jre7" sc <- sparkR.session(master="local",sparkPackages=c(d.pg)) url<-"jdbc:postgresql://localhost:5432/steven?user=postgres&password=" driver<-"org.postgresql.Driver" df.pg <- read.jdbc(source="jdbc", url=url, tableName ="public.mtcars",driver=driver) printSchema(df.pg) collect(df.pg) #createOrReplaceTempView(df.pg,"mtcars") #sql("select * from mtcars") sparkR.session.stop() 从代码可以看到,主要指定sparkPackages和read.jdbc命令,这段命令只要稍做修改,同样适用MySQL等支持JDBC连接的数据库。

Read More

最简便的SparkR安装方法

下载安装最新版本的R 下载安装Spark(这个你可以选择1.6.2或者2.0.0版本) 选装RStudio 在R下告诉Spark的路径 Sys.setenv(SPARK_HOME="/Users/steven/Applications/spark2") .libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths())) library(SparkR) 体验起来吧(以Spark 2.0.0为例) sc <- sparkR.session(master="local") df <- createDataFrame(iris) #R data.frame to Spark DataFrame createOrReplaceTempView(df,"iris") #注册成临时表(视图) x<-sql("select * from iris")#体验下Spark SQL…

Read More