Category: R

readxl读取xls格式Excel可能出现数据混乱

R的readxl是个很棒的XLS和XLSX解析包,但最近发现它读取XLS(MicroSoft Excel 97-2003工作表)格式的时候,会出现数据混乱的情况,如果转为XLSX后则没有这个问题了,下面是找到的一个VBA,可以批量把XLS格式转为XLSX,方便readxl读取, Sub ChangeFileFormat() Dim strCurrentFileExt As String Dim strNewFileExt As String Dim objFSO As Object Dim objFolder As Object Dim objFile As Object Dim xlFile As Workbook Dim…

Read More

sparklyr-R语言访问Spark的另外一种方法

Spark自带了R语言的支持-SparkR,前面我也介绍了最简便的SparkR安装方法,这里我们换个方式,使用Rstudio提供的接口,sparklyr。 提供了完整的 dplyr后台实现 方便与Spark MLlib or H2O Sparkling Water整合 方便基于SPARK API编写自己的扩展 安装(记得安装Java虚拟机), devtools::install_github("rstudio/sparklyr") #install.packages("sparklyr") #以上两种方法都可以 library(sparklyr) #选择spark和hadoop的版本 spark_install(version = "2.0.1",hadoop_version = "2.7") 连接Spark library(sparklyr) sc <- spark_connect(master = "local") 读取数据…

Read More

Docer 里安装RStudio Server

基于命令行模式安装(在天朝,有时候命令行模式可以安装,但Kitematic的方式反而无法安装), docker run -d -p 8787:8787 rocker/rstudio 基于Kitematic 方式安装, 安装后,默认端口是8787,浏览器的访问http://127.0.0.1:8787, 用户名:rstudio 密码:rstudio 如果想修改密码,请移步如何修改RStudio Server密码。 > R.Version() $platform "x86_64-pc-linux-gnu" $arch "x86_64" $os "linux-gnu" $system "x86_64, linux-gnu" $status "" $major "3" $minor…

Read More

如何修改RStudio Server密码

RStudio Server 的默认用户名和密码都是rstudio,如果你想修改密码,请参照如下步骤, 1.打开工具菜单的Shell 在Shell下输入passwd,接下来按提示依次输入, 现在的密码:(Current) UNIX password,默认是rstudio 新密码:Enter new UNIX password) 重复新密码:retype new UNIX password) P.S. RStudio Server 是 RStudio 公司打造的一款基于 Web 的开源编辑器。在实际的工程中,我们的服务器大多是基于Linux的,比如常见的 ubuntu、centos 等。这些操作系统有时并不提供图形化界面,这时候RStudio的服务器版本就派上用场了。启动RStudio Server后,进入在浏览器中进入某一个页面后就可以像桌面版一样使用RStudio编辑器。当R的代码在服务器上出现bug了,线上的hotfix是在所难免的,这时候就需要用到 RStudio Server 。

Read More

Windows下如何安装r2excel?

r2excel 是一个Excel文件的读、写、格式化R语言包,支持Excel 97~2003版本的文件格式(.xls)和Excel2007以后的格式(.xlsx)。 在mac OSX下安装很顺利, install.packages("devtools") library(devtools) install_github("kassambara/r2excel") Windows下则遇到了不小麻烦, Error : .onLoad failed in loadNamespace() for 'rJava', details: call: inDL(x, as.logical(local), as.logical(now), ...) error: 无法载入共享目标对象‘C:/Users/lhy/Documents/R/win-library/3.3/rJava/libs/i386/rJava.dll’:: LoadLibrary failure: %1 不是有效的 Win32 应用程序。…

Read More

R语言关联规则压力测试-arules

前文说到如何用R与PostgreSQL进行数据挖掘之关联规则, 下面使用真实数据使用Apriori算法做个压力测试(系统配置,Windows 2008 64-bit,SSD,128G内存),620items, 163763 transactions。mini confidence和mini support均选择0.00001(选择这么低并没有意义),minlen=2,maxlen=5,输出规则高达3亿5千万之多,现实rule占用16.6G。 Apriori Parameter specification: confidence minval smax arem aval originalSupport support minlen maxlen target ext 1e-05 0.1 1 none FALSE TRUE 1e-05 2…

Read More

如何用R与PostgreSQL进行数据挖掘之关联规则

前面用PostgreSQL 函数实现了一个简易版的关联规则算法,今天尝试下R语言的关联规则包“arules”中的apriori算法。 连接数据库并读取数据 library(RPostgreSQL) drv <- dbDriver("PostgreSQL") con <- dbConnect(drv, user='postgres', dbname='steven', password='', host='127.0.0.1') rs <- dbSendQuery(con,"select customer_id,brand from trans;") results <- fetch(rs,n=-1) trans表的结构和数据示例如下, CREATE TABLE public.maoye ( customer_id text…

Read More