Currently browsing category

R

readxl读取xls格式Excel可能出现数据混乱

R的readxl是个很棒的XLS和XLSX解析包,但最近发现它读取XLS(MicroSoft Excel 97-2003工作表)格式的时候,会出现数据混乱的情况,如果转为XLSX后则没有这个问题了,下面是找到的一个VBA,可以批量把XLS格式转为XLSX,方便readxl读取,

 

sparklyr-R语言访问Spark的另外一种方法

Spark自带了R语言的支持-SparkR,前面我也介绍了最简便的SparkR安装方法,这里我们换个方式,使用Rstudio提供的接口,sparklyr。 提供了完整的 dplyr后台实现 方便与Spark MLlib or H2O Sparkling Water整合 方便基于SPARK API编写自己的扩展 安装(记得安装Java虚拟机),

连接Spark

读取数据

列出所有的表

使用dplyr

画图 …

Docer 里安装RStudio Server

基于命令行模式安装(在天朝,有时候命令行模式可以安装,但Kitematic的方式反而无法安装),

基于Kitematic 方式安装, 安装后,默认端口是8787,浏览器的访问http://127.0.0.1:8787, 用户名:rstudio 密码:rstudio 如果想修改密码,请移步如何修改RStudio Server密码。

 

如何修改RStudio Server密码

RStudio Server 的默认用户名和密码都是rstudio,如果你想修改密码,请参照如下步骤, 1.打开工具菜单的Shell 在Shell下输入passwd,接下来按提示依次输入, 现在的密码:(Current) UNIX password,默认是rstudio 新密码:Enter new UNIX password) 重复新密码:retype new UNIX password) P.S. RStudio Server 是 RStudio 公司打造的一款基于 Web …

Windows下如何安装r2excel?

r2excel 是一个Excel文件的读、写、格式化R语言包,支持Excel 97~2003版本的文件格式(.xls)和Excel2007以后的格式(.xlsx)。 在mac OSX下安装很顺利,

Windows下则遇到了不小麻烦,

我的R是x64版本,

并且安装了64位 jdk1.8.0_74,没有安装32位jdk(或者jre),并且我并不想要32位的版本,研究很久,找到了解决办法,不做多架构编译,

  安装成功后,又遇到了问题,写比较大的文件时报错如下,

这要求我们在设置额外的java参数,

   

自动更新R Packages

其实就一句话,

多说一句,如果碰到某些包下载失败,建议换个镜像(repos)  

address 0x18, cause ‘memory not mapped’

可能是因为覆盖安装,或者升级导致的问题,建议解决办法,删除并重新安装,

 

R语言关联规则压力测试-arules

前文说到如何用R与PostgreSQL进行数据挖掘之关联规则, 下面使用真实数据使用Apriori算法做个压力测试(系统配置,Windows 2008 64-bit,SSD,128G内存),620items, 163763 transactions。mini confidence和mini support均选择0.00001(选择这么低并没有意义),minlen=2,maxlen=5,输出规则高达3亿5千万之多,现实rule占用16.6G。

  接下来把maxlen增大到6,报内存不足,失败

  同样的数据集,用SAS Enterprise Miner Workstation 13.2测试,失败,代码如下,

如何用R与PostgreSQL进行数据挖掘之关联规则

前面用PostgreSQL 函数实现了一个简易版的关联规则算法,今天尝试下R语言的关联规则包“arules”中的apriori算法。 连接数据库并读取数据

安装并加载arules包

转data.frame为transaction

分析(设定support,confidence等规则)

对结果进行分析,或存入数据库