Currently browsing author

alitrack, Page 2

sparklyr-R语言访问Spark的另外一种方法

Spark自带了R语言的支持-SparkR,前面我也介绍了最简便的SparkR安装方法,这里我们换个方式,使用Rstudio提供的接口,sparklyr。 提供了完整的 dplyr后台实现 方便与Spark MLlib or H2O Sparkling Water整合 方便基于SPARK API编写自己的扩展 安装(记得安装Java虚拟机),

连接Spark

读取数据

列出所有的表

使用dplyr

画图 …

GitHub & BitBucket HTML 预览工具

一款很简单的HTML Preview小工具,用于预览GitHub & BitBucket的HTML源码,GitHub & BitBucket上有很多HTML源码,想预览效果还是比较麻烦的,这款开源的小软件很好地解决了问题,基本原理利用YQL加载HMTL,解析 links, frames, scripts and styles,

有兴趣的,也可以做自己的HTML Preview(支持二级域名)。

Docer 里安装RStudio Server

基于命令行模式安装(在天朝,有时候命令行模式可以安装,但Kitematic的方式反而无法安装),

基于Kitematic 方式安装, 安装后,默认端口是8787,浏览器的访问http://127.0.0.1:8787, 用户名:rstudio 密码:rstudio 如果想修改密码,请移步如何修改RStudio Server密码。

 

如何修改RStudio Server密码

RStudio Server 的默认用户名和密码都是rstudio,如果你想修改密码,请参照如下步骤, 1.打开工具菜单的Shell 在Shell下输入passwd,接下来按提示依次输入, 现在的密码:(Current) UNIX password,默认是rstudio 新密码:Enter new UNIX password) 重复新密码:retype new UNIX password) P.S. RStudio Server 是 RStudio 公司打造的一款基于 Web …

Windows下如何安装r2excel?

r2excel 是一个Excel文件的读、写、格式化R语言包,支持Excel 97~2003版本的文件格式(.xls)和Excel2007以后的格式(.xlsx)。 在mac OSX下安装很顺利,

Windows下则遇到了不小麻烦,

我的R是x64版本,

并且安装了64位 jdk1.8.0_74,没有安装32位jdk(或者jre),并且我并不想要32位的版本,研究很久,找到了解决办法,不做多架构编译,

  安装成功后,又遇到了问题,写比较大的文件时报错如下,

这要求我们在设置额外的java参数,

   

自动更新R Packages

其实就一句话,

多说一句,如果碰到某些包下载失败,建议换个镜像(repos)  

address 0x18, cause ‘memory not mapped’

可能是因为覆盖安装,或者升级导致的问题,建议解决办法,删除并重新安装,

 

奇怪的中文字符导致多个开源sas7bdat解析程序崩溃

最近在用开源软件解析sas7bdat时,经常碰到这样的错误(haven,readstat),

或者(parso),

  造成这样错误的sas7bdat由下面的代码生成,

继续尝试了sas7bdat.py,通过,

P.S. 刚刚Mac下测试了最新的haven通过,

  sas7bdat (R版本),可以解析,但不输出中文变量,而是用一组特殊字符(比如,X.bf..c2..c4..dd…fb..90)替代。

   

MySQL下group_concat函数的SAS实现

MySQL下的字符串聚合函数group_concat是一个非常实用的字符串合并函数, sas下的宏实现,

基本表结构如下, 按字母排序的变量和属性列表 # 变量 类型 长度 输出格式 输入格式 标签 2 brand 字符 40 $40. $40. brand 1 customer_id 字符 …

PostgreSQL下查找与去除重复数据

有时候难免会导入重复的数据(一行所有的列都重复),问题是如何找出来呢? 假设有表 tbl,结构如下,

如何判断是否存在id, href,title和image都重复的数据呢(这种情况一般发生在导入重复)?

如何判断是否存在重复href,title和image, 但id不同的数据呢(这种一般是OLTP的新增重复)?

接下来就是这样的数据如何只保留最早插入的数据,而删除后面重复插入的数据?

    reference, https://wiki.postgresql.org/wiki/Deleting_duplicates