如何查找PostgreSQL库所有表的行数

今天使用R批量导入Excel数据到PostgreSQL,总共25个excel,导完后被告知有2个excel是一模一样的,但我导入的时候没有记录表名和excel名直接的关系,如何查找是哪两个表重复了呢? 网上找到一段代码,可以获得指定库下所有表的行数,

结合我的表的前缀raw_2014_,轻松寻找到了2个行数一样的表,

 

使用python抓取高德地图城市信息

基于高德地图的API和Python的实现,

amap_dump.sql

 export2csv.sql

  基于这个API,可以做的事情很多,比如查某个区域的某个类别的店铺信息(我查过静安区的美甲店分布) 也可以从多个地图API查询相同信息,然后做交叉比对 代码在http://www.cnblogs.com/smarterplanet/p/4700375.html基础上做了修正,有兴趣的可以访问https://gist.github.com/alitrack/6b93032165c8d9687b84adc26a33ca70    

在R中使用代理

这里不介绍如何获得代理服务器,这里只说下如何在R下翻墙, 设置Proxy

查看 Proxy

测试

试试把internet.info设为0或者1会有怎么样的输出,如果是2呢?

试试quantmod

取消 Proxy

Apache Zeppelin-多语言多用途Notebook

Apache Zeppelin,A web-based notebook that enables interactive data analytics. You can make beautiful data-driven, interactive and collaborative documents with SQL, Scala and …

SparkR连接PostgreSQL数据库

成功安装了SparkR后,让我们来尝试下如何从PostgreSQL读取数据,

从代码可以看到,主要指定sparkPackages和read.jdbc命令,这段命令只要稍做修改,同样适用MySQL等支持JDBC连接的数据库。

最简便的SparkR安装方法

下载安装最新版本的R 下载安装Spark(这个你可以选择1.6.2或者2.0.0版本) 选装RStudio 在R下告诉Spark的路径

体验起来吧(以Spark 2.0.0为例)

好处 安装简便,快速 可以1.6.2和2.0.0共存,使用的时候只要设定不同的SPARK_HOME,就可以获得想要的版本 Linux,macOS,Windows通用

如何快速获得一个文件的类型和所使用的编码信息

前文iconv批量转换字符集编码的利器, 说到通过UltraEdit来得知CSV的编码是Unicode(对于小文件,Notepad也可以代劳),那么有什么更简便的办法获得文件的编码,甚至文件类型(Mime-type)呢? Linux下有个非常实用的file command, 现在我把它移植到Windows中来了。 下载地址:file-win32-5.28.zip 官网及源码下载:Fine Free File Command 使用方法非常简单,这里举例如下,

 

详细使用说明,

P.S. SimplMagic 是一个java实现版本,使用相同的Magic files。

iconv批量转换字符集编码的利器

前些天,一个客户提供了一个CSV文件,说导入MySQL失败,文件在2G左右,后来测试知道是Unicode(UTF-16LE)格式的缘故,用UltraEdit打开另存为UTF8格式,再次导入成功。不过对于这样大的文件,Ultraedit打开就颇为吃力了,如果文件再大的话就更困难了,于是想到可以使用另外一个利器来做字符集编码的转换,iconv。 网上有很多windows的编译版本,我这里提供的是利用mxe编译的静态win32版本, 下载地址:iconv-1.14-win32 iconv是一个计算机程序以及一套应用程序编程接口的名称。它的作用是在多种国际编码格式之间进行文本内码的转换。支持的内码包括: Unicode相关编码,如UTF-8、UTF-16等等 各国采用的ANSI编码,其中包括GB2312、BIG5等中文编码方式。 作为应用程序的iconv采用命令行界面,允许将某种特定编码的文件转换为另一种编码。 用法,

  例子, 文件infile从UTF-16LE编码转换至UTF-8编码并写入到文件outfile中:

  另外提供一个下载地址gettext-iconv-windows。  

DBeaver连接MS SQL Server MDF 数据库

依赖LocalDB,用R读取MS SQLServer 的MDF文件碰到了一个问题,有些字段类型被改变了,如果要保持字段类型,得事先知道每个字段的类型,并确定是否转换(as.is),今天尝试使用MS SQL Server Express和DBeaver来管理数据库。 安装并配置SSCM(SQL Server Configuration Manager), DBeaver上配置MS SQL Server连接, Attach 数据库,

Detach 数据库,

 

用R读取MS SQLServer 的MDF文件

今天客户发了两个文件enjoy_interface.ldf 和enjoy_interface.mdf,从后缀可以看出是微软的SQL Server数据库文件,可我系统上并没有安装SQL Server或者Express。网上搜索了一番,发现至少需要SqlLocalDB 找到SqlLocalDB.exe的目录,默认是: C:\Program Files\Microsoft SQL Server\120\Tools\Binn 命令行下运行

然后按图示创建DSN(注意选择SQL Server Native Client 11.0) 接下来就可以在R中使用我们创建的DSN了