Tag:ETL

ETL时遇到的坑之一

今天客户给的数据压缩包,先是在mac OSX上解压碰到乱码问题(已解决)(家中预览),然后发现一系列问题, 所有的数据开始都有等号(=) 部分数据结尾存在多余的逗号(,) 订单表字段不统一(部分文件缺少末尾字段,这也许是和上个问题有关系) 部分文件名命名错误,把订单明细命名成了订单 解决办法,使用sed批量去除头尾多余的字符(写了个简单的Windows批处理文件),并把订单和订单明细分到不同目录(原来有超过10个目录) @echo off @rem replace first md detail md order for /r %%i in (*宝贝*.csv) do @sed "s/^=//g" %%i |sed "s/,$//g">detail\%%~ni.txt for /r %%i…

Read More

DBeaver连接MS SQL Server MDF 数据库

依赖LocalDB,用R读取MS SQLServer 的MDF文件碰到了一个问题,有些字段类型被改变了,如果要保持字段类型,得事先知道每个字段的类型,并确定是否转换(as.is),今天尝试使用MS SQL Server Express和DBeaver来管理数据库。 安装并配置SSCM(SQL Server Configuration Manager), DBeaver上配置MS SQL Server连接, Attach 数据库, CREATE DATABASE enjoy ON (FILENAME = 'E:\tmp\enjoy_interface.mdf'), (FILENAME = 'E:\tmp\enjoy_interface.ldf') FOR ATTACH; Detach 数据库, EXEC…

Read More

ReadStat: 免费 SAS, Stata, SPSS,RData,CSV之间互转工具

ReadStat是一款开源,跨平台的多格式数据互转工具(命令行程序),支持格式如下, SAS: SAS7BDAT and SAS7BCAT(读,写) Stata: DTA(读,写) SPSS: POR and SAV(读,写) R:rdata and RDS(读,写) CSV(写) XLSX(写) 下面是我在Macbook Pro下使用MXE编译的,偷懒,没有集成librdata和libxlsxwriter,欢迎下载试用(内存和CPU耗用非常小,速度还不错)。 readstat Windows64位版本 readstat win32版本 P.S. 尝试将一个5G的sas7bdat文件转为csv,32位的耗时更小,原因尚不清楚。

Read More

使用R将Excel导入到PostgreSQL

R读取Excel的方法有很多,这个我将另外一篇来详细介绍,经过一翻实验,最喜欢的还是readxl, 它同时支持XLS和XLSX格式。 对于这段代码,需要注意的地方是,如果excel是中文,不执行 postgresqlpqExec(con, "SET client_encoding = 'GBK'") Windows下,数据库保存的将是乱码,macOS下不存在这个问题,Linux下没有测试。 而 c("my_schema","my_table") 的含义是指定schema和表名,如果是public,可以只给表名就可以了。 https://gist.github.com/alitrack/931e0eb83d06f12e86ea803549086ca0#file-xlsx2psql-r

Read More