PostgreSQL – AliTrack

November 10, 2016

alitrack PostgreSQL CentOS, flask, pgAdmin4, python

以Server的模式运行pgAdmin4

pgAdmin4 是随PostgreSQL9.6推出的新一代PostgreSQL管理工具。 pgAdmin4默认是以python的server端和qtwebkit的客户端的组合但桌面工具发布的，README中也说了可以以独立的Server模式运行，本文（以python2.7为例）就介绍下Ubunte（CentOS相差不多）下如何编译并以Server模式运行它。首先安装virtualenv虚拟环境 sudo pip install virtualenvwrapper virtualenv pgadmin4 cd pgadmin4/ source bin/activate 下载pgAdmin4的源代码包，两张模式 wget https://ftp.postgresql.org/pub/pgadmin3/pgadmin4/v1.1/source/pgadmin4-1.1.tar.gz tar xf pgadmin4-1.1.tar.gz cd pgadmin4-1.1/ 或者 git clone git://git.postgresql.org/git/pgadmin4.git cd pgadmin4 requirements_py2.txt有个小bug，fix先，安装前确保PostgreSQL 开发库已经安装，否则报pg_config未找到的错误，具体安装方法如下，…

October 13, 2016

alitrack PostgreSQL ETL, 数据去重

PostgreSQL下查找与去除重复数据

有时候难免会导入重复的数据（一行所有的列都重复），问题是如何找出来呢？假设有表 tbl，结构如下， CREATE TABLE tbl ( id serial, href text NULL, title text NULL, image text NULL ) WITH ( OIDS=FALSE ); 如何判断是否存在id, href，title和image都重复的数据呢(这种情况一般发生在导入重复）？ select * from ( SELECT…

October 8, 2016

alitrack PostgreSQL crosstab, pivot table, plpython, tablefunc, 交叉表, 行转列, 透视表

PostgreSQL与交叉表查询

PostgreSQL提供了一个tablefunc 模块，内置了多个函数，其中就有crosstab（交叉表，又叫行转列，或者长表转宽表），具体使用参见PostgreSQL文档（中文，英文）。如果不清楚生成的宽表有多少列，或者列太多，手工敲很容易吃力不讨好，那么可以借助这个函数（pivotcode）来简化工作， -- PL/pgSQL code to create pivot tables with automatic column names -- Eric Minikel, CureFFI.org - 2013-03-19 -- prerequisite: install the tablefunc module create extension tablefunc; --…

September 28, 2016

alitrack PostgreSQL FDW, 外部数据封装器

postgres_fdw-PostgreSQL外部数据封装器的使用

我的PostgreSQL数据库在Windows上，MADlib不支持，于是使用Docker部署了个Linux版本的PostgreSQL，并且安装了MADlib插件，利用postgres_fdw就可以方便分析Windows下的数据库进行分析了。 postgres_fdw模块提供外部数据封装器的功能，PostgreSQL通过它可以访问存储在外部的 PostgreSQL服务器上的数据。本模块提供的功能不但涵盖老版本中dblink模块实现的功能，而且postgres_fdw提供更加透明和符合标准的语法来访问远程表，并在许多情况下提供更好的性能。使用postgres_fdw模块做远程访问的准备: 使用CREATE EXTENSION语句安装postgres_fdw. CREATE EXTENSION if not exists postgres_fdw; 使用CREATE SERVER语句,为每个需要连接的远程数据库创建一个外部服务器对象。指定除了user和password 以外的连接信息作为服务器对象的选项。 CREATE SERVER foreign_server_99 FOREIGN DATA WRAPPER postgres_fdw OPTIONS (host…

September 27, 2016

alitrack PostgreSQL RECURSIVE, 递归

PostgreSQL-利用递归的方法获得一个数组的所有子数组

create or replace function subarrays(inarray anyarray) returns table (inarr anyarray) as $$ WITH RECURSIVE r AS ( SELECT inarray ar1 UNION ALL SELECT array_remove(ar1 ,sub) FROM ( SELECT ar1, unnest(ar1)…

September 27, 2016

alitrack PostgreSQL Apriori algorithm, association rule, MBA, 关联规则, 购物篮分析

PostgreSQL-关联规则的纯SQL实现

该SQL是基于Apriori算法的一个尝试(代码比较粗糙），并且只实现了一推一的情况，对照MadLib的结果做了验证，没有问题。 CREATE OR REPLACE FUNCTION assoc.rules() RETURNS void LANGUAGE plpgsql AS $function$ begin /* create view assoc.trans as select * from trans where purchase_date between '2015-08-01' and '2016-07-31'; */ create…

September 6, 2016

alitrack PostgreSQL csv2table, PostgreSQL, redshift

csv2table让PostgreSQL下导入csv不再那么麻烦

PostgreSQL下使用Copy命令导入csv，速度很快，但你得先分析CSV，创建表，有了csv2table，自动创建表并导入数据，一气呵成。 usage: csv2table --file FILE optional arguments: -h, --help show this help message and exit --file FILE, -f FILE csv file --copy, -y issue a copy statement, for import --backslash,…

Category: PostgreSQL