Currently browsing tag

MBA

如何用R与PostgreSQL进行数据挖掘之关联规则

前面用PostgreSQL 函数实现了一个简易版的关联规则算法,今天尝试下R语言的关联规则包“arules”中的apriori算法。 连接数据库并读取数据

安装并加载arules包

转data.frame为transaction

分析(设定support,confidence等规则)

对结果进行分析,或存入数据库

PostgreSQL-关联规则的纯SQL实现

该SQL是基于Apriori算法的一个尝试(代码比较粗糙),并且只实现了一推一的情况,对照MadLib的结果做了验证,没有问题。

关于transaction数据的准备,customer_id 可以是order_id(购物篮), 也可以基于customer_id, brand可以是品牌,产品,品类中的一种,或者品类和品牌的组合(如果需要的话,比如category||’~’||brand)。 结果,可以根据需要对confidence, support和lift进行筛选。 Todo,后续可能会依据PostgreSQL的Array来把所有可能的子集都查出来,然后生成完整的关联规则。