MADlib

Apache MADlib,使用SQL进行大数据机器学习

MADlib 是伯克利大学的一个开源软件项目,它提供了精确的数据并行实现、统计和机器学习方法对结构化和非结构化数据进行分析,主要目的是扩展数据库的分析能力,可以非常方便的加载到数据库中, 扩展数据库的分析功能,2015年7月MADlib成为Apache软件基金会的孵化项目,其最新版本为MADlib1.9,支持PostgreSQL、Greenplum数据库和Apache HAWQ。
MADlib
  • Data Types and Transformations(数据类型转换)
    • Arrays and Matrices(数组与矩阵)
      •  Array Operations(数组运算)
      •  Matrix Operations(矩阵运算)
      • Matrix Factorization(低矩阵分解)
        •  Low-rank Matrix Factorization(低阶矩阵分解)
        •  Singular Value Decomposition(SVD,奇异值分解)
      •  Norms and Distance functions(规范和距离函数)
      •  Sparse Vectors(稀疏向量)
    • Dimensionality Reduction(降维)
      •  Principal Component Analysis(PCA主成分分析)
      •  Principal Component Projection(PCP主成分投影)
    •  Encoding Categorical Variables(编码分类变量)
    •  Stemming(切词)
  • Model Evaluation(模型评估)
    •  Cross Validation(交叉验证)
  • Statistics(统计)
    • Descriptive Statistics(描述性统计)
      •  Pearson’s Correlation(皮尔斯相关性)
      •  Summary(摘要汇总)
    • Inferential Statistics(推断性统计)
      •  Hypothesis Tests(假设检验)
    •  Probability Functions(概率函数)
  • Supervised Learning(监督学习算法)
    •  Conditional Random Field(条件随机场)
    • Regression Models(回归模型)
      •  Clustered Variance(聚类方差)
      •  Cox-Proportional Hazards Regression(Cox比率风险回归模型)
      •  Elastic Net Regularization(Elastic Net 回归)
      •  Generalized Linear Models
      •  Linear Regression(线性回归)
      •  Logistic Regression(逻辑回归)
      •  Marginal Effects(边际效应)
      •  Multinomial Regression(多项式回归)
      •  Ordinal Regression(有序回归)
      •  Robust Variance(鲁棒方差)
    •  Support Vector Machines(SVM,支持向量机)
    • Tree Methods(树模型)
      •  Decision Tree(决策树)
      •  Random Forest(随机森林)
  • Time Series Analysis(时间序列分析)
    •  ARIMA(自回归积分滑动平均模型)
  • Unsupervised Learning(无监督学习)
    • Association Rules(关联规则)
      •  Apriori Algorithm(Apriori算法)
    • Clustering(聚类)
      •  k-Means Clustering(k-Means)
    • Topic Modelling(主题模型)
      •  Latent Dirichlet Allocation(LDA)
  • Utility Functions(效用函数)
    •  Developer Database Functions(开发者数据库函数)
    • Linear Solvers(线性求解器)
      •  Dense Linear Systems(稠密线性系统)
      •  Sparse Linear Systems(稀疏线性系统)
    •  Path Functions(路径函数)
    •  PMML Export(PMML输出)
    • Text Analysis(文本分析)
      •  Term Frequency(词频,TF)
  • Early Stage Development(早期开发)
    • Cardinality Estimators(基数估计)
    •  Conjugate Gradient(共轭梯度)
    •  Naive Bayes Classification(NB分类,朴素贝叶斯分类)
    •  Random Sampling(随机抽样)
    •  Support Vector Machines(SVM,支持向量机)
  • Deprecated Modules(已废弃模块)
    •  Decision Tree (old C4.5 implementation)(决策树,基于老的C4.5实现)
    •  Matrix Factorization(矩阵分解)
    •  Multinomial Logistic Regression(多态逻辑回归)
    •  Profile(画像)
    •  Quantile(分位数)
    •  Random Forest (old implementation)(随机森林,旧实现)