在此总结一些在数据分析/挖掘中可能用到的功能,方便大家索引或者从一种语言迁移到另一种。如果大家已经熟悉python和R的模块/包载入方式,那下面的表查找起来相对方便。python在下表中以模块的方式引用,部分模块并非原生模块,请使用
安装;同理,为了方便索引,R中也以::表示了函数以及函数所在包的名字,如果不含::表示为R的默认包中就有,如含::,请使用
安装。连接器与io数据库
IO类
统计类描述性统计
回归(包括统计和机器学习)
假设检验
时间序列
生存分析
机器学习类回归
参见统计类
分类器
LDA、QDA
SVM(支持向量机)
基于临近
贝叶斯
决策树
聚类
关联规则
神经网络
当然,theano模块值得一提,但本质theano包的设计并非在神经网络,所以不归于此类。
文本、NLP基本操作
主题模型
值得留意的是python的新第三方模块,spaCy
与其他分析/可视化/挖掘/报表工具的交互