目前数据科学和机器学习中使用的最多的20个包

CRAN包库有6778个常用的包。哪些是你知道的?下面对此进行以下的分析,同时在文章底部另请参见原始数据链接。

这些R包都是Kagglers里的技术大牛最青睐的,而且被很多写过相关文章的笔者所赞成的,而这些包的使用率或评价高低取决于其它的包对于这个包的依赖程度。它们也取决于来自Crantastic.org并使用其众包解决方案的用户。但是,这些用户评级太少以至于不能基于分析所决定。

从一月到五月,我们探讨一下通过分析CRAN的日均下载量来统计有多少关于机器学习的包被下载了。

1.e1071:潜类分析函数,短暂性的傅里叶变化、模糊的集群、支持向量机、最短路径计算、装袋集群、朴素贝叶斯分类器等(下载量:142470)。

2.rpart: 递归分割和回归树(下载量:135390)。

3.igraph: 网络分析工具的集合(下载量:122930)。

4.nnet: 前馈神经网络和多元对数线性模型(下载量:108298)。

5.randomForest:Breiman and Cutler’s的关于分类和回归的随机森林(下载量:105375)。

6.caret(简称分类和回归训练):一套试图简化创建预测模型的函数集(下载量:87151)。

7.kernlab: 基于内核的机器学习实验室(下载量:62064)。

8.glmnet: Lasso和弹性网正规化广义线性模型(下载量:56948)。

9.ROCR:可视评分分类的操作(下载量:51323)。

10.gbm: 产生改良的回归模型(下载量:44670)。

11.party: 一个递归分割实验室(下载量:43290)。

12.arules: 关联规则挖掘和频繁项集(下载量:39654)。

13.tree:分类和回归树(下载量:27882)。

14.klaR: 分类和可视化操作(下载量:27828)。

15.Rweka: 关于R或Weka的接口(下载量:26973)。

16.ipred: 改良的预测变量(下载量:22358)

17.lars: 最小回归角、Lasso和逐步回归分析阶段(下载量:19691)。

18.earth: 多元自适应回归样条分析。(下载量:15901)。

19.CORElearn: 分类、回归、功能评估和有序评估(下载量:13856)。

20.mboost: 基于模型的Booting(下载量:13078)。

你会发现记住这些越来越受人追捧的开源R工具如Rattle,R的一种图形用户界面的数据挖掘工具(下载量:35539),以及fastcluster,R和Python(下载量:14214)的快速的分级聚类程序。

我们还会怀念我们过去所最喜爱的R包吗?给这个空间一个赞,以及让我们知道你在使用什么R包来给这个社区点赞。

为了使文章变得更完整,这里有数据关于2015年1月到2015年5月的135个R包下载量。

原文链接:http://www.kdnuggets.com/2015/06/top-20-r-machine-learning-packages.html

何品言译 陆勤审核 PPV课原创翻译文章,转载请注明出处!

1、回复“数据分析师”查看数据分析师系列文章

2、回复“案例”查看大数据案例系列文章

3、回复“征信”查看相关征信的系列文章

4、回复“可视化”查看可视化专题系列文章

5、回复“SPPS”查看SPSS系列文章

6、回复“答案”查看hadoop面试题题目及答案

7、回复“爱情”查看大数据与爱情的故事

8、回复“笑话”查看大数据系列笑话

9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-10-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

如何把各类难题变得数据可解?Get与数据科学家聊天的正确姿势

974
来自专栏IT派

我的深度学习工作站

很多人觉得深度学习上手非常困难,让我们看看,对于程序员来说,着手深度学习的实践需要准备什么样的工具。 ? 硬件 从硬件来讲,我们可能需要的计算能力,首先想到的...

4259
来自专栏专知

看论文头疼吗?这里有一份学术论文阅读指南请查收~

【导读】对于从事学术研究的人来说,跟进最新的论文是必备的科研素质之一。但面对海量的论文更新,应该如何快速又有效地阅读论文,吸收其精华? KyleM Shanno...

1450
来自专栏磐创AI技术团队的专栏

热点 | 四月最佳Github项目库与最有趣Reddit热点讨论(文末免费送百G数据集)

1272
来自专栏CVer

说两件事

虽然最近半个月CVer 依然保持每日推文,但原创的文章越来越少了。Amusi觉得一个公众号最基本的原则是输出优质内容,其次是保持原创。原创很重要,Amusi也很...

1693
来自专栏机器之心

人工智能与自然语言处理概述:AI三大阶段、NLP关键应用领域

选自xenonstack 机器之心编译 参与:黄小天、李亚洲 近日,Xenonstack 上推出了一篇名为《Overview of Artificial In...

4678
来自专栏数据科学与人工智能

机器学习最佳入门学习资料汇总

专为机器学习初学者推荐的优质学习资源,帮助初学者快速入门。 这篇文章的确很难写,因为我希望它真正地对初学者有帮助。面前放着一张空白的纸,我坐下来问自己一个难题:...

2385
来自专栏IT派

深度学习在安全方面的影响日益增长

导语:深度学习因为其积极影响成为了2017年最流行的流行语之一。深度学习(更准确地应该被称为深层神经网络)试图模拟大脑的活动。自20世纪50年代末以来,神经网络...

3598
来自专栏PPV课数据科学社区

机器学习项目中常见的误区

在最近的一次报告中,Ben Hamner向我们介绍了他和他的同事在Kaggle比赛中看到的一些机器学习项目的常见误区。 这个报告于2014年2月在Strate举...

3406
来自专栏机器学习算法与Python学习

看论文头疼吗?这里有一份学术论文阅读指南请查收!

对于从事学术研究的人来说,跟进最新的论文是必备的科研素质之一。但面对海量的论文更新,应该如何快速又有效地阅读论文,吸收其精华? KyleM Shannon 为我...

2150

扫码关注云+社区

领取腾讯云代金券