2018年数据科学语言&工具排名,Python完胜R语言

近日,著名数据科学网站 KDnuggets 发布了 2018 年数据科学和机器学习工具调查结果。超过 2000 人对自己「过去 12 个月内在项目开发中使用过的数据挖掘/机器学习工具和编程语言」进行了投票。

近日,著名数据科学网站 KDnuggets 发布了 2018 年数据科学和机器学习工具调查结果。超过 2000 人对自己「过去 12 个月内在项目开发中使用过的数据挖掘/机器学习工具和编程语言」进行了投票。该统计还对过去三年来的排名进行了对比分析。此外,机器之心在文末发起了一个投票,快选出你心中最美的深度学习框架吧。

这份投票结果既有预料之内,也有预料之外的部分。数据显示,Python 作为机器学习常用的编程语言正在不断扩大领先优势,R 语言的使用率第一次降到了 50% 以下。在深度学习框架上,最近呼声很高的深度学习框架 PyTorch 仅仅占据了 6.4% 的使用率,远远落后于 TensorFlow 的 29.9% 和 Keras 的 22.2%。

Python 继续侵蚀着 R 的用户领域,RapidMiner 热门度增加,SQL 保持稳定,TensorFlow 和 Keras 引领前进,Hadoop 衰落,数据科学平台整合等等。

第 19 次年度 KDnuggets 软件调查有超过 2300 人参与投票,略微少于 2017 年,可能是因为仅有一个供应商 RapidMiner 积极地参与 KDnuggests 调查的投票。平均来说,每个参与者选择 7 个使用过的不同工具,因此仅投票一个工具会带来偏差。KDnuggets 排除了大约 260 个这样的「独好」投票(主要来自 RapidMiner),因为即使他们代表了该工具的合法用户,他们的行为也是非典型的,并且会歪曲结果。

以下是基于 2052 个参与者的初始结果分析,其中「独好」投票者已被排除。更多详细分析和匿名数据将在大约两周内公布。

最受欢迎的分析、数据科学、机器学习工具

图 1:KDnuggests 分析/数据科学 2018 年软件调查:2018 年最受欢迎工具,以及它们相对于 2016-2017 年的排名变化。(为了更有效的比较,KDnuggests 排除了「独好」投票者并重新计算了 2016 年、2017 年的调查结果。)

上图显示了排名前 11 的工具,每个工具的使用率至少为 20%。

表 1:KDnuggests 2018 年软件调查最受欢迎的分析/数据科学/机器学习软件

在这里,「2018 % share」一栏是指使用该工具的用户百分比,「% change」是指和 2017 年软件调查相比的变化比例,绿色和红色标记表示比例的变化幅度达到了 10% 或更多。

每个投票人的平均使用工具数量是 7 个,略微高于 2017 年调查的 6.75 个(也排除了「独好」投票人)。

和 2017 年的软件调查相比,进入前 11 名的新工具是 Keras。Knime 从第 11 名下跌,可能是因为今年他们并没有积极调动其用户参与投票。

以下是一些观察结果。

Python 正在吞噬 R 的用户领域

2017 年 Python 的使用率超过 50%,今年它的使用率上升至 66%,而 R 的使用率首次下跌,跌破 50%。

RapidMiner

在之前的几次问卷中,RapidMiner 这一顶级数据科学平台正快速传播,它的用户使用率由 2017 年的 33% 增长到了今年的 52.7%。根据 RapidMiner 的创始人和董事长 Ingo Mierswa,他们采取了一些措施鼓励用户参与该调查。

对于 KDnuggets 的问卷调查,Ingo Mierswa 说:「近两年我们都向用户发送邮件推广该问卷调查,但今年有超过 400 多位用户回邮件表示很高兴能帮助 RapidMiner 的传播。而且今年 RapidMiner 月度活跃用户增长率超出去年 300%,因此我们向更多用户发送了关于 KDnuggets 问卷调查的邮件。我很高兴看到如此活跃的社区。」

SQL 保持稳定

作为数据管理系统的程序语言,SQL(包括 Spark SQL 和 SQL to Hadoop 工具)继续保持着约 40% 的使用率,和之前 3 次调查结果一样。因此,如果你是一位有雄心壮志的数据科学家,学习 SQL 吧,它在很长一段时间里都会很有用!

趋势

该调查唯一使用率超过 2% 的新工具是 Spark SQL,使用率达到 11.7%。下表列举了使用率增幅达到 20% 及以上、2018 年使用率为 3% 以上的工具。

表 2:使用率增幅最大的主要分析/数据科学/机器学习工具。

整合

2017 年使用率达到 2% 及以上的 56 个工具中,有 19 个(仅 1/3)工具在 2018 年使用率有所上升,其余 37 个均下降。这和近期的收购案(Datawatch 收购 Angoss、Minitab 收购 Salford)一道表明数据科学平台的整合正在进行过程中。

2017 年使用率至少 3% 的工具,今年下降了 25% 甚至更多,详见下表。

表 3:使用率跌幅最大的主要分析/数据科学工具。

深度学习工具

近两年,该调查中使用深度学习工具的投票者所占份额保持稳定。2018 年有 33% 的投票者使用深度学习工具,2017 年和 2016 年分别有 32% 和 18%。谷歌维护的 TensorFlow 仍然占主导地位,而发展迅速的 Keras 可作为构建在 TensorFlow 和 MXNet 等框架上的高级 API。

另一方面,主要由 Facebook 推动,推出已过一年的 PyTorch 吸引了一批研究者和工程人员,使用率达到 6.4%,排名第三。由于这款深度学习框架已和 Caffe2 合并,在未来我们肯定将会看到 PyTorch 占据更大的份额。

不过 KDnuggets 更关注数据科学,也更常使用浅层的机器学习算法。我们可能更希望了解机器学习及深度学习社区在框架上的选择,因此读者可以在文末对常用的深度学习框架进行投票。

深度学习工具排名:

Tensorflow, 29.9%

Keras, 22.2%

PyTorch, 6.4%

Theano, 4.9%

Other Deep Learning Tools, 4.9%

DeepLearning4J, 3.4%

Microsoft Cognitive Toolkit (Prev. CNTK), 3.0%

Apache MXnet, 1.5%

Caffe, 1.5%

Caffe2, 1.2%

TFLearn, 1.1%

Torch, 1.0%

Lasagne, 0.3%

大数据工具:Hadoop 使用率下降

2018 年,大约 33% 的用户使用大数据工具,要么是 Hadoop,要么是 Spark,和 2017 年一样。但 Hadoop 的使用率显著下降,跌幅超过 30%。

以下是相关细节:

编程语言

Python 似乎不仅正在取代 R,还包括除了 SQL、Java、C/C++ 之外的大多数其它语言,这三者与 Python 大致处于同一个级别。自 KDnuggets 开始做这项调查以来,R 使用率首次出现下跌。其它语言也出现了衰落的趋势。

以下是按热门度排序的主要编程语言:

Python, 65.6% (was 59.0% in 2017), 11% up

R, 48.5% (was 56.6%), 14% down

SQL, 39.6% (was 39.2%), 1% up

Java, 15.1% (was 15.5%), 3% down

Unix, shell/awk/gawk, 9.2% (was 10.8%), 15% down

Other programming and data languages, 6.9%, (was 7.6%), -9% down

C/C++, 6.8%, (was 7.1%), 3% down

Scala, 5.9%, (was 8.3%), 29% down

Perl, 1.0% (was 1.9%), 46% down

Julia, 0.7% (was 1.2%), 45% down

Lisp, 0.3% (was 0.4%), -25% down

Clojure, 0.2% (was 0.3%), -38% down

F, # 0.1% (was 0.5%), -73% down

地区参与度

本次调查中不同地区的参与比例是:

欧洲,37.5%

美国/加拿大,36.6%

亚洲,11.7%

拉丁美洲,6.6%

非洲/中东,4.5%

澳大利亚/新西兰,3.1%

和 2017 年相比,主要的变化是欧洲的参与比例变高了(之前为 35.5%),而美国/加拿大的参与比例变低了(之前为 41.5%)。

完整结果和 3 年来的趋势

以下表格展示了调查结果的细节(由于篇幅限制,此处仅列出排名前 12 的工具):

出处:机器之心 原文:https://http://baijiahao.baidu.com/s?id=1601246218040940425&wfr=spider&for=pc

本文分享自微信公众号 - CU技术社区(ChinaUnix2013)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-06-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏王的机器

小孩都看得懂的循环神经网络

神经网络其实就是一堆参数,我们用矩阵来表示这些参数好不好?具体公式见下图,大家来用矩阵乘以向量来验证一下上面两组联系。

8020
来自专栏算法channel

从概率统计到深度学习,四大技术路线图谱,都在这里!

自然语言处理很多时候都是一门综合性的学问,它远远不止机器学习算法。相比图像或语音,文本的变化更加复杂,例如从预处理来看,NLP 就要求我们根据对数据的理解定制一...

11540
来自专栏小小挖掘机

推荐收藏 | 如何在实际中计划和执行一个机器学习和深度学习项目

做研究打比赛和真正的做一个机器学习和深度项目是不一样的,如果你有这方面的困惑的话,可以看看这篇文章。

9320
来自专栏腾讯大数据的专栏

腾讯大数据星火计划--Angel技术沙龙 对外报名正式启动!

导语:腾讯大数据举办星火计划技术沙龙为广大大数据爱好者提供线下交流活动机会,技术沙龙第一期将于10月13日在深圳腾讯大厦举办,为您揭秘海量机器学习之道与Ang...

6020
来自专栏机器学习算法与Python学习

你跳宅舞的样子很专业:不,这都是AI合成的结果

想展示自己的完美舞姿吗?你现在只需要一段别人跳舞的视频,和自己的一张照片。最近,来自上海科技大学和腾讯 AI Lab 的新研究着实让很多人跃跃欲试。

10640
来自专栏算法channel

80页机器学习笔记,帮你少走弯路!

本文要介绍的是一份长约 80 页的学习笔记,旨在总结机器学习的一系列基本概念(如梯度下降、反向传播等),不同的机器学习算法和流行模型,以及一些作者在实践中学到的...

7930
来自专栏机器之心

用光点亮黑箱:微软开源可解释机器学习框架InterpretML

微软在可解释机器学习项目 InterpretML 的 GitHub 页面上这样写到。很显然,他们相信 InterpretML 会是打开机器学习黑箱的钥匙。

12930
来自专栏算法channel

单词拼写纠正器,python实现V2.0

这是我在2017年12月份写的一篇原创文章,那是关注的用户数只有不到1000人,所以这篇文章应该很多读者都未看到。在原来基础上,优化代码显示和源代码的1个bug...

12940
来自专栏腾讯技术工程官方号的专栏

腾讯大数据星火计划--Angel技术沙龙 对外报名正式启动!

? 导语:腾讯大数据举办星火计划技术沙龙为广大大数据爱好者提供线下交流活动机会,技术沙龙第一期将于10月13日在深圳腾讯大厦举办,为您揭秘海量机器学习之道与A...

14650
来自专栏AI科技大本营的专栏

微众银行AI团队开源联邦学习框架,并发布《联邦学习白皮书1.0》

【导语】2019年,联邦学习成为业界技术研究与应用的焦点。近日,微众银行 AI 项目组编制并发布了《联邦学习白皮书1.0》,并开源了自研的联邦学习框架。白皮书中...

48730

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励