最新出炉——数据科学家最常使用的十大算法

导读:本文来自于KDnuggets所做的十大算法调查,对于数据工程师常用的算法进行排名,并对其在2011-2016年间的变化进行介绍。

基于调查,KDnuggets总结出了数据科学家最常使用的十大算法,它们分别是:

1. Regression 回归算法 2. Clustering 聚类算法 3. Decision Trees/Rules 决策树 4. Visualization 可视化 5. k-Nearest Neighbor 邻近算法 6. PCA (Principal Component Analysis) 主成分分析算法 7. Statistics 统计算法 8. Random Forests 随机森林算法 9. Time series/Sequence 时间序列 10. Text Mining 文本挖掘

其中,受访者表示平均使用了8.1个算法,相比2011年类似的调查大幅提高了。

与2011年的类似调查对比我们发现最流行的算法还是回归算法、聚类算法、决策树和可视化。相对来说最大的增长是由 (pct2016 /pct2011 - 1) 测定的以下算法:

  • Boosting,从 2011 年的 23.5% 至 2016 年的 32.8%,同比增长 40%
  • 文本挖掘,从 2011 年的 27.7% 至 2016 年的 35.9%,同比增长 30%
  • 可视化,从 2011 年的 38.3% 至 2016 年的 48.7%,同比增长 27%
  • 时间序列,从 2011 年的 29.6% 至 2016 年的 37.0%,同比增长 25%
  • 异常/偏差检测,从 2011 年的 16.4% 至 2016 年的 19.5%,同比增长 19%
  • 集成方法,从 2011 年的 28.3%至 2016 年的 33.6%,同比增长 19%
  • 支持向量机,从 2011 年的 28.6% 至 2016 年的 33.6%,同比增长 18%
  • 回归算法,从 2011 年的 57.9% 至 2016 年的 67.1%,同比增长 16%

另外,2016年最流行的新算法分别是:

  • K-近邻,46%
  • 主成分分析,43%
  • 随机森林算法,38%
  • 优化,24%
  • 神经网络 - 深度学习,19%
  • 奇异值分解,16%

下降最多的分别是:

  • 关联规则,从 2011 年的 28.6% 至 2016 年的 15.3%,同比下降 47%
  • 增量模型,从 2011 年的 4.8% 至 2016 年的 3.1%,同比下降 36%
  • 因素分析,从 2011 年的 18.6% 至 2016 年的 14.2%,同比下降 24%
  • 生存分析,从 2011 年的 9.3% 至 2016 年的 7.9%,同比下降 15%

不同领域使用的算法比例

我们注意到几乎所有人都在使用监督学习算法。

政府和工业界数据科学家比学生或者学术研究院使用更多不同的算法,而且工业界数据科学家更倾向于使用元算法。

下面,我们继续通过雇员的类型来分析最流行的10个算法和深度学习。

为了让这些差异更容易观看,我们针对特定雇员类型相关的平均算法使用量设计了一个算法。

Bias(Alg,Type)=Usage(Alg,Type)/Usage(Alg,All) - 1.

我们注意到:

  • 工业界数据科学家更倾向于使用回归算法、可视化、统计算法、随机森林算法以及时间序列
  • 政府/非盈利组织更倾向于使用可视化、主成分分析算以及时间序列
  • 学术界研究人员更倾向于使用主成分分析算法和深度学习
  • 学生一般使用的算法较少,但是它们会做更多的文本挖掘以及深度学习

另外,参与投票的读者主要来自于

  • 美国/加拿大, 40%
  • 欧洲, 32%
  • 亚洲, 18%
  • 拉丁美洲, 5.0%
  • 非洲/中东, 3.4%
  • 澳大利亚/新西兰, 2.2%

在 2011 年的调查中,我们将产业/政府分在了同一组,将学术研究人员/学生分在了第二组,另外通过算法对于业界/政府的“亲切度”进行了计算:

N(Alg,Ind_Gov) / N(Alg,Aca_Stu) ------------------------------- - 1 N(Ind_Gov) / N(Aca_Stu)

亲切度为 0 的算法表示其在产业/政府和学术研究人员/学生之间的使用情况对等。IG亲切度越高表示该算法越被产业界普遍使用,反之越“学术”。

其中,最“产业”的算法是:

  • 增量模型Uplift modeling,2.01
  • 异常检测Anomaly Detection,1.61
  • 生存分析Survival Analysis,1.39
  • 因子分析Factor Analysis,0.83
  • 时间序列Time series/Sequences,0.69
  • 关联规则Association Rules,0.5

其中增量模型Uplift modeling又一次成了最“产业”的算法,但是令人惊讶的是其使用率确很低—只有3.1%,几乎是这次调查中使用率最低的算法。

最“学术”的算法是:

  • 神经网络Neural networks - regular, -0.35
  • 朴素贝叶斯Naive Bayes, -0.35
  • 支持向量机SVM, -0.24
  • 深度学习Deep Learning, -0.19
  • EM, -0.17

下图是所有算法以及它们在产业界/学术界的亲切度:

数据科学家最常使用的算法 工业界 vs 学术界

2016数据科学家使用的算法调查汇总

汇总表格中各项含义分别是:

  • N:根据使用度排名
  • Algorithm:算法名称,
  • 类型:S - 监督,U - 无监督,M - 元,Z - 其他,
  • %指代调查中使用这种算法的调查者比例
  • Change—变动(%2016 年/2011% - 1),
  • Industry Affinity—产业亲切度(前文中提到)

via KDnuggets

题图来子Data Scientists at Work

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-09-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Python中文社区

回归树的原理及Python实现

提到回归树,相信大家应该都不会觉得陌生(不陌生你点进来干嘛[捂脸]),大名鼎鼎的 GBDT 算法就是用回归树组合而成的。本文就回归树的基本原理进行讲解,并手把手...

762
来自专栏大数据挖掘DT机器学习

4步教你开发风控评分模型

作者简介 作者:郑旻圻 邹钰 刘巧莉 背景:数信互融-数据分析师 数信互融(IFRE):专注于互联网金融领域的风险量化、资产定价。基于互联网金融行业数据,结合...

1K8
来自专栏大数据文摘

KDnuggets调查|数据科学家最常用的10种算法

1634
来自专栏新智元

薛定谔的佛与深度学习中的因果

作者:王庆法,中国东信CTO 【新智元导读】最近流行佛系XXX,殊不知深度学习里也有佛。本文是继《薛定谔的滚与深度学习中的物理》一文后,笔者又一心力之作。从神秘...

3435
来自专栏量子位

年度必看AI论文:生成式非对抗网络(停止对抗,用爱学习)

震惊!(本次使用已获UC震惊部授权) 就在昨天,人工智能领域一个开创性的成果出现了:关于生成对抗网络(GAN)的最新论文出炉。很多学者和业内人士,都用震惊二字描...

3484
来自专栏全栈数据化营销

分析模型案例解析:决策树分析法 —决策常用的分析工具

没有模型很难做好分析,希望记住这句话。 1. 概念含义 1.1.基本概念 决策树分析法又称概率分析决策方法,是指将构成决策方案的有关因素,以树状图形的方式表现出...

1.3K5
来自专栏AI科技评论

学界 | Ian Goodfellow和Papernot半年三篇博文,对机器学习的安全隐私来了个大起底

AI 科技评论按:随着人工智能研究的不断发展,由机器学习模型在背后提供支持的功能越来越多地开始商业化,最终用户的生活里机器学习能造成的影响也越来越大。这时候,机...

36312
来自专栏FreeBuf

如何构建一个反电信网络诈骗基础模型

网络诈骗,电信诈骗层出不穷,花样翻新,防不胜防,伤害普通百姓利益。本文通过对目前社会上关于网络电信诈骗新闻进行提取,从中分析当前网络诈骗发展趋势和关键因素,进而...

1946
来自专栏钱塘大数据

17张思维导图,一网打尽机器学习统计基础

作者:大数据文摘 本文用一系列「思维导图」由浅入深的总结了「统计学」领域的基础知识,是对之前系列文章做的一次完整的梳理,也是我至今为止所有与统计有关的学习笔记。...

3789
来自专栏AI科技评论

问答系统冠军之路:用CNN做问答任务的QANet

AI 科技评论按:当前,整个人工智能领域对自然语言处理技术的热情可谓空前高涨。一方面,这是由于借着深度学习的东风,计算机在各种自然语言处理任务中的表现有了突飞猛...

2212

扫码关注云+社区