数据科学家最常用的十种算法(KDnuggets官方调查)

导读

最新一期的 KDnuggets 调查展示了一份数据科学家使用度最高的算法列表,这份列表中包含了很多惊喜,包括最学术的算法和面向产业化的算法。

哪些方法/算法是您在过去 12 个月中运用到一个实际的数据科学相关的应用程序中的?

这是基于 844 个投票者的结果

排名前十的算法以及他们的投票者的比例分布如下:

图 1 :数据科学家使用度最高的 10 大算法

文末有全部算法的集合列表

每个受访者平均使用 8.1 个算法,这相比于 2011 的相似调查显示的结果有了巨大的增长

与 2011 年关于数据分析/数据挖掘的调查相比,我们注意到最常用的方法仍然是回归、聚类、决策树/Rules 和可视化。相对来说最大的增长是由 (pct2016 /pct2011 - 1) 测定的以下算法:

  • Boosting,从 2011 年的 23.5% 至 2016 年的 32.8%,同比增长 40%
  • 文本挖掘,从 2011 年的 27.7% 至 2016 年的 35.9%,同比增长 30%
  • 可视化,从 2011 年的 38.3% 至 2016 年的 48.7%,同比增长 27%
  • 时间序列/序列分析,从 2011 年的 29.6% 至 2016 年的 37.0%,同比增长 25%
  • 异常/偏差检测,从 2011 年的 16.4% 至 2016 年的 19.5%,同比增长 19%
  • 集成方法,从 2011 年的 28.3%至 2016 年的 33.6%,同比增长 19%
  • 支持向量机,从 2011 年的 28.6% 至 2016 年的 33.6%,同比增长 18%
  • 回归,从 2011 年的 57.9% 至 2016 年的 67.1%,同比增长 16%

最受欢迎算法在 2016 年的调查中有了新的上榜名单:

  • K-近邻,46%
  • 主成分分析,43%
  • 随机森林,38%
  • 优化,24%
  • 神经网络 - 深度学习,19%
  • 奇异值分解,16%

最大幅下降的有:

  • 关联规则,从 2011 年的 28.6% 至 2016 年的 15.3%,同比下降 47%
  • 隆起造型,从 2011 年的 4.8% 至 2016 年的 3.1%,同比下降 36%
  • 因素分析,从 2011 年的 18.6% 至 2016 年的 14.2%,同比下降 24%
  • 生存分析,从 2011 年的 9.3% 至 2016 年的 7.9%,同比下降 15%

下表显示了不同的算法类型的使用:监督算法、无监督算法、元算法,以及职业类型决定的对算法的使用。我们排除 NA(4.5%)和其他(3%)的职业类型。

职业类型

% 投票者比例

平均算法使用个数

% 监督算法使用度

% 无监督算法使用度

% 元使用度

%其他方法使用度

1

产业

59%

8.4

94%

81%

55%

83%

2

政府/非营利机构

4.10%

9.5

91%

89%

49%

89%

3

学生

16%

8.1

94%

76%

47%

77%

4

学术界

12%

7.2

95%

81%

44%

77%

5

整体

8.3

94%

82%

48%

81%

表 1:根据职业类型显示的不同算法使用度

我们注意到,几乎每个人都使用监督学习算法。

政府和产业业数据科学家比学生和学术研究人员使用更多不同类型的算法,而产业数据科学家们更倾向于使用元算法。

接下来,我们根据职业类型分析了前 10 名的算法+深度学习使用情况。

算法

产业

政府/非盈利机构

学术界

学生

整体

1

回归

71%

63%

51%

64%

67%

2

聚类

58%

63%

51%

58%

57%

3

决策

59%

63%

38%

57%

55%

4

可视化

55%

71%

28%

47%

49%

5

K-近邻法

46%

54%

48%

47%

46%

6

主成分分析

43%

57%

48%

40%

43%

7

统计

47%

49%

37%

36%

43%

8

随机森林

40%

40%

29%

36%

38%

9

时间序列

42%

54%

26%

24%

37%

10

文本挖掘

36%

40%

33%

38%

36%

11

深度学习

18%

9%

24%

19%

19%

表 2:根据职业类型分类的 10 大算法+深度学习使用情况

为了更明显的看到差异,我们计算了具体职业分类相比于平均算法使用度的一个算法偏差,即偏差(ALG,类型)=使用(ALG,类型)/使用(ALG,所有的)

图 2:职业对算法的使用偏好

我们注意到,产业数据科学家们更倾向于使用回归、可视化、统计、随机森林和时间序列。政府/非营利更倾向于使用可视化、主成分分析和时间序列。学术研究人员更倾向于使用主成分分析和深度学习。学生普遍使用更少的算法,但多为文本挖掘和深度学习。

接下来,我们看看某一具体地域的参与度,表示整体的 KDnuggets 的用户:

  • 美国/加拿大,40%
  • 欧洲,32%
  • 亚洲,18%
  • 拉丁美洲,5%
  • 非洲/中东,3.4%
  • 澳洲/新西兰,2.2%

由于在 2011 年的调查中,我们将产业/政府分在了一组,而将学术研究/学生分在了第二组,并计算了算法对于业界/政府的亲切度:

N(Alg,Ind_Gov) / N(Alg,Aca_Stu) ------------------------------- - 1 N(Ind_Gov) / N(Aca_Stu)

因此亲切度为 0 的算法表示它在产业/政府和学术研究人员或学生之间的使用情况对等。越高 IG 亲切度表示算法越被产业界普遍使用,反之越接近「学术」。

最「产业」的算法是:

  • 异常检测,1.61
  • 生存分析,1.39
  • 因子分析,0.83
  • 时间序列/序列,0.69
  • 关联规则,0.5

而 uplifting modeling 又是最「产业的算法」,令人惊讶的发现是,它的使用率极低 - 只有 3.1% - 是本次调查的算法中最低的。

最学术的算法是:

  • 常规神经网络,-0.35
  • 朴素贝叶斯,-0.35
  • 支持向量机,-0.24
  • 深度学习,-0.19
  • EM,-0.17

下图显示了所有的算法及其产业/学术亲切度。

图 3:KDnuggets 投票:最常被数据科学家使用的算法:产业界 VS 学术界

下表有关于算法的细节、两次调查中使用算法的比例、以及像上面解释的产业亲切度。

接下来的图表展示了算法的细节,按列

  • N:根据使用度排名
  • 算法:算法名称,
  • 类型:S - 监督,U - 无监督,M - 元,Z - 其他,
  • 在 2016 年调查中使用这种算法的调查者比例
  • 在 2011 年调查中使用这种算法的调查者比例
  • 变动(%2016 年/2011% - 1),
  • 产业亲切度(如上所述)

N

算法

类型

2016 年使用度 %

2011 年使用度 %

改变度 %

产业亲和度

1

回归

S

67%

58%

16%

0.21

2

聚类

U

57%

52%

8.70%

0.05

3

决策树/Rules

S

55%

60%

-7.30%

0.21

4

可视化

Z

49%

38%

27%

0.44

5

K-近邻法

S

46%

0.32

6

主成分分析

U

43%

0.02

7

统计

Z

43%

48%

-11%

1.39

8

随机森林

S

38%

0.22

9

时间序列/序列分析

Z

37%

30%

25%

0.69

10

文本挖掘

Z

36%

28%

29.80%

0.01

11

组合方法

M

34%

28%

18.90%

-0.17

12

支持向量机

S

34%

29%

17.60%

-0.24

13

Boosting

M

33%

23%

40%

0.24

14

常规神经网络

S

24%

27%

-10.50%

-0.35

15

最优化

Z

24%

0.07

16

朴素贝叶斯

S

24%

22%

8.90%

-0.02

17

Bagging

M

22%

20%

8.80%

0.02

18

偏差检测

Z

20%

16%

19%

1.61

19

神经网络-深度学习

S

19%

-0.35

20

奇异值分解

U

16%

0.29

21

关联规则

Z

15%

29%

-47%

0.5

22

图/连接/社会网络分析

Z

15%

14%

8%

-0.08

23

因素分析

U

14%

19%

-23.80%

0.14

24

贝叶斯网络

S

13%

-0.1

25

遗传算法

Z

8.80%

9.30%

-6%

0.83

26

生存分析

Z

7.90%

9.30%

-14.90%

-0.15

27

最大期望

U

6.60%

-0.19

28

其他方法

Z

4.60%

-0.06

29

Uplift modeling

S

3.10%

4.80%

-36.10%

2.01

表 3:KDnuggets 2016 调查:数据科学家使用的算法

END

投稿和反馈请发邮件至holly0801@163.com。转载大数据公众号文章,请向原文作者申请授权,否则产生的任何版权纠纷与大数据无关。

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2017-06-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

学界 | Ian Goodfellow和Papernot半年三篇博文,对机器学习的安全隐私来了个大起底

AI 科技评论按:随着人工智能研究的不断发展,由机器学习模型在背后提供支持的功能越来越多地开始商业化,最终用户的生活里机器学习能造成的影响也越来越大。这时候,机...

446120
来自专栏大数据文摘

KDnuggets调查|数据科学家最常用的10种算法

19540
来自专栏量子位

年度必看AI论文:生成式非对抗网络(停止对抗,用爱学习)

震惊!(本次使用已获UC震惊部授权) 就在昨天,人工智能领域一个开创性的成果出现了:关于生成对抗网络(GAN)的最新论文出炉。很多学者和业内人士,都用震惊二字描...

39740
来自专栏机器之心

NIPS 2017 | 清华大学人工智能创新团队在AI对抗性攻防竞赛中获得冠军

35190
来自专栏量化投资与机器学习

【精选】神经网络应用于算法交易

今天编辑部带来关于在基于金融时间序列的预测模型案例,我们将通过神经网络来增强一个经典的移动平均策略,并表明它真的是有所改善相对原策略。

315120
来自专栏AI科技评论

6512名学者聚首CVPR 2018,斯坦福伯克利获最佳论文奖,何恺明获青年研究奖

第 31 届计算机视觉和模式识别大会(Conference on Computer Vision and Pattern Recognition, CVPR)在...

11730
来自专栏大数据挖掘DT机器学习

4步教你开发风控评分模型

作者简介 作者:郑旻圻 邹钰 刘巧莉 背景:数信互融-数据分析师 数信互融(IFRE):专注于互联网金融领域的风险量化、资产定价。基于互联网金融行业数据,结合...

1.7K80
来自专栏量子位

杨强教授第四范式内部分享:漫谈《西部世界》、GAN及迁移学习

本文转载自第四范式公众号,量子位已获授权。 「范式大学」由第四范式发起,致力于成为“数据科学家”的黄埔军校,校长为第四范式首席科学家,华人界首个国际人工智能协会...

35950
来自专栏目标检测和深度学习

CVPR 2018视频行为识别挑战赛结果出炉:前三名均由国内团队包揽

Moment 是由 MIT-IBM Watson AI Lab 开发的研究项目。该项目致力于构建超大规模数据集来帮助 AI 系统识别和理解视频中的动作和事件。

18420
来自专栏ATYUN订阅号

2018 CVPR正式开幕,斯坦福大学和加州大学伯克利分校赢得最佳论文奖

2018年计算机视觉和模式识别会议(CVPR)在美国盐湖城开幕。CVPR组委会宣布了最佳论文和最佳学生论文。

12240

扫码关注云+社区

领取腾讯云代金券