2017年顶级数据科学与机器学习方法排名

根据统计,目前受访者选择的最常用方法包括回归、聚类、可视化、决策树/规则以及随机森林; 只有20%的受访者使用深度学习方法; 我们同时对各种方法在“行业”与“学术”层面的普及度进行了汇总。

本次调查的问题非常简单:

您在过去十二个月中曾在实际应用当中选择哪些数据科学/机器学习方法与工具?

根据732名受访者提供的结果,得出以下论断:

2017年应用范围最广的十大数据科学与机器学习方法

本次调查的受访者平均使用7.7种工具/方法。

接下来,我们比较了今年调查当中使用范围最广的前16种方法,并将其与去年的结果进行了比对,如下图。

2017年与2016年前16大数据科学/机器学习方法比对

我们注意到,随机森林、可视化与深度学习的使用比例显著增加,而K-nn、PCA以及Boosting则有所下降。梯度推进机今年则首次上榜。

尽管取得了令人瞩目的成功,但根据此次调查,仅有20%的受访者实际使用深度学习方法。

与去年相比,今年增长幅度最大的工具/方法包括:

贝叶斯方法,增长49%,由2016年的11.7%增长至2017年的17.5%。

随机森林,增长32%,由2016年的35.1%增长至2017年的46.2%。

深度学习,增长20%,由2016年的17.2%增长至2017年的20.6%。

生存分析,增长13.5%,由2016年的7.5%增长至2017年的8.5%。

可视化,增长9%,由2016年的46.7%增长至2017年的51.0%。

2017年的榜单还迎来一众全新方法,具体包括:

梯度推进机, 20.4%

卷积网络, 15.8%

递归神经网络(简称RNN), 10.5%

隐马尔可夫模型 (简称HMM), 4.6%

强化学习, 4.2%

马尔可夫逻辑网络, 2.5%

生成对抗网络 (简称GAN), 2.3%

使用比例下降最显著的包括:

奇怪值分解(简称SVD),下降48%,由2016年的15.4%下降至2017年的8.1%

图形/链结/社交网络分析,下降42%,由2016年的14.0%下降至2017年的8.1%

遗传算法/进化方法,下降42%,由2016年的8.3%下降至2017年的4.8%

EM,下降36%,由2016年的6.4%下降至2017年的4.1%

优化,下降26%,由2016年的23.2%下降至2017年的17.2%

Boosting,下降20%,由2016年的30.6%下降至2017年的24.6%

PCA,下降14%,由2016年的40.5%下降至2017年的34.7%

行业归属

各行业的方法/工具使用情况为:

行业/个人,63%,平均工具使用量为8.3款

学生,15%,平均工具使用量为5.7款

研究人员/学术人员,11%,平均工具使用量为7.8款

其它,11%,平均工具使用量为7.1款

备注:只有35名受访者选择了政府/非营利性组织——由于样本规模太小,因此这里我将其纳入“其它”类别当中。

下面为16种排名靠前的方法及其偏差倾向结果

具体计算方法为:偏差(方法,归属)=比例(方法,归属)/比例(方法)-1

如果偏差值为正,则意味着该方法的使用频率高于平均水平。如果为负值,则代表该方法的使用频率低于平均水平。

举例来说,支持向量机(简称SVM)拥有28.7%的受访者使用比例,但在研究人员群体内则拥有44.4%的使用比例,因此偏差(SVM,研究人员)=44.4%/28.7% - 1 = 54.9%.

前16大数据科学方法及其归属关系倾向性

接下来,我们将考察各项数据科学方法在行业/学术界之间的吸引力。

以下图表所示为各项数据科学方法在各行业与学术界(学术界定义为学生+研究人员群体)中的吸引力排名:行业吸引力(方法)=比例(方法,行业)/比例(方法,学术界)-1

其中“行业”使用频率最高的方法为:

增量建模(连续第二年登顶)

异常/偏差检测

梯度推进机

“学术界”最青睐与深度学习相关的先进议题:

生成对抗网络 (简称GAN)

强化学习

递归神经网络(简称RNN)

卷积网络

数据科学方法及其行业/学术界吸引力

条状图形的宽度对应其使用比例,颜色则对应行业/学术界吸引力。

最后,全球各区域的参与度为:

欧洲, 39%

美国/加拿大, 33%

亚洲, 14%

南美洲, 6.0%

澳大利亚/新西兰, 4.8%

非洲/中东, 3.8%

下表所示为所有方法的具体数据,按总体使用比例排序。

表中各列分别为:

方法:数据科学方法

2017年与2016年变化百分比:与2016年相比的使用比例变化情况

总体使用情况百分比:受访者使用该方法的百分比

行业使用情况百分比:行业类受访者使用该方法的百分比

学生使用情况百分比:学生受访者使用该方法的百分比

研究人员使用情况百分比:研究人员受访者使用该方法的百分比

表一:数据科学方法使用情况

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180110G0YQ4V00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券