专栏首页新智元【调查】数据科学家最常用的十种算法和方法

【调查】数据科学家最常用的十种算法和方法

最近KDnuggets针对数据科学家最常使用的算法作了一个调查,有一些意外的发现,包括最学术向的算法和最产业向的算法。

下面是调查结果,总调查人数是 844 人。

数据科学家最常用的Top 10种算法和方法,以及投票比例:

表1:数据科学家最常用的Top 10算法&方法。所有算法和方法的列表在文末。

说明:这个投票的本意是找出数据科学家最常用的工具,但“工具”这个词含义不明确,所以为了简便我最初把这个表成为top 10“算法”。当然,正如有读者指出的,“统计学”或“可视化”以及其他几个都不是算法,更好的描述应该是“方法”。所以我把这个表更名为Top 10算法和方法。

投票者平均使用的算法/方法数是8.1中,比2011年的类似调查增加了很多。

在2011年的调查“数据科学/数据挖掘的常用算法”中,我们提到最常用的方法是回归、聚类、决策树/决策规则,以及可视化。两次调查中投票数增加最多的是:

  • 提升方法,2016年票数占32.8%,2011年占23.5%,票数增加40%
  • 文本挖掘,从2011年的27.7%到2016年的35.9%,票数增加30%
  • 可视化,从2011年的38.3%到2016年的48.7%,票数增加27%
  • 时间序列/序列分析,从2011年的29.6%到2016年的37.0%,票数增25%
  • 异常/偏差检测,从2011年的16.4%到2016年的19.5%,票数增加 19%
  • 集成方法,从2011年的28.3%到2016年的33.6%,票数增加19%
  • SVM,从2011年的28.6%到2016年的33.6%,票数增加18%
  • 回归,从2011年的57.9%到2016年的67.1%,票数增加16%

2016年新增的回答有:

  • K-NN,占比46%
  • PCA,占比43%
  • 随机森林,占比38%
  • 优化,占比24%
  • 神经网络 –深度学习,占比19%
  • 奇异值分解,占比16%

投票数减少最多的有:

  • 关联规则,从2011年的28.6%到2016年的15.3%,减少了47%
  • 增量建模,从4.8%到3.1%,减少了36% (这个让人吃惊)
  • 因素分析,从18.6%到14.2%,减少了24%
  • 生存分析,从9.3%到7.9%,减少了15%

下面的表格表示不同算法类型的应用:监督、无监督、元,及其他,以及投票者职业类型的占比。在职业类型中,我们排除了“未回答”(4.5%)和“其他”(3%)。

我们发现,几乎所有人都使用监督式学习算法。

政府和产业数据科学家比学生或学术研究人员使用更多不同类型的算法。

产业数据科学家更喜欢元算法。

接下来,我们分析了不同职业人士最常用的10中算法+深度学习:

为了让结果更清晰,我们计算了职业类型和平均算法使用的偏差,即偏差(ALG,类型)=使用(ALG,类型)/使用(ALG,所有)。

图2:按职业类型分的算法使用偏差

我们发现,产业数据科学家更喜欢用回归、可视化、统计、随机森林和时间序列。政府/非营利机构用得更多的是可视化、PCA和时间序列。学术研究者更常用的是PCA和深度学习。学生普遍上使用的算法较少,常用的是文本挖掘和深度学习。

接下来我们分析了能代表 KDnuggets 整体用户的具体地区参与人数:

投票参与者的地区分布:

  • 美国/加拿大,40%
  • 欧洲,32%
  • 亚洲,18%
  • 拉丁美洲,5.0%
  • 非洲/中东,3.4%
  • 澳大利亚/新西兰,2.2%

在2011年的投票中,我们把产业/政府和学术研究者/学生分别合并成一个组,并用以下公式计算产业/政府的算法“亲和度”:

N(Alg,Ind_Gov) / N(Alg,Aca_Stu)

------------------------------- - 1

N(Ind_Gov) / N(Aca_Stu)

因此,亲和度为0的算法表示它在产业/政府和学术研究者或学生中的使用情况一致。IG值越高,表示这个算法越“产业向”,越低,表示算法越“学术向”。

2011年的调查中,最“产业向的算法”是:

  • 增量建模,2.01
  • 异常检测,1.61
  • 生存分析,1.39
  • 因素分析,0.83
  • 时间序列/序列,0.69
  • 关联规则,0.5

在最新的调查中,增量建模(uplift modeling)是最“产业向的算法”,令人惊奇的发现是使用它的人非常少——只有3.1%,是这个调查中得票数最少的算法。

最“学术向的算法”是:

  • 常规神经网络,-0.35
  • 朴素贝叶斯,-0.35
  • 支持向量机(SVM),-0.24
  • 深度学习,-0.19
  • EM, -0.17

下面的图表列出了所有的算法和它们的产业/学术亲和度。

图3:数据科学家最常用的算法:产业 vs 学术

下面的表格列出了所有算法的细节,%表示两次调查中该算法的得票数占比,以及比重的变化(%2016/%2011 -1)。

表3:KDnuggets 2016调查:数据科学家使用的算法

N:按投票数的排序

Algorithm:算法名称

Type: S – 监督(Supervised), U – 无监督(Unsupervised), M – 元(Meta), Z – 其他

2016 % :2016年该算法的得票率

2011 % :2011年该算法的得票率

change (%2016 / %2011 - 1):得票率变化

Industry affinity:如上文解释。

原文链接:http://www.kdnuggets.com/2016/09/poll-algorithms-used-data-scientists.html

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-10-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【干货】机器学习常用 35 大算法盘点(附思维导图)

    【新智元导读】本文将带你遍历机器学习领域最受欢迎的算法。系统地了解这些算法有助于进一步掌握机器学习。当然,本文收录的算法并不完全,分类的方式也不唯一。不过,看完...

    新智元
  • 【皮尤重磅报告】算法时代七大主题,数据与模型将操控人类

    【新智元导读】全球权威调查机构皮尤研究所日前发布报告《算法时代》,采访千余专家,分7大主题探讨算法对生活各方各面的影响。报告的目标是客观全面反映当前人们对即将到...

    新智元
  • 【一图读懂】你不得不知道的10个影响人类社会的算法

    【新智元导读】本文的信息图表详细介绍了算法的定义、起源以及 10个重要而且基本的算法,并提出有关算法,尤其是人工智能和深度学习对人类社会、经济的影响的思考。 在...

    新智元
  • 最新出炉——数据科学家最常使用的十大算法

    导读:本文来自于KDnuggets所做的十大算法调查,对于数据工程师常用的算法进行排名,并对其在2011-2016年间的变化进行介绍。 基于调查,KDnugge...

    AI科技评论
  • 数据科学家最常用的十种算法(KDnuggets官方调查)

    最新一期的 KDnuggets 调查展示了一份数据科学家使用度最高的算法列表,这份列表中包含了很多惊喜,包括最学术的算法和面向产业化的算法。

    华章科技
  • KDnuggets调查|数据科学家最常用的10种算法

    大数据文摘
  • 音乐旋律提取算法 附可执行demo

    https://github.com/cpuimage/AudioFingerprinter

    cpuimage
  • 学习算法之路

    一个搞ACM的需要掌握的算法的sheet。 第一阶段:练经典常用算法,下面的每个算法给我打上十到二十遍,同时自己精简代码,因为太常用,所以要练到写时不用想,10...

    zhisheng
  • 机器学习及大数据相关面试的职责和面试问题

    ? 目录 · 机器学习、大数据相关岗位的职责 · 面试问题 · 答题思路 · 准备建议 · 总结 各个企业对这类岗位的命名可能有所不同,比如推荐算法/数据挖掘...

    小莹莹
  • 【易错概念】国密算法SM1(SCB2)、SM2、SM3、SM4、SM7、SM9、ZUC

    众所周知,为了保障商用密码的安全性,国家商用密码管理办公室制定了一系列密码标准,包括SM1(SCB2)、SM2、SM3、SM4、SM7、SM9、祖冲之密码算法(...

    辉哥

扫码关注云+社区

领取腾讯云代金券