学界| 用20000篇论文告诉你:机器学习在过去五年中发生了什么

AI科技评论按:arXiv.org 是一个专门收集物理学、数学、计算机科学与生物学论文预印本的网站。数据显示,截至 2014 年底的时候,arXiv 已经达到了一百万篇以上的论文藏量,并且还在以每月 8000 篇的速率增长。算是目前全球最具规模的论文数据库之一。

近日,来自斯坦福大学计算机学院的博士毕业生、OpenAI 的高级科学家 Andrej Karpathy 基于一份 arXiv 机器学习论文大数据,从论文数量、开源框架、数学模型和优化算法等多个方面对过去五年中的机器学习变化趋势进行了详细分析,并将分析结果发布在Medium个人博客上。以下内容整理自该博客。

想必你一定听说过谷歌趋势(Google Trends)或者百度指数这种工具,任意输入一个关键词,就能立刻看到关于该词在过去几个月甚至几年之内的变化趋势。受此启发,碰巧我手边正好有一份 arXiv 论文数据集,它收集了过去五年中机器学习相关的 28303 篇论文。那么与谷歌趋势类似,从这些论文中,我们能否看到一些机器学习领域的科研发展趋势呢?我就此进行了详细的数据分析,发现这个结果相当有趣,因此在这里把它分享出来。

论文总量

首先我们看一下论文数量。在过去五年中,arXiv 收集的机器学习论文数量变化情况如下图所示。

从上图可以看到,论文总数在 2017 年 3 月出现了一次激增,从时间上看可能是由于 NIPS 和 ICML 等大型会议的论文提交截止日期正好在 3 月。而且有一点需要说明的是,arXiv 的论文数据集虽然全面,但也并不能完全代表整个机器学习行业的变化趋势,因为毕竟不是所有人都习惯于将自己的论文投递到 arXiv 网站上。不过,从上图我们仍然可以看到一个明显的上升趋势,这说明机器学习的热度的确在持续地上升中。

下面我们将以这些论文作为研究材料,看看其中包含着怎样的变化趋势。

深度学习框架

首先看看深度学习框架的情况。这里我记录了在 2017 年 3 月上传的所有论文中(包括参考书目和论文内容)提到的机器学习框架情况:

可以看到,在 2017 年 3 月份提交的所有论文中大约有 10% 都提到了 TensorFlow。当然,并不是每一篇论文都声明了框架的使用,但是如果我们假设论文以某一固定的概率分布来声明框架,并且这个概率与框架本身无关的话,那么大概有高达 40% 的社区都在使用 TensorFlow(如果也算上用 TensorFlow 作为 Keras 后端的论文,这一比例将会更大)。下面是这些框架随时间变化的趋势:

可以看到,Theano 已经高速发展了一段时间了,但近期它的增速正在放缓。Caffe 从 2014 年前后开始快速爆发,但在过去几个月中已经被强大的 TensorFlow 反超。Torch(以及最近的 PyTorch)也处于上升期,虽然增速略显缓慢,不过增长稳定。我估计再过几个月再来看这个结果会更有趣,因为根据我的估计,未来 Caffe 和 Theano 将会缓慢衰落,而由于 PyTorch 的崛起,TensorFlow 的增速可能会放缓。

卷积神经网络模型(CNN)

下面再看一下卷积神经网络的情况,从下面的图表中可以清楚地看到,作为 CNN 领域里重要里程碑的 ResNets(深度残差网络)在 2016 年底的激增情况,在 2017 年 3 月提交的所有论文中甚至有大约 9% 都提到了 ResNets。

另外,这里还能看到在谷歌 InceptionNet 之前,实际上已经有论文提到了 inception 的概念。

优化算法

在优化算法方面,Adam 算法可以算是应用最多的一个,大约有高达 23% 的论文都提到了它。这里需要说明的是,在实际使用中 Adam 算法的采用率可能更高,因为许多论文都不会显式地声明优化算法,更有一部分论文甚至不会阐述关于神经网络优化的内容。另外,从图表中还能看出,在 2014 年 12 月 Adam 优化算法被正式提出之前,实际上也有一些论文提到了 “Adam” 关键词,它的概率大约维持在 5% 左右,我猜想可能是因为有许多作者的名字也叫 Adam 的缘故。

研究者

这里我还很好奇地研究了一下深度学习领域各位大牛的名字在论文中的变化情况,结果如下图所示。需要说明的是,这里的仅根据关键词统计的方式很粗糙,另外我还做了一些归一化操作。

从图表中可以看到,在所有提交的论文中,大约有 35% 提到了 bengio,但这里实际上有两个人: Samy 和 Yoshua,图中是两人加起来的结果。另外需要特别指出的是,在所有新论文中有超过 30% 都提到了 Geoff Hinton 大神,这一点很强大。

关键词

最后一部分是关键词。这里我首先统计了所有一元关键词和二元关键词在论文中的出现情况 ,并对当下和一年之前这些词汇的最大采用率做了对比。这里我作为基准采用的论文都是一些近两年被引用次数最高的优秀论文。以下是一些排名靠前的关键词:

以 ResNet 举例来说,它的相对热度之所以是 8.17,是因为它在 2016 年 3 月所有论文中的采用比是 1.044%,而到了今年 3 月,它的采用比则增长到了 8.53%,用两个百分比相除,就得到了 8.17。

从以上图表可以看出,在过去一年中最火热的机器学习创新技术包括:ResNets、GAN、Adam 和 BatchNorm。在研究方向上热词包括:风格转换(style transfer)、深度强化学习(deep RL)、神经网络翻译以及图像生成等。最后,在模型方面可以看到:全卷积网络(FCN)、 LSTMs/GRUs、Siamese Nets 以及 Encoder decoder nets等热词。

与之相反,哪些关键词在过去一年中出现了下滑,变成了最冷门的关键词?我整理了以下排名:

可以看到,fractal(分形) 和 bayesian(贝叶斯)相关的内容在近一年的时间中热度衰减严重

总结

话说,看完了所有的分析结果,你不赶紧写一篇基于全卷积神经网络、BatchNorm、ResNet 和 GAN 技术,通过 Adam 算法优化,并应用于风格转换的论文么 ?

福利!CCF ADL深度学习前沿讲习班 线上视频开放购买!

2017 年 4 月 7-9 日,由 CCF 和 KDD China 联合主办的高端学术及技术系列性品牌活动,中国计算机学会学科前沿讲习班(CCF Advanced Disciplines Lectures,简称 ADL)第 78 期在北京中国科学院计算技术研究所举办。

本期主题“深度学习:从算法到应用”围绕当下大热的人工智能领域进行,邀请了 8 位来自学术界和工业界的学术大牛,在三天的时间里,向 400 多位学员讲授了人工智能领域的前沿技术和学术研究。

本次讲习班由中科院计算所研究员、博导,中科视拓创始人、董事长兼 CTO 山世光主持。而授课的8位大牛分别是:

旷视科技 (Face++) 首席科学家孙剑 微软亚洲研究院主任研究员郑宇 地平线机器人创始人兼 CEO 余凯 地平线机器人技术联合创始人&算法副总裁黄畅 360 首席科学家颜水成 华为诺亚方舟实验室主任李航 思必驰创始人兼首席科学家俞凯 KDD China 主席杨强

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-04-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

AI大事件丨吴恩达再度出手创立AI制造业公司,李飞飞领衔谷歌中国AI研究中心,AI或将应用于成人电影

1305
来自专栏新智元

贾佳亚港中文团队冠军技术分享:最有效的COCO物体分割算法

【新智元导读】物体分割(instance segmentation)是如今视觉领域最热最核心的一个问题。在这届国际图像识别权威竞赛MS COCO当中,香港中文大...

3806
来自专栏CSDN技术头条

《机器学习实战》作者Peter Harrington:如何成为一位数据科学家

Peter Harrington,拥有电气工程学士和硕士学位,他曾经在美国加州和中国的英特尔公司工作7年。Peter拥有5项美国专利,在三种学术期刊上发表过文章...

1959
来自专栏大数据文摘

盘点| NIPS(神经信息处理系统进展大会)机器学习相关内容

1727
来自专栏新智元

递归神经网络之父:打造无监督式通用神经网络人工智能

【新智元导读】瑞士人工智能实验室IDSIA的科学事务主管Jürgen Schmidhuber 1997年率领团队提出了简化时间递归神经网络的长短期记忆时间递归神...

4035
来自专栏CSDN技术头条

NIPS会议机器学习相关内容盘点

今年的NIPS会议是当下人工智能和深度学习热情的一个聚焦点 —— 从中能够感受到机器学习领域的飞速发展,并且公开了两家新的人工智能初创公司。参会人数相比2014...

1966
来自专栏企鹅号快讯

无人驾驶-一些有趣的项目(2)

今天我们简要介绍无人驾驶中广泛使用的摄像头,激光雷达等传感器。 摄像头: 摄像头对大家来说并不陌生,基本就是获取视频或者图像的设备。不同的设备价格不一样,你觉得...

1706
来自专栏机器人网

模仿松果:调节空气湿度就能驱动的微型机器人

动物运动时使用肌肉,植物的运动呢?植物有运动吗?当然有。植物运动的机制比动物要简单得多,比如,含羞草的叶子,捕蝇草和松果,这些植物的运动是通过调节植物组织里的...

2945
来自专栏AI科技评论

活动 | 机器感知、三维点云如何与深度学习擦出火花?

机器人需要在这个过程中学会如何主动感知和控制,深度学习的流行也为探索这一问题提供了一种值得借鉴和学习的方法。

1071
来自专栏程序员笔记

读书「精进」

1666

扫描关注云+社区