深度学习巅峰之年:技术、开源、兼并和硬件发展全回顾(附论文合集)

【新智元导读】本文是对2016年深度学习领域的进展的综述和回顾,介绍了2016年该领域的一些重要研究成果,包括无监督学习、增强学习、生成对抗网络等,以及产业中的合作与并购,硬件和芯片方面的新动作等。本文既是回顾,也是展望,这些领域在已经开始的2017年将有什么新发展,令人期待。

一般意义上的人工智能,以及深度学习,其成功受到三个因素的影响。首先,有可用的计算能力和架构,例如快速的GPU,云服务提供商,以及工具(Tensorflow,Torch,Keras等);其次,有数量大、质量高的训练数据;以及第三,有使用训练数据,在硬件上运行的算法(CNN,LSTM,SGD)。深度学习的每一个新的发展或者进步背后,都来源于这三个因素中某一个的进步。

无监督与增强学习

2016年深度学习的许多进展是由于前两个因素的进步。我们现在已经拥有与人类水平相当的图像和语音识别系统,而且有相当丰富的数据,有各种工具可以开发这些系统。然而,几乎所有这些系统都依赖于监督学习,进一步依赖于有标记数据集的可用性。我们在2016年看到的许多革命性的成果,无论是医学成像、自动驾驶汽车还是机器翻译,也都指出一个事实,即沿着数据和计算能力的轴移动将导致边际回报减少。

这意味着,最大的好处化可能来源于第三个条件的推动,即开发能够从原始的未标记的数据,例如视频或文本中学习的算法。2016年这方面的研究取得了一些重要进展,Yann LeCunn在演讲中列举了主要的一些

深度增强学习

对于深度增强学习,Andrej Karpathy做过一个很好的概述:http://karpathy.github.io/2016/05/31/rl/。

其基本的设置很简单:我们有一个代理,可以执行一系列可允许的动作,其导致的结果是由奖励函数判断给予奖励或惩罚。让我们来看这个乒乓球小游戏,这里一个代理有两个可行的动作,向上或向下,其结果是球是否被挡回或代理错过了球,根据结果代理会得到奖励或惩罚。

乒乓球代理

解决增强学习问题的目前最先进的方法是策略梯度(Policy Gradients),它与蒙特卡罗树搜索(Monte Carlo Tree Search)一起被DeepMind用于AlphaGo。与人们可能认为的相反,策略梯度非常直接,网络接收一定数量的游戏数据作为输入,包括帧序列、代理采取的动作和结果(赢/输),然后应用反向传播更新网络参数,使引向赢的结果的动作比引向输的结果的动作概率更大。

RL的成功以及它不需要高昂的标记数据这一事实也使得网络架构方面得到推进,引入了一系列的模拟平台,例如 OpenAI 的 gym / universe 平台,还有 DeepMind 与暴雪公司合作,发布了作为模拟环境的《星际争霸2》。现在任何人都可以在 GTA V 平台上训练他们的自动驾驶算法,这是增强学习在现实世界中应用和推广的重要一步。

然而,RL圈子的研究人员提出警告,学习玩游戏并不是通往更广泛的 AI 的直接路径。Hal Daume 在 Whence your reward function? 一文中提出,游戏提供了简单、明确的奖励函数和频繁的小奖励,这些奖励同时把人类和机器指向正确的方向,上述的乒乓球游戏就是一个很好的例子。然而,如果你想训练一个工业级的机器人,这种 “good boy” / “bad boy” 的奖励只在10亿帧结束后分配,而积极的奖励只有在较大的动作空间里一系列复杂的行动结束后才能得到?Hal 的文章提出了一些解决方案,我们期待2017年及之后在算法层面取得进展。这方面的一个重要成果是 DeepMind JX Wang 等的论文 Learning to Reinforcement Learn,作者提出深度元增强学习(deep meta-reinforcement learning)的方法,使得RL方法能够快速适应新任务,从而减少训练算法对新任务所需的数据量。

生成模型

2016年在算法方面还有另一个重大进展,某种意义上来说这使我们更接近无监督学习,即生成对抗网络(GAN)的兴起。虽然 Ian Goodfellow 早在2014年已经介绍过 GAN,但直到2016年发表了一份详细介绍深度卷积架构的论文,才是 GAN 真正被重视的开始。简单地说,GAN 由两个网络组成:一个生成器(G)和一个鉴别器(D),给定一组训练样本,G 将生成输出,而 D 将这些输出分类为与训练样本相同的分布。这样,D 能够被优化以区分训练样本和生成器网络输出的样本;反过来,该生成器网络 G 也能被优化以欺骗 D,令 D 将其输出的样本误认为是训练样本。

在经过这样的训练之后,G 现在可以生成具有与训练样本非常相似的特征的样本。更深入的介绍可以参考 John Glover 在 Aylien 上的文章。Scott Reed 等在 ICML 2016 提交的论文 Generative Adversarial Text to Image Synthesis 中展示了GAN所能做到的一个令人印象深刻的例子,即使用GAN将文本转换为图像。

更近一些的成果,例如使用GAN从各种物体的2D视图生成3D视图。但一个问题是,GAN往往很难训练,虽然 OpenAI 提出过克服训练GAN的困难的一些小技巧。鉴于GAN有如此令人印象深刻的能力,许多行业里的大人物希望GAN能够通过改变传统的监督学习方法来解决迄今难以解决的问题。例如,Yann LeCun 认为,GAN将为拥有预测能力的AI铺平道路,这将赋予虚拟助理和聊天机器人必要的“常识”,从而能够以更自然的方式与人类互动。

2016年出现的另一类引起关注的生成模型是DeepMind的语音生成模型 WaveNet,图像生成模型 PixelRNN和 PixelCNN,以及视频生成模型 VPN(Video Pixel Network)。这些生成模型学习某些特征的联合概率,例如图像中所有像素的联合概率,然后根据给定的先前产生的所有像素预测下一个像素。很容易理解这种方法能够如何适用于声波和视频帧。

开源大势

实际上,以上提到的大部分研究都来自私营公司或非学术圈的非盈利组织,这表明了2016年非常明显的另一个趋势:AI发展的开放性。

小结一下:Facebook 发布了用于运行AI系统的硬件设计,FAIR以惊人的速度持续发布杰出的研究;马斯克以及其他科技巨头为OpenAI投资了10亿美元,他们出了发布研究结果还想公众开放模拟环境 universe;谷歌也在提供大量资源推动深度学习的研究,开放 TensorFlow 库等;Uber 建立了AI研究实验室,最近甚至苹果公司也开始发表AI论文。数据方面也同样有很大进展,几个大公司发布了大量标记数据集,这些数据集对训练深度神经网络十分重要。其中一些值得注意的数据集包括拥有500000小时带标记视频的Youtube视频数据集,以及雅虎的13.5TB的用户数据集。

合作与收购

仅今年一年,Salesforce 收购了 MetaMind 和 Prediction.IO,Uber 得到了 Geometric Intelligence,亚马逊得到聊天机器人公司 Angel.ai,英特尔公司分别收购Nervana Systems和Movidius,分别是专注深度学习计算架构和计算机视觉的创业公司,另外通用汽车公司收购了Crew Automation 自动驾驶汽车创业公司。

收购只有在其整体结果比各部分的结果加起来更有价值时才有意义。很少有其他领域能比深度学习和AI领域更适合这种情况。例如,将 MetaMind 的非常厉害的深度学习能力整合到世界上最大的 CRM 系统中,以简化或直接解决大量的重要任务,这是极好的价值增倍。这些初创公司现在所做的事情,如果它们没有与收购它们的公司合作,是不可能实现的。

硬件和芯片

我想通过对比作为深度学习核心的硬件设备和两家公司——英伟达和英特尔,来作为这篇综述的结尾。虽然英伟达的GPU仍然是在深度学习领域无可争议的市场领导者,但英特尔已经采取了一些措施来缩小这个差距。不过,英特尔也知道不可能轻易超越英伟达,所以先是收购了Nervana Systems来为建立一般深度学习基础平台打下坚实基础, 接着又收购Movidius以获得高性能的SoC平台,加速计算机视觉方面的应用。除此之外,英特尔宣称将在未来两年内在自动驾驶领域投资2.5亿,实践他们“以AI为中心”的宣言。今年,英特尔收购的第一批成果将以深度学习芯片的形式进入市场。

与此同时,英伟达斥资20亿美元于一个名为 R&D 的新项目。他们在4月份发布新的芯片,基于 Pascal 架构的 Tesla P100 GPU,以及世界上第一台深度学习超级计算机 DGX-1,它使用8x 16GB Tesla GPU,提供250个基于CPU的服务器,其中,网络、电缆和机架都在一个单独的盒子里。

然而,这些令人印象深刻的新产品和硬件空间的日益激烈的竞争其实对现金困难的初创公司有利,因为复杂的深度学习架构的成本变得更便宜,也更容易获得。此外,如果创业公司设法找到能使他们获得更多高质量的数据的合作机会,我们可能会看到独立玩家出现更多结果,巨头驱动的兼并趋势可能会放缓。另外,我们已经看到,减少对数据的依赖提出了对能使用未标记数据的算法的需求。所以,进入新的一年,生成方法以及增强学习的研究将令人瞩目。

原文链接:http://www.deeplearningweekly.com/blog/deep-learning-2016-the-year-in-review

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-01-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT派

2018年十大人工智能技术趋势,人工智能的进步对未来的巨大影响

人工智能是前沿和中心,商界和政府领导人正在思考正确的举措。但是在实验室里发生了什么呢?在实验室里,学术和企业研究人员的发现将为未来一年乃至更长的时间设定人工智能...

1181
来自专栏AI研习社

博客 | 重温五条 AI 基础规律

雷锋网AI 科技评论按:如果每个人都有足够的时间和热诚,并乐意去大学拿个 AI 学位,那你大概就不会读到这篇博客了。 虽说 AI 的工作方式挺神秘的,但在处理技...

921
来自专栏AI研习社

评测 | 谷歌 TPU 二代来了,英伟达 Tesla V100 尚能战否?

AI 研习社按:谷歌去年年中推出的 TPUv1 一度让英伟达感受到威胁将近,而现在的谷歌 TPU 二代 TPUv2 则着着实实得将这份威胁变成了现实,去年的评测...

1561
来自专栏机器人网

机器人视觉与计算机视觉:有什么不同?

机器人视觉、计算机视觉、图像处理、机器视觉和图形识别,这几者之间到底有神马区别呢? 要弄清楚他们哪一个是哪一个,有时候也真的是容易混淆的。接下来看看这些术语的...

3304
来自专栏数据科学与人工智能

【深度学习】深度学习趋势与框架

2015 年结束了,是时候看看 2016 年的技术趋势,尤其是关于深度学习方面。新智元在 2015 年底发过一篇文章《深度学习会让机器学习工程师失业吗?》,引起...

3005
来自专栏PPV课数据科学社区

【学习】从回归分析到数据挖掘

回归分析是研究两种或两种以上变量之间相互依赖的定量关系的统计分析方法,在很多行业都有广泛的应用。无论是银行、保险、电信等服务行业的业务分析人员在进行数据库营销、...

3175
来自专栏量子位

旷视首席科学家孙剑:计算机视觉的变革和挑战 | 北大AI公开课笔记

周三晚,北京大学“人工智能前沿与产业趋势”第三讲,本期旷视研究院院长孙剑授课主题为“计算机视觉的变革与挑战”,分享了计算机视觉和深度学习领域的一些研究进展。

1205
来自专栏人工智能头条

从How-Old.net看人脸识别技术的演进

1573
来自专栏程序你好

2018年十大人工智能技术趋势,人工智能的进步对未来的巨大影响

1093
来自专栏量子位

谷歌大脑2017总结(Jeff Dean执笔,干货满满,值得收藏)

李杉 维金 编译自 Google Blog 量子位 出品 | 公众号 QbitAI 谷歌AI Senior Fellow、谷歌大脑负责人Jeff Dean,按照...

37412

扫码关注云+社区

领取腾讯云代金券