前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深度学习2016年度回顾:三大技术和三大趋势

深度学习2016年度回顾:三大技术和三大趋势

作者头像
AI科技大本营
发布2018-04-26 10:20:02
6820
发布2018-04-26 10:20:02
举报

作者:简·布斯尔克(Jan Bussieck)

编译: AI100

原文地址: http://www.deeplearningweekly.com/blog/deep-learning-2016-the-year-in-review


为了帮助读者更好地认识把握深度学习领域的发展趋势,这里我将深度学习的发展归纳为三大前沿领域共同驱动的结果。这三大前沿领域从各个方面影响了人工智能(artificial intelligence)的发展,尤其是在深度学习方面。首先是可用的计算能力和相关硬件,例如快速GPU、云服务提供商(你使用亚马逊新推出的的EC2 P2实例了吗?)以及Tensorflow、Torch和Keras等开发工具;其次是训练数据的数量和质量;最后,则是基于训练数据,在硬件上运行的相关算法,如CNN、LSTM和SGD等。新的发展或进步背后,必然伴随着上述某一领域的进步。

无监督学习(UnsupervisedLearning)和强化学习(ReinforcementLearning)

我们可以看到,2016年大部分的进展都来源于上述前两个领域的进步。如今,我们不仅拥有了在图像识别与音识别上正确率超过人类的系统,同时充足的数据和众多相关工具可以确保我们开发这样的系统。然而,几乎所有上述系统主要依赖监督学习(supervised learning),也就是说,训练这些系统的必须是标注好的有标签数据集。同时我们可以看到,2016年内,集中在医学成像、无人驾驶汽车或是机器翻译这几个方面的众多突破性成果表明:如果一味追求数据量的增加和计算能力的提高,那么从这两个领域中反应出的边际收益将会逐渐递减。

这也就意味着,最大收益的获取,将来很可能会依赖于第三个领域的发展。也就是说,我们应当研发新的算法,使新的算法能够直接从视频或者文本等这样的原始未标记数据中学习。2016年,在相关研究领域,取得了诸多重大的突破(对那些努力想跟上时代步伐的人来说,这一点有时近乎疯狂),雅恩·列坤(Yann LeCunn)在相关展示中,对重要的突破进行了简要描述:强化学习(reinforcement learning)和对抗性训练(adversarial training)。

深度强化学习(DeepReinforcement Learning)

为了更好地论述深度强化学习,我们先来看一下德烈·卡帕西(Andrej Karpathy)的精彩介绍。深度强化学习的基本设置非常简单;我们有一个代为执行一系列可能操作的个体(agent),其操作结果的好坏将由回报函数(reward function)做出判定,同时给出相应的“惩罚”(penalty)或“奖励”(reward)。以单机游戏Pong为例,每个竖条个体在此只执行两项操作,向上运动,或向下运动;相应地,其结果要么就是将球反弹回去,要么就是竖条错过了球。在每种情况下,奖励函数给出相应的分数,代表一定的奖励或者惩罚。

解决RL问题最先进的方法是将策略梯度(Policy Gradients)与蒙特卡洛树搜索(Monte Carlo Tree Search)相结合,目前谷歌旗下的DeepMind公司,开发的围棋人工智能系统阿尔法狗(AlphaGo)运用的就是以上方法。这一系统曾打败过世界围棋冠军李世石(Lee Sedol),轰动一时。与大家预想的可能正好相反,策略梯度的原理惊人的简单:首先,网络中需要接收一定数目的数据序列,序列中的数据包括主体执行的操作以及相应的结果(胜或负)等;然后,基于反向传播算法(backpropagation)更新网络中的参数,通过这种更新参数的方式,增大网络成功而非失败的可能性。

另一方面,今年强化学习领域的成功,以及其不需要不易获取的标签数据的优点,同样为基础领域的进步贡献了一部分力量。这种发挥作用的过程是通过各种各样的仿真平台实现的,这些仿真平台包括OpenAI研发的gym/universe平台,以及DeepMind公司在Pong(一个单机游戏)的基础上,与暴雪相互合作发布的、基于仿真环境的《星际争霸2》。现在,任何人都能在《侠盗猎车手5》(GTA V)中训练自己的无人驾驶算法,这不仅仅是相关技术在现实应用的一大步,同时也促进了强化学习的传播。

然而,强化学习领域的研究人员却提醒说,学习玩游戏并不是通向广义人工智能(AI)的捷径。哈尔·道姆(Hal Daume)在其著名的文章《回报函数从何而来》(Whence your reward function)中提出了其所担忧的问题:游戏中的回报函数简单明了,其奖励(reward)虽小却十分频繁,使得用户和机器都朝着正确的方向发展,这一点在上面提到的单机游戏Pong中得到了很好的体现。但是,如果你正努力训练一个工业机器人的话,有关其“好/坏”的回报函数只能在一个长达100亿的行为序列输入完毕后才能执行吗?换言之,这里的强化学习系统只能在处理完毕复杂时间序列后,才能输出的我们期望的正确结果吗?哈尔·道姆向我们提供了两种解决这一问题的提示,在2017年,我们追求算法创新时应当将其牢记于心。关于这一点,在《学习强化学习》(Learning to ReinforcementLearn)一文中,作者已经取得了突破。在这篇文章中,作者提出了“深度变换强化学习”(deep meta-reinforcementlearning)的方法,使得强化学习很快便能适应新的任务,从而减少了新任务中用作训练系统模型所需要的数据量。

生成模型(Generative Models)

2016年在算法领域还有一项重大的突破,那便是生成对抗网络GANs(Generative AdversarialNetworks)的提出,这项突破很可能会拉近我们与无监督学习的距离。尽管科学家伊恩·古德费洛(Ian Goodfellow)在2014年已经引入生成对抗网络GANs,然而它的流行,却在今年一篇详细介绍深度卷积网络结构的论文发表之后。简单来说,每个生成对抗网络GAN包含两个网络,分别是生成网络(G)和判断网络(D);向网络中输入一组训练样本后,生成网络(G)将会输出一系列结果,而判断网络(D)则会判断前面得到结果是否与训练样本同分布,从而对输出结果进行分类。在这个过程中,判断网络(D)得以优化,从而判断出样本是来自训练样本还是来自生成网络。这样一来,也能优化那些尚且不太智能的判断网络(D),使其按照与训练样本同分布的原则对结果进行分类。

训练过后,生成网络(G)就可以生成与训练样本性质十分相似的样本了。如果想了解更多更深层的知识,请参考约翰·格洛弗(Jonh Glover)在Aylien平台上的相关课程。

在《GANs 文字到图像的合成》(Generative Adversarial Text to Image Synthesis)这篇论文中,展示了生成对抗网络所能实现的、令人印象深刻的例子。作者训练了一个生成对抗网络,而后利用这个网络,将文字描述转化成了图片。

最近,生成对抗网络已经应用于将二维视图下的图片合成为三维立体结构的工作。不幸的是,尽管OpenAI已经提出多种不同的技巧用于训练生成对抗网络,但生成对抗网络仍然极难训练。考虑到生成对抗网络令人印象深刻的能力,许多业界领导人希望生成对抗网络可以通过摆脱对传统监督学习方法的依赖性,克服上述棘手的问题。雅恩·列坤(Yann LeCunn)就认为生成对抗网络的预测能力会为人工智能的发展铺平道路,它将使得网络虚拟助手和聊天机器人拥有必要的常识,从而与人类更加自然的交流。

今年,还有另一类生成式模型也引起了不小的轰动,分别是DeepMinds公司研发的语音生成模型WaveNet、图像生成模型PixelRNN和PixelCNN、视频生成模型V** (Video Pixel Network)。

这些生成式模型的核心方法是:首先样本的联合概率分布。举例来说,图片生成模型可以学习某张图片上所有像素的联合分布概率,然后根据之前生成的像素预测下一个像素。在语音和视频序列相关任务中,我们也可以很容易地理解这一过程。

人工智能发展持续开放

事实上,大部分的上述研究调查均来源于工业界,而不是学术界。这在一定程度上反应了今年人工智能开放发展的另一种趋势。

让我们总结一下:

Facebook日前已经发布了其为人工智能系统而设计的高性能新型服务器,其研发部门正在以飞快的速度发表杰出的研究成果。除了自己的研究之外,伊隆·马斯克(Elon Musk)以及其他的科技名人还投资十亿美元共同创建了OpenAI公司,为公众创建完全开放的仿真环境。现在,谷歌正在投入大量精力,用于推进深度学习和tensorflow等的开源库的发展。类似地,亚马逊也开放了DSSTNE的源代码,Uber建立了人工智能研发实验室,甚至苹果公司,最近也宣布要对外公开其人工智能研究方面的成果。在数据领域,也出现了类似的情况,众多业界巨头公布了大量对训练深层神经网络至关重要的标注数据集。其中,值得一提的有Youtube网站的视频数据集,以及Yahoo网站13.5TB的数据集。Youtube网站提供的已经整理好标签的视频长达500000个小时,而Yahoo网站提供的数据集中,包含从2千万的Yahoo匿名用户中提取的用户画像信息与相关的1100亿的用户交互信息。

现在,能够推动人工智能发展的因素很多。第一股推动人工智能向前发展的力量,来源于每个公司将其优势转换为商品的过程。举例来说,谷歌公司拥有自己的专属数据和基础设施,他们可以在不威胁到自己的竞争优势的情况下对外公布某些研究成果和软件。由于谷歌公司拥有算法改进方面的专属所有权,使得竞争对手更难处于领先地位。另一方面,诸如OpenAI等的机构正在努力打破数据垄断,通过自己非营利性组织的身份动摇传统网络巨头的统治地位。举例来说,他们通常会与汽车公司等合作,这些公司虽然拥有大量数据,但是本身却不具备深度学习方面的专业知识。

第二,对于谷歌和亚马逊等公司来说,他们对外开放的软件和数据集将会辅助公司云计算基础产品的发展。例如,对谷歌公司来说,在谷歌云中添加tensorflow将能为你的系统运行带来便利,而亚马逊类似的产品则是AWS,它能使DSSTNE的运行更加简单。

最后,不论是在科技巨头公司,还是在小企业或是学术界,对深度学习方面的研究者和实践者的人才挖掘空前激烈。然而,那些最优秀的人工智能人才只是简单地想与更多的团体合作、交流,从而公开发表他们的研究成果。基于这一事实,再加上人才们通常怀有对公众服务的使命感,或许才促使苹果公司公布其知名的商业秘密,最终公开了他们的人工智能研究成果。

合作与收购

另一个攫取人才的方式是并购。仅仅在2016这一年间,Salesforce 就收购了MetaMind和Prediction.IO,Uber收购了Geometric Intelligence,Amazon收购了聊天机器人公司Angel.ai。同时,也是在这一年,还发生了轰动一时的Intel公司的两次收购事件,分别针对深度学习方面的创业公司Nervana Systems和计算机视觉公司Movidius。此外,美国通用汽车公司也于2016年收购了无人驾驶技术创业公司Cruise Automation。

但是,这远远不止是人才的并购。如果你仔细观察我们提出的数据、基础设施和算法框架的话,你会发现,这些并购活动意义重大。许多创业公司只是无法利用那些能为自己的技术带来巨大价值的数据。当然,你可以购买这些数据集,但是这与直接使用自己公司的数据还是有差别的,购买而来的现成数据很有可能不符合你的最终应用领域的要求。而实现并购后,以Salesforce公司的CRM套件为例,其中含有惊人数量的数据,都可以为你的应用领域服务。

只有在整体的价值大于单独每一部分价值总和的情况下,并购才有意义。深度学习和人工智能领域如此,其他某些业务领域更是如此。例如,将MetaMind公司惊人的深度学习能力与世界上最大的 CRM系统相结合,以此简化或彻底解决一系列的任务流程,以达到优化产品或自动解决某些问题的目的。在这种情况下,并购就显得十分有意义,总价值也获得了极大的提升。

现在的创业公司之所以能够做到先前做不到的事情,就是因为实现了并购。

很多情况下,并购并没有实际的意义,这时就可以采用合作的方式。尤其是在医疗健康领域,合作的方式更为多见。2016年,已经有数家深度学习方面的技术公司与医疗机构实现了合作关系。今年,NVIDIA宣布与麻省总医院临床数据科学中心(Mass General HospitalClinical Data Science Center)相互合作,旨在通过应用最新的人工智能技术,改善疾病的检测、诊断、治疗以及管理,从而推动医学进步。另一方面,Atlantic DeepMind和英国伦敦大学学院(University College London)放射治疗科宣布合作,共同研发以深度学习为基础的、用于基于放射性器械、自动识别癌细胞的工具。其中,他们之间的数据共享协议中,包含一份长达5年的160万位病人的数据集。

目前来看,深度学习在医疗领域的放射学领域的应用才刚刚起步。Imaging Advantage是美国最大的放射图片云服务供应商。目前,其与麻省理工学院(MIT)和哈佛医学院(Harvard)的研究人员共同合作,共同研发基于深度学习的产品,帮助放射科医师更好解读X射线的结果。据报道,该公司已经收集了大约70亿张图片,并且已经将自己的系统应用在了美国的450个放射设备上。

再次强调,合作的主要原因其实是,技术合作伙伴能够运用高度专业化并高质量的数据训练他们的深度学习算法,从而使其在现实中得以应用。而且,这样做能取得比传统方法更好的效果。

硬件和芯片

最后,我想用深度学习变革过程中起到关键作用的基础设备以及将来必然会推动深度学习走向成功的NVIDIA和Intel公司,来结束今天这篇回顾性的文章。在深度学习的图形处理器(GPUs)方面,NVIDIA公司的市场地位依然稳固,但是Intel公司已经采取了重要的措施,缩小其与NVIDIA公司的差距。2016年年初的时候,评论员们就说:“人工智能现在非常火热,NVIDIA公司地位遥遥领先,哪家芯片公司将会超越它呢?”然而,Intel公司似乎给了NVIDIA公司一记重击。2016年,Intel公司首先收购了深度学习技术供应商Nervana Systems,为其深度学习的基础设备打下了坚实的基础;接着,Intel公司又收购了计算机视觉公司Movidius,从而拥有了高性能的SoC平台,加速了计算机视觉应用程序的发展。除此之外,英特尔投资公司Intel Capital 还将在接下来的两年中为其无人驾驶技术投资2.5亿美元,用于兑现其“打造人工智能公司”的承诺。新的一年到来之际,Intel公司尚未发布其研发的深度学习芯片,先后并购两家公司所取得的初次成果尚且未进入市场,我们将拭目以待。

与此同时,NVIDIA公司先前曾投资20亿美元研发芯片Tesla P100,现在正在享受其投资的成果。NVIDIA公司于4月份发布新型芯片Tesla P100,这是一款Pascal架构的GPU芯片。另一方面,该公司也发布了世界上首款面向深度学习超级计算机DGX-1,DGX-1采用的是8x 16GB Tesla GPUs,吞吐量相当于 250 台 CPU 服务器。

上述令人瞩目的新产品以及硬件领域日趋激烈的竞争,会对那些缺乏资金的创业公司十分有利,因为高端的深度学习设备将会越来越便宜,同时也越来越容易得到。此外,如果创业公司能够找到相关合作机会的话,公司还能获取海量而又高质量的数据。在这种情况下,我们有望看到更多的占据主导地位的独立公司,打破人工智能领域几家技术巨头的垄断局面。正如我们已经看到的,降低数据依赖性的另一个方法就是,找出处理原始未标注数据的更高性能的算法,或者是按照需要生成相应的算法。因此,在迈入新的一年之际,让我们打起精神,共同关注生成模型和强化学习领域的发展吧!

在这么短的篇幅内我走马观花般地讲了许多,但是我希望你能喜欢我的这篇文章,同时也希望你能感受到,这个在深度学习方面硕果累累、无比振奋的2016年!


本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-01-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技大本营 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
机器翻译
机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档