LeCun Quora 问答读后:深度学习走向何方

【新智元导读】前天深度学习代表人物Yann LeCun在Quora答题,新智元第一时间跟进,LeCun表示他最看好深度学习的对抗式网络,引发从业者王天树回忆起当年他做合成时的疑惑。王天树博士毕业于西安交通大学人工智能与机器人研究所,师从郑南宁院士,微软沈向阳博士,曾先后任职于IBM中国研究院及联想研究院,从事人工智能、人机交互、用户体验相关研究十余年,现任职于文安智能科技股份有限公司。

从昨天开始,深度学习的元老之一Yann LeCun,乐总在quora上hold了一个session。里面有几个非常有意思的话题,国内AI媒体新智元马上跟进,翻译出来了中文版(LeCun:深度学习突破,对抗式网络最值得期待)。

新智元翻译的乐总文章一看完,脑子里翻江倒海,五味杂陈。思绪一下子回到了14,15年前,我快毕业的时代。

我博士毕业是在02年,毕业前一直在微软实习,论文的题目是用图模型(graphic model) 做人类舞蹈动作的合成,大致意思是用跳舞的运动捕捉数据学习一个基于图模型的动态贝叶斯网络,然后用来合成舞蹈动作。这样只要提前训练好模型,就可以生成任意的舞蹈,要多少有多少。文章发表在siggraph02上,引用率还不错。后来为了毕业,顺便用这套框架做了下动态纹理合成,拿了chinagraph02年的最佳论文奖。但是一毕业我没待在微软,去了IBM研究院。IBM研究院主要做工程研究,不太涉及基础研究。大家问我为啥不留在微软,我给的解释是我贪图享乐,微软太苦,IBM好一些! 其实内心的苦处,实在不足为外人道。

我毕业的那个时间节点01-02年,做计算机视觉的人其实非常痛苦,传统几何的东西3d geometry做完了。神经网络因为没有理论基础,效果受限于计算能力也并不好,在当时基本被当作骗子。vision的人抓住SVM,boosting 当作救命稻草,这两个东西工程上都有用,也号称有统计学习理论做基础。我当时费了很大力气,学习了统计学习理论VC维数等知识,看明白以后,有点失望,理论倒是不错,但是离实践太远,不能用来指导具体的研究工作。

后来发现Micheal Jordan(UC Berkley教授,跟打篮球的那个同名) 在贝叶斯网络基础上搞图模型,他当时也是刚刚立山头。一看就觉得有道理,特别是动态系统也能放在同一套框架下。理论完善,也能操作,当真找到救命稻草,救我一命,得以毕业。

但是图模型虽然理论框架非常完善,也有对应的学习训练方法: 比如MCMC通杀,就是太慢; 快一点还有变分学习, 凸优化等等; 总之各种学习方法都能尝试,但是仍然存在表现能力太弱的问题。

我要学习人体运动的模型,从统计意义上讲,是要估计人体运动所在空间的一个概率分布。这个空间太大,我们用贝叶斯方法和人的先验知识,控制模型复杂程度。加上BIC这样的准则,保证在有限数据集上训练出结果来。我一开始就纠结在DBN的观测模型上,观测模型本质上是要学习从系统内部状态到外部数据表示的一个映射关系。在Jordan的统计框架下用的最多的是混合高斯。混合高斯其实过分抽象了,表现不了数据样本的细微分布,当时也没有深度学习网络这种东西。找来找去,我从传统控制领域找来了线性动态系统LDS。 LDS本来就是做动态的,做对运动建模比混合高斯高到不知哪里去了。再加上有后面的图模型做高层推断,一定意义上把舞蹈建模这个问题就解掉了一点点。

现在乐总的文章里提到用深度学习和图模型做结合,用图模型做reasoning。其实类似我当年的路子,把LDS换成深度神经网络,对状态到数据的映射关系表现能力更强。结合图模型又有一个完备的学习框架,这样会对深度学习有个大大的提升。

此外乐总还提到对抗式网络的思路,训练两个网络,一个做生成,一个做判决,两个网络一起竞争,大家都越来越好,这样就可以结合有监督和无监督。让我也回忆起当年做合成时的疑惑。通常统计学习建模对付问题有两种思路,一种是估计联合概率分布,一种是学习条件概率分布。前者其实是最核心的。有个完全分布,那什么都有了。但是模型参数太多,数据有限,学起来太难。所以实践中搞搞条件分布,压缩下供学习的概率空间,学起来容易些。对我的生成数据来说,不管是条件分布,还是联合分布,模型受计算能力的限制,信息量总是有限的,要用来生成像样的数据,全random肯定不行,建模时丢了太多信息。怎么把丢的东西找回来,还是得靠知识,Lds动态系统就是利用了人的知识对运动的一种高层抽象。有了lds,就可以基于随机噪声做出像模像样的人体舞蹈动作来。机器就真的能画画,跳舞了。现在大家都说用深度网络学不出知识。其实我感觉没那么复杂,乐总说的这个对抗网络的巧妙设计,将来发展一定可用来解决这个问题。

总体来说,AI 进步很快,很有希望!惜乎我只能旁观了,没法也无时间亲身参与。但话又说回来,AI进步还是不要太快的好。原因你懂得!

BTW,有人问我合成怎么做,真的靠噪声驱动模型就可以吗?答案是不可以,模型表示能力毕竟有限,此外一个非线性动态系统,趋向于混沌,你就算模型全对,时间一长也没法预期。那怎么办?加约束。当时的做法实际上是先编舞,再跳舞,人工设定几个关键动作,模型把中间的过程推出来,结果也挺有意思,噪声加的多一点,动作就夸张一点,不加噪声就很直白。

又BTW,当年Cambridge有人来,讨论过为什么语音识别和语音合成完全是两条路,能不能用一个统计框架统一起来。答案是可以,语音识别用的hmm是dbn的特例,合成用template是知识表示,但是语音后边有语义,远比跳舞复杂。当时的计算能力下,统计模型差太远,干不了这事,也许现在技术进步了,有人可以琢磨下。


原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-07-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

GMIS 2017 | 第四范式首席科学家杨强:AlphaGo的弱点及迁移学习的应对(附视频)

机器之心整理 演讲者:杨强 5 月 27-28 日,机器之心在北京顺利主办了第一届全球机器智能峰会(GMIS 2017),来自美国、加拿大、欧洲,香港及国内的众...

36010
来自专栏AI科技大本营的专栏

Google Brain去年干了太多事,Jeff Dean一篇长文都没回顾完

编译 | AI科技大本营(rgznai100) 参与 | Reason_W 从AutoML、机器学习新算法、底层计算、对抗性攻击、模型应用与底层理解,到开源数据...

3648
来自专栏AI科技评论

开发 | 从实践角度探讨深度学习优越性

为什么深度学习(DL)比其他机器学习(ML)方法效果更好? AI 科技评论按:近来在多个国外开发者论坛、杂志中,”深度学习的优越性”这个话题着实引发了不少讨论。...

3827
来自专栏AI科技大本营的专栏

别瞎搞!对自己定位不准,看再多机器学习资料也是白搭(附资源)

找资料也是门学问,别抓着机器学习就一拥而上。 作者 | Jason Brownlee 编译 | AI100(ID:rgznai100) 来看个小故事:机器学习火...

3228
来自专栏新智元

【CVPR 2018】机器也能感知时间,AI系统可预测5分钟内的未来!

1255
来自专栏大数据文摘

深度丨掌握地球?智能机器带来的真正风险

1604
来自专栏机器之心

伯克利提出DeepMimic:使用强化学习练就18般武艺

选自BAIR Blog 作者:Xue Bin (Jason) Peng 机器之心编译 运动控制问题已经成为强化学习的标准基准,深度强化学习方法被证明适用于包括操...

3525
来自专栏计算机视觉战队

目标检测也就是这么简单

今天其实是一个不凡的日子,因为今天是属于我们的“23”!这个数字也是我喜欢的幸运数字,所以今天心情犹如窗外温柔秋风和温暖阳光化学反应的味道,带着美美的心情来开展...

3455
来自专栏机器学习算法与Python学习

除了深度学习,你还应该关注这 6 大 AI 领域

AI的这6个领域对未来的数字化产品和服务有着巨大影响。 ? 编者按:因为深度学习最近在语音识别、图像识别等领域取得的突破,很多人都把人工智能与深度学习混为一谈。...

3784
来自专栏ATYUN订阅号

【学术】试试这个!研究人员设计出了更好的推荐算法

改进的推荐算法在评级数据“稀疏”的情况下尤其有效。 ? 亚马逊和Netflix等网站的推荐系统使用了一种名为“协同过滤”的技术。为了确定一个给定的客户可能喜欢...

3505

扫码关注云+社区

领取腾讯云代金券