清华大学邓志东教授:国内研究氛围浮躁,原创性算法太少

AI 科技评论按:自去年 3 月 AlphaGo 战胜李世乭后,人工智能「突如一夜春风来」地步入人们视线,业已成为家喻户晓的一个名词。目前,以深度卷积神经网络为核心,以计算机视觉、语音识别与自然语言处理为代表的人工智能产品已经步入全面开发与大规模产业化应用阶段。这一趋势实际上与人类的视听觉感知能力息息相关,但不少初涉这一领域的从业者或是对此感兴趣的学生们却依然是雾里看花,原因不外有二,一是在学习理论的过程中,自学往往缺乏系统的归纳和整理;二是教科书跟不上产业界的技术变化,而网上信息良莠不齐,自学者也缺少及时且实用的教程。

为了推动 AI 人才全面化,AI 科技评论将为大家提供一个业界顶级的专业 AI 技术培训平台:1024MOOC,作为长期站在研究第一线的学者,清华大学计算机系教授、博士生导师邓志东也见证了近年来人工智能从冷门到大火的历程。

在 AI 科技评论的邀请下,本周末(3 月 4 日),邓教授将于 1024MOOC 平台开展长达 20 小时、持续两个周末的「人工智能之神经网络特训班」课程,系统地为报名课程的同学们介绍人工智能中的神经网络,特别是深度学习的发展现状、基本原理和主要方法,并结合具体应用案例,进行编程实操剖析。课程将强调各种理论方法在解决实际问题中的综合应用,也将补充介绍最新的科研成果与前沿领域,详情请扫文章底部二维码了解。

目前我们所了解的人工智能,最起初是 1956 年 McCarthy、Minsky、Shannon 和 Rochester 等在 Dartmouth 学院发起的夏季研讨会上提出的概念,人工智能被界定为「研究与设计智能体」的工作,而其中智能体的定义就是「能够感知环境,并采取行动使成功机会最大化的系统。」

人工神经网络最开始是基于 MP 人工神经元模型和 Rosenbaltt 的感知机发展起来的。而现在非常流行的深度卷积神经网络则经由 1974-82 年日本学者 Fukushima 提出的认知机 (cognitron) 和神经认知机 (neocognitron) 模型演化而成,它的原理正是模拟人的视觉皮层通路而构造的。如果要将深度神经网络与人脑生理构造做类比,邓教授认为这就相当于飞机与鸟的关系。「飞机并没有像鸟一样有两个扑翼式翅膀,用纯生物的内部机理去模仿,这样的飞机肯定是没有多大实用价值的。我们现在设计的飞机,利用的是空气动力学、引擎和固定机翼等,但人造的飞机不论是飞行的续航里程、高度或是载客量,都要远远超过生物鸟。」

因此,如果现代脑科学或是神经生物学领域有任何的进步,对人类在深度神经网络的研究与探索,都会有很大的启发,也是极其重要的创新源泉。而自然地,由于人类最重要的两个感官就是视觉和听觉,因此计算机视觉、语音识别与自然语言处理就成为了目前应用领域最广,发展最快的三个分支。

包括人脸识别、视觉物体识别、交通标志识别在内的计算机视觉特定应用场景,其识别性能目前已经达到了人类水平,基于深度学习的语音识别、自然语言处理的性能也比传统方法好了很多。而这些在邓教授看来也是此类弱人工智能技术能迅速受到产业界关注的根本原因。技术的进步同样会催生应用开发的商业落地,因此与人类水平的性能比较距离自然就成为了分水岭。「以往的人工神经网络性能与人类相比还是差得太远,产业界鲜有人关注,也没有什么商业价值。」

而语音识别及机器翻译等方面的内容,虽然还没有达到人类水平,但相比之前也已经有了很大的技术突破。目前,文本分类利用深度神经网络,其研究的门槛也已经降低了不少,系统可以通过深度监督学习获取文本与类别的映射关系,识别正确率也已经有了很大的提升,超过了传统的 n-gram 方法。

但在邓教授看来,这方面神经网络识别能力尚未达到人类水平的根本原因在于,神经网络对语义还不能实现理解。

「一个正常人一睁开眼睛,在无意识的过程中就能够将一切物体进行分类或已有了真实物体对应的概念,之后就可利用已存储在头脑中的常识了。我们都知道杯子一定要放在桌子上,而不可能反过来,这种概念之间的相互关系实际上就是人类的常识。原来的符号主义走了很长时间也无法进行下去,而我们也不能再走老路。从深度卷积神经网络获得分层特征的表达学习,从概念到知识,再到更高层次的概念和知识,如此形成不同粒度的知识图谱,这样才有可能实现人类在人工智能上的突破。」因此邓教授强调,人工智能研究的关键在于一定要建立在已有的感知智能的成果基础之上。

在理论层面的前沿探索上,以无监督或半监督学习为研究导向的生成式对抗网络(GAN),带注意力(attention)、记忆(memory)和捷径 (shortcut) 的 LSTM 等,都是目前进展比较快的一些研究。而为了发展通用人工智能与实现语义理解,邓教授认为需要结合自上而下的知识驱动与自下而上的数据驱动,以便利用小样本也能完成深度神经网络的训练。

随着学术界频传佳音,产业界自然也在寻求着变化。邓教授认为,要实现产业化最重要的是选择一个落地的垂直细分领域,以适应带标签大数据的获取。而很明显,高校比起市场嗅觉灵敏的企业来说并不擅长这样的工作。高校主要专于前沿交叉技术的研究与探索,对行业情况与用户需求则缺乏深透的了解。但对产业界而言,人工智能技术在行业应用时一定要选择好特定的应用场景,算法则反而不是最重要的。

这是一个新兴领域的产业链,而企业在大数据来源和计算平台资源两个方面都完全碾压高校。

高校研究通常采用的是像 ImageNet 这样的公开数据集,主要目的是为了对算法进行性能测试,自然也没有什么商业价值。而企业并不会对外公开与公司利益相关的数据,除非合作,高校自然也拿不到手。

而在计算资源上,一块 K80 的 GPU 可能就是四到五万元,而百度这样的企业可能会买 2000 块来搭建超大型集群服务器,大概就是 8000 万到 1 个亿的价格。而 GPU 跑起来功耗特别大,可能高校连付电费都会觉得很吃力。

「高校的优势其实在于能够看得更长远,在国家的支持下可以做更长远的前沿研究与布局。我们一直认为,如果某领域企业开始强力介入了,高校最好就放弃吧,应该去做一些企业目前不太关注的,更具前瞻性的研究,比如量子计算,甚至是自主飞行的机器人。我自己感到的是一种强烈的危机感:全世界的顶级跨国企业都进入人工智能领域来了,其实国内高校并没有什么优势。我认为,除非高校自己在体制机制上有了更大的创新(比如通过建立国家实验室),否则与谷歌、Facebook 等跨国企业的差距会越来越大。如果能有类似谷歌、 Facebook 这样量级的大公司牵头中国人工智能的发展,我觉得中国的人工智能才能看到引领世界的明天。」

这种境况也催生了学术圈的两种主流去向:一种是直接跨入产业界,如多在互联网公司研究院同时涉足产业与学术研究,以 NYU 大学教授 Yann LeCun 加入 Facebook 为代表;另一种则是学术界,产业界双栖的代表,比如山世光去年创办中科视拓。在邓教授的想法中,他个人比较看好第一条道路,毕竟注意力的集中有利于研究的专注性。「你想什么都得到的话,实际上可能什么都得不到。」

但他也指出,目前包括谷歌、Facebook、微软及百度等在内的一些跨国企业同样提供了非常良好的学术研究环境,早已成为国际顶级人工智能会议的主角,这可以算得上是产业界通过学术研究回报与影响世界的典范。国内企业的优势在于更大规模的应用场景和可能拥有的大数据,特别是目前商业模式的创新与落地速度很快,再加上政府的支持力度很大。但人工智能原创性的算法在国内一向非常鲜见,按邓教授的理解,现在国内大部分的学术研究都热衷于对原创模型进行修修补补,「刷纪录」或称「刷数据」。目前的研究氛围总体上还是比较急功近利和浮躁,缺少大的理论与方法创新。

现在人工智能虽然很火,但还是处于刚刚起步的阶段,有很多问题需要解决。但学生是否愿意耐得住寂寞坐冷板凳,即使在几年内没有研究成果还会坚持下去?邓老师认为,最重要的还是学生的兴趣。「科学研究本身就是一种兴趣,所以同学们如果真的对人工智能感兴趣,那么可能真的是废寝忘食,而不是别人拿钱催着你走。」至于对做研究的同学有何建议,邓老师觉得可以尽早跟着老师去做一些科研类的项目,「占在前行者的肩膀上」,趁着年轻多出创新性强的论文。

但对于你我这样的普通人而言,需要怎样拥抱变化?「我们生活在三元空间里,一个是物理空间,一个是信息空间,再一个是人类社会。天天涌现那么大的数据量,肯定是要进行数据自动化的,而目前刚好出现了(弱)人工智能技术对它的支撑。人类文明不断进步,很大程度上也是因为环境发生了变化。人类已具有自动适应环境变化的能力。人工智能的进一步发展势必优化、补充和取代许多仅需简单脑力劳动的职业,但一定会产生新的工种出来。马车时代对汽车问世的担忧,没有必要,同时也不以人的意志为转移,那我们就顺势而为吧。」

而如果你不想被动地接受这样的变化,想在人工智能浪潮里有所作为的话,从邓教授本周末开始的深度神经网络课程开始学习,或许是一个不错的选择。

卷积神经网络早在1975年就被提出,而在1995年被正式命名,又在2012年因Hinton团队ImageNet大赛夺冠而闻名,2016年的阿尔法狗更是将人工智能推上了高潮。邓志东教授从事包括深度神经网络在内的人工神经网络研究25年,在清华授课20余年,他在一线教育上感受到的人工智能发展比我们更加汹涌。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-02-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏我是业余自学C/C++的

String

1303
来自专栏WindCoder

Intro to Python Image Processing in Computational Photography

Computational photography is about enhancing the photographic process with compu...

241
来自专栏后端之路

tomcat 生产环境crash

最近生产系统erp不太稳定,时不时出现tomcat crash,并且log下面没有留下任何证据。 收到邮件如下 告警主机:f6_web0 告警时间:2016.1...

1847
来自专栏算法修养

CodeForces 667A Pouring Rain

A. Pouring Rain time limit per test 1 second memory limit per test 256 meg...

2565
来自专栏练小习的专栏

转一个css3绘制的iPhone6

css3绘制的iPhone6 <!DOCTYPE html> <html> <head> <title></title> <style type...

1718
来自专栏小樱的经验随笔

Codeforces 626G Raffles(贪心+线段树)

G. Raffles time limit per test:5 seconds memory limit per test:256 megabytes inp...

2405
来自专栏c#开发者

How to access gridview cell values on client side

In this article I will be discussing how you can use client side javascript to a...

36010
来自专栏专注数据中心高性能网络技术研发

[Repost]A Survival Guide to a PhD

This guide is patterned after my “Doing well in your courses”, a post I wrote a ...

2565
来自专栏静晴轩

lua Standard Libraries

The standard Lua libraries provide useful functions that are implemented directl...

2689
来自专栏专注数据中心高性能网络技术研发

[Repost]The care and maintenance of your adviser

Published online  26 January 2011This article was originally published in the jo...

26511

扫描关注云+社区