百度IDL主任林元庆解读:人工智能技术研发的四大支柱

近日,百度深度学习实验室主任林元庆在百度年终媒体分享会上做了《看懂AI-百度技术开放日》的演讲,从客观层面阐述了人工智能技术研发的四大支柱,为我们呈现了让人工智能更深层,更极致的方法论,下面是演讲精华摘要。

人工智能有三大要素,就是前面我们看到的机器学习算法,大数据,大规模计算。但这里我们特别要强调一个要素——大应用。人工智能领域真正要做到极致,很深地去解决一些问题,就需要加上大应用这个要素。

机器学习算法

下面先讲第一个要素,机器学习算法,这里我们重点要讲的是深度学习。百度深度学习实验室旗下目前正在做的有10个大方向,都跟深度学习和计算机视觉相关。

  • Paddle Paddle(深度学习平台。早在2013年就开始研发。)
  • 图像检索
  • 通用图像技术(包括物体检测和图像分割)
  • 人脸识别
  • OCR文字识别
  • 视频分析
  • Learning Robot
  • 细粒度图像识别
  • 医学图像分析
  • AR

下面以深度学习做机器翻译为例,这是一个非常有名的机器翻译的数据,这是英语到法语中的测试结果,在用我们的方法做之前,大家的方法很少能把机器翻译BLEU评测值做到37.7的,我们去年开始用深度学习方法后,第一次用深度学习方法做出了这个专家系统,是目前为止最深的NMT模型。

大规模计算

大数据这里我们要讲的是,大规模计算。

我们正在做的一件事情,是要把我们的计算环境开源,下面是我们已经在部署的一个非常大GPU BOX,现在商用的GPU BOX基本上是4块到8块,但这样的话,机器跟机器之间的并行,不会那么高效,所以我们弄了可容纳多达128块GPU的GPU BOX,现在我们准备开放出来,给工业界,给高校都感受到这个大规模计算的能力。

大数据

我们需要很多大数据。人工智能的研发轨迹,经过一个比较久的储备后,在经过了前期技术和早期应用之后,它会有一个非常非常快的上升期,然后这个上升期的重要性,大家可以理解成一个正循环——数据,技术,产品,用户,更多数据,更强的技术——有了产品,有了用户去用,就会产生更多的数据,有了更多数据之后,就会有更强的技术,因此人工智能研发轨迹其实是一个非常重要的正循环。

大应用

这里要总结的是,AI要做到极致,必须有大应用。以人脸闸机为例,乌镇互联网大会上的闸机,20台人脸注册终端,实现了乌镇景区年流量近千万游客的多次入园需求,站在追求大应用的维度上,虽然我们不是第一个做人脸闸机的,但我们可以成为这个行业真正的改变者。

总结:

前面我也有说道,人工智能有三大要素,就是前面我们看到的机器学习算法,大数据,大规模计算。但这里我们特别要强调一个要素——大应用。人工智能领域真正要做到极致,很深地去解决一些问题,就需要加上大应用这个要素。

附:在今年 10 月的 IROS 2016 年大会期间,雷锋网采访了百度深度学习实验室主任林元庆:就 IROS、开源平台、AI眼下最重要的事情等问题进行访谈,以下是采访全文。

雷锋网:此行来IROS的目的?

IROS是世界上最大的关于Robitics的国际会议之一,大会的Plenary talk是会议众多演讲的重中之重。虽然平时我很少在外面公开做演讲,但这样一个学术性的talk既然主动邀请,就过来了,另外这也是向世界的Robotics研究人员介绍百度人工智能的好机会。

雷锋网:作为一个机器人会议中受邀的AI演讲者,机器人中需要用到AI的地方,可以概括一下?

很多,像我刚刚说的百度大脑里面,有语音识别,计算机视觉,NLP,推荐/预测,运动/控制,决策/规划,这几个AI大方向都是机器人学的重要基础技术。

雷锋网:CPU+FPGA,CPU+GPU组合更看好哪个?百度不同业务去分配的时候是如何决定用哪个组合的?

这两个技术都在进步,我们没有一个预设的立场,百度这两个方向都在应用。选择上,百度不同业务,训练阶段大部分用的大部分是GPU,testing阶段有用GPU,也有用FPGA的,更成熟的业务可能会选择FPGA,这样优化的空间会更大一些。

(看你刚刚放的PPT划分的百度AI相关业务,这些业务用哪个组合会有明确的选择吗?)

这个很难讲,人工智能不是单个技术,而是包含很多很多的不同技术,以计算机视觉为例,它就有图像分类,物体检测,图像分割等不同技术。GPU和FPGA对不同的任务,可能各有优缺点。

(就是一项业务训练的时候用的GPU,实际应用的时候可能转到FPGA?)

对,是这样。

雷锋网:现在ImageNet比赛结果对工业界的意义在哪里?

这几年ImageNet的竞赛涌现出一些非常有用的算法,比如AlexNet之后的GoogleNet, VGG, ResNet等,对工业界的技术性能的提高,有很大的推动作用。ImageNet一个很大的意义是在于推动算法的革新。这对工业界和学术界,都是非常有意义的。

同时,工业界打造的产品,常常需要go beyond ImageNet。我记得第一年(2010年)ImageNet比赛我们拿了第一名。我是当时项目的负责人。但之后我们发现ImageNet的结果很难直接用在产品上。我们后来开始主攻细粒度图像识别。百度糯米这个月下旬将推出一个非常重要的功能,其中的一个重要技术就是菜品图像的细粒度识别(识别图片里的菜品是哪个餐馆的哪道菜)。即使是通用的图像分类,百度的图像库有接近1亿张带类别标签的图片,比ImageNet Challenge(150万张图片)的大很多。我们内部的数据要比公开的数据大很多,需要更好地反应我们要解决的问题。

雷锋网:你现在领导的十个业务都跟之前主攻方向之一大规模细粒度图像识别有何关系?

对,有很多关联的。最直接的当然是细粒度图像识别方向。我们希望在百度搭建一个非常强大的细粒度图像识别的研发团队。其它的项目与这也有关联。比如人脸识别就是一个最经典的细粒度图像识别任务。很多技术是相通的。还比如我们的医学图像分析,它的很多做法与细粒度图像识别也有相通之处。

我们现在强调做instance-level的细粒度图像识别。比如,我们身下坐的这把椅子,我们不单单只是识别这是一把椅子,我们还需要识别出这是哪个厂家哪个型号的椅子。还比如前面提到的“哪个餐馆哪道菜”的识别。这些都是非常精细的识别。这些问题当然都很难,需要投入很大的研发力量。但应用前景是非常大的。

雷锋网:跟之前NEC的工作有什么内在联系?

NEC美国实验室在美国是非常优秀的实验室,也在AI上做了非常多的工作。我也非常幸运地在那里做了7年半的研究,包括最后三年多作为实验室媒体分析部门的负责人。当时的工作与现在的工作一脉相承。

雷锋网:刚在演讲最后,你讲到AI大幕已启,接下来让它走地更远的话,最重要的一步是什么?

最重要的一步是要有用,能解决实际问题,真正能解决一些很重要的问题。比如自动驾驶,那就是要真正能上路。人脸识别,就是什么情况下人脸识别都能识别得非常精准。

雷锋网:作为过来人分享一下,学生选Robotics专业的时候要注意什么?

机器人,包括AI,大家可能会有一些误解,觉得这是单一技术,但其实它涵盖的技术非常复杂,而一个人是很难去解决所有的技术的。像今天第一个talk讲的机器手抓取,从应用角度来看这是一个非常特定的领域,但这个方向做学问的话你都可以做很久。

我个人的倾向是注意不要大而全,要根据自身的兴趣和特长定一些侧重点。我经常会跟我身边的人说,要认准一个方向,做到这个方向的Mr. something,比如Mr. fine-grained image recognition。这样你的事业可能就越走越宽。

雷锋网:作为一个AI参与者,前不久余凯发了一个声明:“一直以来我非常钦佩谷歌的Jeff Dean在MapReduce和谷歌大脑(TensorFlow)等项目上的杰出成就。但是,我必须指出,放任TensorFlow成为世界上占统治地位的人工智能开发平台对世界是危险的。……” 如何看这个观点?

AI的平台很重要,确实需要多样化的选择,上次我也回了他朋友圈,认为我们这一代人应该团结起来,推动深度学习平台的开放和多样化。百度现在有PaddlePaddle深度学习平台,这个其实是百度花了非常大的资源做的一个平台,现在开源了,希望能在中国人工智能领域贡献一些我们的力量。

雷锋网:之前PC时代,Windows出现了就有Mac OS,还有Linux; 移动互联网时代,iOS出现了就有Android;从来没有一家独大的时候,会不会AI平台也不用担心?

还是不太一样。很多AI技术有一个正循环效应,越多的人来用,你的系统越好,这样会吸引越多的人来用。你已经快速迭代了甚至已经做到极致了,别人再去重新开始一个,难度是比较高的。

小结:

林元庆在演讲的过程中,以及会后采访的过程中,一直在强调AI大幕“已经启动”这个关键动作,虽然“人工智能”这个概念最早从1955年8月31日就开始提出,但从当时的诞生,到中间的两起两落,一直像个蹒跚学步的孩子一样经历了60年才迎来了第三次复兴的浪潮。

1956年到1974年,全球第一次人工智能浪潮出现。 1974年到1980年。第一次人工智能冬天出现。 80年代出现了人工智能数学模型方面的重大发明,第二次浪潮出现。 1987年到1993年现代PC的出现,让人工智能的寒冬再次降临。

不过这一次,随着硬件,数据,算法三板斧的默契配合和发展,AlphaGo与世界顶级围棋高手李世石的人机世纪对战,人工智能已经从基本的语音识别,图像识别,向着自动驾驶,视频,AR,医疗,金融等各种领域无声地渗透,也引发了全民关注AI复兴的热潮。

老骥伏枥,志在千里。如果说过去60年是它从孕育到踌躇的“蹒跚”周期,那往后60年,将会是它揭开“无穷大”大幕的周期。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-12-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据猿

影创科技的创始人兼CEO孙立:AI在增强现实中怎么用

数据猿导读 我们在光学上做了非常多的研究。首先是现在国内外量产能力非常不错的一个产品,是自由曲面,通过可量产的方案解决增强现实眼镜价值比较贵的问题。当然如果个人...

3025
来自专栏BestSDK

火爆的机器学习和人工智能,为何在金融业四处碰壁?

在2008年金融危机期间,银行业认识到,他们的机器学习算法是基于有缺陷的假设。 因此,金融体系监管机构决定需要额外的控制措施,并引入了对银行和保险公司进行“模式...

3326
来自专栏AI科技评论

学界丨神经网络之父 Geoffrey Hinton:深度学习的下一个飞跃是什么?

Geoffrey Hinton,图源网络 AI 科技评论按: Geoffrey Hinton 被尊称为“神经网络之父”,他将神经网络带入到研究与应用的热潮,将“...

37811
来自专栏AI科技评论

动态 | 2018 NAACL语言学习建模竞赛:英语组冠军先声教育展望自适应学习技术

2018 NAACL语言学习建模竞赛对自适应学习技术的进步有巨大意义,AI 科技评论特邀秦龙博士,与他交流了大赛中的自适应领域最新研究成果。

702
来自专栏AI研习社

2018 NAACL语言学习建模竞赛:英语组冠军先声教育展望自适应学习技术

雷锋网 AI 研习社按:第十六届北美计算语言学会议 NAACL 于 6 月初在美国路易斯安那州的新奥尔良召开。NAACL 是自然语言处理与计算语言学领域的顶级学...

642
来自专栏钱塘大数据

麦肯锡用数据说明,关于深度学习有120个商业机会

麦肯锡研究发布了深度学习将影响的12个领域,每个领域又分为10个方面。换言之,这就是深度学习的120个商业机会。 有理由相信,深度学习将彻底改变以下提及的这1...

33610
来自专栏PPV课数据科学社区

深度学习与人工智能革命:part I

? 导读:人工智能始于思想实验,深入了解AI和深度学习的历史,并了解它们为什么现在取得快速的发展。 深度学习(DL)和人工智能(AI)已经不再是科幻小说中遥不...

2514
来自专栏大数据文摘

你应该知道的人工智能三大分类

1604
来自专栏企鹅号快讯

回顾2017,AI “教父” 这么说

2017年AI界是百家争鸣,在全球掀起了一波巨潮,工业机器人、语言翻译、自动驾驶、机器人诊断等呈现出过程式的飞跃进展。 不过,在AI“教父”Geoffery H...

18910
来自专栏奇点大数据

AI 换脸技术——DeepFakes 概述(二)

本文由图普科技编译自 Exploring DeepFakes。 相关文章:AI 换脸技术——DeepFakes 概述(一) DeepFakes的“短板” 尽管D...

3257

扫描关注云+社区