[重磅]百度研究院副院长余凯:大数据与人工智能(41PPT)

演讲人:余凯(百度研究院副院长) 摘自:数据派(微信ID: datapi) 数据派是清华大数据产业联合会官方微信,经常组织线下讲座并发布干货内容

导读:什么是智能?智能对我们的生活有何影响?它的历史演变是什么样的?大数据文摘今天带您回顾余凯博士《大数据与人工智能》的演讲,了解百度大脑所思考到的人机关系和深度学习,以及百度大脑在业界广泛应用的案例。

本讲座选自百度研究院副院长、深度学习实验室主任,兼任负责百度图片搜索产品高级总监余凯博士所做的题为《大数据与人工智能》的演讲。余凯率先在中国推动人工智能在互联网行业的技术研发和创新,余凯博士带领的团队把深度学习成功应用在广告,搜索、图象、语音各个方面,取得了很多突破性的进展。

讲座摘要

首先,余凯简要介绍了什么是智能,并就智能对生活中的影响、渗透的行业和历史演变进行展开,提出了万物互联导致数据暴增,进而导致万物智能的观点。之后,余博士以百度大脑为线索,提出了当今社会百度大脑所思考到的人机关系和深度学习,并分享了百度大脑在业界广泛应用的案例展示。

演讲全文

数据科学已经在决策科学、社会科学、经济学里面扮演越来越重要的角色,所以这种交叉融合,这种碰撞对我们每一个人来讲都是学习的机会,也是一些施展才华的空间。最近在各个场合有一些分享,今天我尤其要把这个讲座做好。今天是我儿子第一次坐在下面听我的讲座。

过去我们做的这些工作是跟数据有关系的。一个大数据、一个人工智能,这两个放在一起,今天很多的企业会这么重视,在这里给大家分享一下我们自己的故事。百度在过去两年多的时间里面,在人工智能领域有很多技术方面的投入。今年李彦宏在两会上提出中国大脑,很受关注;麻省理工学院科技评论杂志去年专门发表了一篇评论性文章,介绍百度的人工智能之梦。在国外主流的科技杂志里面报道一个中国企业的科技研发,还是比较少的。我自己感到非常的振奋。

百度的背景,和很多的互联网公司都是一样的,从技术的纬度来讲,他本质上是一个基于大数据的人工智能公司。我们是提供一个搜索引擎,这个搜索引擎下面有一个非常精致的结构,它可以搜索到各种信息、知识,而且服务是完全免费的、给用户带来价值的。但是我们获得了了大量的搜索行为数据,并实现它的商业价值,就得通过广告、推送服务。从数据到价值,这中间就需要大量的技术,尤其是基于大数据的人工智能技术,包括机器学习,自然语言处理,语音识别,图像识别。

最近在全社会,无论是在中国还是美国,还是科技媒体,还是研究机构,还是商业公司,都在谈自动驾驶、机器人、物联网、个性化、VR、AR。其实这些都是AI的各个领域,现在AI已经成为科技创新的主战场,它不光是未来时,而且是现在进行时。我们看电影《超能陆战队》,看似是未来的东西,但是今天很多领域正在发生,也在产生价值。

到底什么是人工智能?

严肃的科学定义到今天为止,没有一个广泛接受的定义。比如说,有一种说法叫强人工智能,有一种说法叫弱人工智能,还有基于符号逻辑的、也有基于统计模型的,有不同的观点。抛开这些不同的观点,通常一个人工智能系统有这样几个方面:

第一,我们希望这个系统具有感知的能力,就像人一样,有五官,可以感知周围的环境是什么样的。

第二,获取这个感知以后,对面临的环境有一个理解。比如说对于一个机器人来讲,他在感知到这个环境以后,如果想到后面去跟一个同学聊天,他需要寻找最佳路径。他必须要理解,那条路是走不通的,那条是可以走的。

第三,在理解的基础上做出决策,从而达成目的或完成任务

一个机器要感知,然后理解,然后决策,这是一个过程。今天在市场上面无处不在充斥着智能产品:智能汤勺、智能水杯等等。我们把一个老式的收音机和智能设备放在一起比较,他们有什么不同?区别一个系统、一个产品是不是真的具有智能的能力,有一个很重要的纬度,就是这个系统能不能随着用户用它的次数越来越多,它变得越来越聪明,它是不是真的随着经验积累在不断的演化。如果它是这样的,它就是一个能够自我学习、自我进化、自我演化的、智能的系统。所以,学习能力是智能的本质属性之一。

在座有的年纪跟我相仿,在小学的时候有过一篇课文,讲的是一个科学巨匠做小板凳的故事,他做的那个板凳非常的丑陋,但是我们能不能说这个小朋友不聪明?如果你看他过去几天做的每一个小板凳,他一个比一个做的好,他具有不断的从经验里面去学习的能力,使我们发现这个小朋友是非常具有智慧的。你看一个系统今天的能力不是最重要的,最重要的是它的增长曲线,随着大数据不断增加,不断去使用这个系统,它能变得越来越聪明。

这里面我提到了经验。经验就是数据,数据就是经验。我们在机器学习里面有一个词叫经验数据。随着经验演化,就是随着数据的不断增长,增长你的能力。为什么我们迎来一个大数据的时代?因为从PC互联网到移动互联网,带来了一个数据的爆增,在我们日常生活里面,每一个人都在贡献着大量的数据。

这样一个场景,是在圣彼得教堂门口的广场上面,很多人来等待教皇选举结果。在八年以后,在同样一个地方,可能是同样一群人,同样的故事仍在上演。但从一个纬度来看,移动互联网在改变每个人的生活,每个人的手持设备在跟着你,它无时不刻的在产生数据。

今天,每个人身上连着两到三个移动设备,比如说手机、iPad,这样一个趋势往前演进,人机交互是指在这个环境里面有无数个设备跟你感知、交互。现在手表也已经是一个智能终端了。

总的来看,具体的趋势是我们将进入一个万物互联的时代。随之带来的是每个你的设备都会记录你的数据,人跟设备的连接,人跟人的连接,物与物的连接,设备与设备的连接都在产生数据。所以,这是一个机会,万物互联将形成大量数据无处不在的生态,给我们带来的机会就是智能化时代的来临。

2014年,我们突然看到那么多科幻的电影,那么多人在讨论这样那样的,包括习总书记也在院士大会上谈到机器人。所以这不是偶然,这有一个时代的背景。

在大数据的时代,智能变得越来越重要。

有一个技术,最近很多研究机构,包括公司都有很大的投入,这个技术就叫深度学习。深度学习为什么会在这个时代这么受大家的关注?谷歌、微软、Facebook都有专门的研究团队,Facebook2013年9月份第一次成立了研究院。今天很多中国的互联网公司都成立了这样的研究院。

百度在这方面做了很多的工作,其中一个表现就是百度大脑项目,这个项目是一个有着上千台服务器,包括PC服务器和GPU服务器的大规模数据处理系统。去年我讲的是百亿级的产品,世界上最大级的深度神经网络,最近我们把它升级到千亿级的系统。

基于这样一个工程的能力,我们能够去开发各种各样深度学习的算法,用在语音、图象、自然语音理解、广告的用户匹配、用户的建模等等。

百度大脑目前最成功、最重要的四个利用的领域:

第一,搜索。我们用深度学习作用在自然语音、文本、网络的语意上面,去衡量他们语意的相关性。

第二,广告。因为广告是要智能的匹配,因为如果这个广告不被用户点击,我们挣不到钱。

第三,图象。包括今天李彦宏讲到了自动驾驶,自动驾驶里面图像技术是非常重要的。

第四,语音识别和理解。最近这几年业界取得的进展,包括百度做的工作。语音识别在三十年的时间里面是一个进展非常缓慢的领域。但是最近三四年时间里有一个突飞猛进的进展,原因的核心就是基于大数据的深度学习技术。

这些应用领域在业务结构里面扮演什么样的角色?它怎么把这些事情串起来为公司的核心业务产生影响。

第一,理解意图。比如说我们的用户来到百度这个平台,传统上来讲,他用关键词表达他的搜索需求,但是我们看到最近这两年有一个趋势:第一,用户需求表达越来越复杂,以前很多是搜索信息,现在很多是服务的需求,这里面有很多复杂的语意来描述需求。

第二,更多自然的方式表达你的需求。比如说自然的语音、句子去问问题,比如说在移动终端上面用语音表达。现在有的APP就是拍个照,小朋友帮助你做题。这种自然的表达方式是第二个趋势。你用深度学习理解自然语言、语音识别、理解图象变成是理解用户的意图。

第三,你在理解了意图以后,你需要连接用户跟他需要的信息。你在信息、文章那一端需要有更好的理解,这个理解需要有更好的匹配。匹配用户的需求,就是优化搜索结果的智能排序。

第四,精准推送广告和服务。深度学习在每一个领域都发挥着重要的作用

为什么深度学习在今天受到重视?

第一点,我觉得是一个很浪漫主义的原因,因为我们总是在想我们的机器能不能复制人的智能,复制生物的智能。所以有一个观点是,深度学习可能跟人脑的机理是有关系的。确实也是,最早期的去启发做深度学习的研究,确实是受到人脑的启发。

第二点,特别适合大数据。其实到今天,深度学习为什么重要的第一个原因是最不重要的,因为你去研究鸟类怎么飞行,跟我要造一个飞机是不一样的事情。但对于我们来讲,尤其对我们工业界来讲,我们希望能够造出智能的机器,他不是去再现人的智能,而是要利用大数据去延伸或者互补人的能力。

第三,端到端的学习。过去做模式识别或者机器学习通常会分为两步,第一,根据你对问题的理解,人工的、人为的去做一些数据的预处理,这里面对人的要求是很高的,你需要非常精准的对问题进行理解。但是你一旦换一个问题,你需要重新去理解。深度学习把学习跟判定是连在一起的,前面不是人工的,它也是学习,但是一个一气呵成的从端到端的学习,这个非常重要。因为它让你这个学习更加智能,它可以让你从一个领域迁移到另外一个领域,它可以减少人工带来的不必要的麻烦。

第四,提供一套建模语音。深度学习,你不需要对问题有很好的理解,这是一个错误的观点。因为深度学习跟我们在机器学习里面的图模型一样,也是一套语言系统,他让你表达你对这个问题的理解,如果你对这个问题不理解,深度学习对你来讲没有用。在不同的问题里面,我们需要开发不同的深度学习的模型。

回到第一个浪漫主义的观点,深度学习跟人脑的关系。计算机视觉里面一个很著名的深度学习的模型是卷积神经网络。他们做这个的时候受到一个模型的启发,这个模型80年代获得诺贝尔医学生理学奖。他讲的是视觉神经系统早期在视觉皮层里面怎么样处理视觉信息。

用很多的图像数据训练卷积神经网络,这个网络能够非常接近的体现视觉神经系统的行为。每一层的神经元是一个特征提取器,一个具体的神经元对什么特征敏感,这里面讲的是他对不同朝向的边界敏感。更高一层,把下面这一层提取的结果,去组成更复杂的模式匹配。如果是两条边你结合在一起会形成一个物体的各个部位,比如说鼻子的提取,再往下走,就更具有语意,他可以把下面的东西组成更加丰富的物体结构。这里面他是一个从信号逐层抽象、逐层变换的过程。跟我们今天所了解的生物视觉系统是非常相关的。但基本上我们只是知道这个联系,今天为止,我们做的很多的工作跟这个联系并没有太多的关系,也未受这个联系的束缚。

从另外一个观点来讲,从统计和计算方面来分享。在机器学习里面,我们关心的是推广误差,他不是看在现有数据集上面效果怎么样,而是在未知的数据上,这个系统在训练的时候没有看到的地方,叫推广误差。去年夏天,因为我们家小孩是在美国长大,刚刚回来,刚刚从一年级开始学习,中文不太好,他有一次考完试以后跟我讲,考的不好,70几分;第二天他特别高兴的跟我讲,爸爸,我考了98分,我说这太好了,一天之内进步这么快。他说因为今天的考题跟昨天是一样的。这不能真实反应学习者的能力。推广误差要在你没有见过的数据集上面衡量他的效果怎么样。

一个经典的分析方法是把推广误差分析成两部分,我们来看错误源在什么地方。第一个叫Approximation error,也就是假设,没有假设就没有学习,你在学习做推广的时候就一定有假设,你从已知推向未知,中间一定有一个结构在里面。古代我们讲近朱者赤,近墨者黑,这有一个相似性-如果是相似的物体具有相似的属性。这里面隐含着函数平滑假设,我们做一个假设,通常反映在你的模型中间,所有的假设可能是错的。在统计学里面有一个,假设不完美,你在假设空间里面一定能够找到最完美的那个。

第二个推广来源是Estimation error,这是来源于数据的不完美。你的训练数据和测试的数据来源分布不一样。更多的时候是说你的数据是有限样本,如果你在有限样本上面得到的估计量是不准确的。因为我们的估计量是在无限样本里面去估计他。

光分析这两个东西是不够的。通常来讲,在统计学的范畴里去分析这两个东西,统计学家关心的点,跟计算机科学不太一样。计算机科学关心的是,我今天跟老板申请五百台机器,老板说不行就五台。你说老板,给我五个机器,我要算两个月搞定,老板说,你今天不搞定不能回家。所以是有限的资源下面去分析这个问题,在资源的有限性上面,你要去分析这个问题。这里面一般是求解的不完美,考虑计算的不完美。

这里面给我们最近的机器学习提供了最近的误差,我一开始在机器学习上面右层的集成,最好的一层是20层。第二,大量的数据,让你在这上面经验性的判断接近你的期望值。第三,我要设计一个非常精巧的算法,求得一个非常完美的解,这个完美的解算法非常复杂。一个能用的算法,它得有比较好的性质,让你可以消化大的数据。把这三点都放在一起,大家可以理解,为什么在大数据的时代深度学习变得这么重要。

我们看这两个纬度,随着数据规模的增长,效果是怎么样的。传统的人工智能算法可能由于这个模型的空间是有限的,复杂度不够高,数据多了没有用。或者你的算法本身不能处理大数据,比如说他的算法复杂度是数据量的三次方。一万个数据点你可以看懂,但是如果是十万个你就搞不定。

但是深度学习算法,由于它的模型足够的好,又能够掌握主大数据,所以他能够不断吸收数据红利,去年百度首席科学家AndrewNg带领团队在语音识别问题上取得了重大进展,把数据加到了几万小时,效果不断的加强。如果你的商业模式能够拥有这样一个曲线,我要恭喜你,因为大数据真正成为商业壁垒。。

第二,深度学习是一个灵活的建模语音。我们用不同的语音模型表达你的点,比如说图象,因为他是两维的,用卷积神经网络更加适合。我们去搜索语意相关性,传统的做法是人工抽取很多特征,变成一个学习问题,这里面完全是端到端的。我关心的是对于一个搜索的Query,我关心的是这两个相关性,但是它绝对的相关程度我不关心。深度神经网络给你的是一个语言,让你去表达你对问题的理解。

这是最近非常成功的一个神经网络结构。它叫Long—short term memory,它最近取得很好的进展:即在任何一个地方,时间跟历史的相关性是变化的。

比如说自然语言处理,你如果碰到一个右符号,你只要溯源到左符号那个地方,把中间所有的东西拿出来分析。根据你当前所处的状态,你是应该去找一个更长的。你遇到一个句号,你做语意理解的时候,你把过去历史所有的都要清零。在时间面前,时间和历史是不一样的。这个模型比以前的模型更加的rich。

我们在过去做字符识别的时候,一般先把字符分成一个一个单的图片,再识别它是什么东西,但是我们发现对于这样的问题是不可行的。在这种情况下,你可以做的是把整个字符序列放进去,并希望输出的是一个完整的字符序列。现在在这些领域应用都是最好的效果。

用另外一个更加不同的神经网络表达我的问题。我不是识别这个图象里面有什么东西,而是述说图片的故事:下午的阳光照在房间,有蓝色的地毯和白色的沙发…今天我们用理解图象的神经网络,经过很多非线性的变换,生成很多表达。他从这个词生成一个图象,再生成下一个词,我希望这个句子跟图象是有关的,使整个的语言也跟这个图象有关。根据你对这个问题的理解,神经网络深度学习给你提供了一个非常丰富的符号语言系统让你去表达你这个问题应该怎么搜索。

还有很多其他的例子,用深度学习提高搜索的先进性,用了深度学习以后,比没有用深度学习有翻倍的提升,包括语音的系统。最近我们用的语音系统,是一个真正的中文语音识别系统,我们用几万小时的声音来训练它,在识别率上面有很大提升。大家看新闻可能看到了,我们在英文的识别也是优于我们的竞争对手。

这是另外一个很有意思的例子,很小的一个产品,但是它是人工智能很多技术在一起的综合体系。这个是我的一个朋友,纽约大学的教授研发的,他到上海来,去餐馆看到这样一个菜单,他拍照识别,有一个OCR,翻译成英文,通过TTS就可以翻译出来。在纽约你想找川菜馆,他识别成中文,翻译成英文,通过这个英文随便给一个老外你问他。这个东西正在成为现实,中间的时延做的越来越好。

这是百度作业帮,小朋友夏天玩的没有时间做作业了,但快要开学了怎么办?如果我小时候有这个玩意儿,我会很开心,因为我有更多的时间玩。当然这个技术要善加利用,你可以去找到关键的识别点。

这一度让很多朋友玩的很high,每个小人物都有一个成明星的梦想,我们就能满足这样的需求。我访问谷歌的时候,有个是做深度学习最有名的多伦多大学的教授,现在在谷歌工作。当时他问我,深度学习还能活五年吗?我说不能,他听了很沉闷。但是其中的思想是有价值的,比如说分层次的思想,在非神经网络的系统和其他的系统都有作用。我们用深度学习做了这么好玩的东西,我们可以玩一玩,他说好,来玩玩。他得到了这个结果非常开心,立刻分享给他的老婆。

最近我们团队有一个挺好的结果,去年Facebook在测试上面,得到世界上最好的结果97.35%,前几天百度深度学习研究院得到了99.85%的成绩,终结了刷榜。常常我们会听说到某一个团队在一个数据上面做到怎么样的效果,怎么必须要客观的看,那只是证明他在这个数据集上做的最好,不代表他把这个问题给解决了,也不代表他的这个问题就可用了。人脸识别,今天谁要告诉你,说人脸识别可以用来代替指纹识别,我告诉你,那肯定是忽悠,没有到那个程度,但是终究有一天会做到的。

基于图象的理解,你可以做图片搜索,他不光做视觉相似形的匹配,还有语意的匹配。这里的结果看起来都不错,有一些细致的区别。这边下面是倒影,是水,这边看似是水,但是大部分是草坪、陆地,这边的结果全都是倒影、都是水。很细致的不同。

去年全球最好的物体检测模型,他告诉你有这个头盔,他也告诉你这个头盔在什么地方,用一个框给框出来。基于大数据的人工智能在过去几年已经发生了变化,我们静态来看、把这几年的进展串在一起看,效果还是很惊人的。在这个分类中,2010年世界最好结果,错误率接近30%。每一年不同的团队在这上面努力工作,每一年的错误率非常惊人的在降低,朝着零趋势发展。2014年最好的结果是百度取得的--7%。斯坦福的学者人工做了一下比对,他们发现人的识别率是5%,今年我们听到微软和谷歌的朋友已经做到大概3%、4%了。当然也有一些误导,比如说他能认识六七种不同的青蛙,谁能认识那么多种不同的青蛙呢?人的能力还是有限的。

过去的搜索引擎包括几个环节,数据信息的感知、处理、理解、学习,到决策、行动、创造,这是三个不同阶段。过去我们主要是从互联网上获取这些信息,今天因为是移动互联网,我们的服务离人越来越近,所以你需要更多从人的数据里面获取很多内容。我们跟清华大学的朱勇武(音)老师有973的项目,从人,还有物理世界,物联网(手机上面有各种各样的传感器,里面有一种重要的传感器是GPS,对物理世界的感知),这些纬度都变得越来越重要。相反,互联网上的数据以前是唯一,现在只是其中的一个信息来源。把这些信息都获取,我们也需要去向更加先进的人机交互的领域发展。比如说更加先进的传感器,我们现在在做3D建模,它是自动驾驶很重要的一个方面。因为车在什么地方可以走,什么地方不能走,哪个地方是主道,哪个地方是辅道…要不然这个车不知道怎么走。

以前传统的互联网的信息分析以后,我们通常去做预测、广告、搜索.但是今天,我们不光是在数字世界里面去做一些事情,我们是不是也在物理世界做一些事情。有一位专家说的很好,清华大学张院士说,机器人是互联网服务的最后一公里。比如说今天你在网上预定一个比萨,那边有人读到了这个信息,他来给你做这个比萨;某个人辛辛苦苦把这个比萨送过来…这里面有很多环节可以去优化。比如说这个比萨是不是真的做的非常的个性化,是不是非常符合你的口味?比如说今天我们在移动互联网上对每个用户的画像,可以做几十万个来描述你的兴趣。将来的这个比萨会做的非常的个性化。加多少胡椒粉都是针对你的口味,可以做到千人千面,可以让每个人都感觉是VIP。到底谁能做这件事情?机器人。因为他把这些数据瞬间读到他的数据库里面。谁来最高效的把这个服务最后完成,送到你家里来?机器人。张华院士说机器人是互联网服务的最后一公里,很有道理,很深刻。

当然人工智能还有一个很高的层次就是探索和发现。去探索过去没有的东西,3D打印在这里面扮演一个东西,他把一个计算的结果变成一个物理的现实。计算是没有边界的,计算生成的结果基本上也是没有任何的边界,所以他可以生成任何的东西,3D打印就可以帮助他实现。将来的智能延伸到物理世界里面去创造以前从来没有过的东西,这是一个可以预见的未来。今天对网络模型的规模有不断的追求,我经常可以听到某某单位可以实现超大规模的神经网络,这里面可以稍微做一些类比,我们可以看到不同物种的变化是很大的。但是如果你看他们的变化之间平均的连接,他们的区别其实没有那么大。我们发现更高层次的智慧物种,他有更大规模的神经网络,但是他的网络连接是稀疏的。你的物种不断增多,你的连接却没有变化,所以他一定是越来越稀疏的。这对我们是有一些启发的。

今天我们来比较一下人类大脑跟Supercomputer。人的大脑一般是1.5KG,2%的位置,但是它要消耗我们2%的能量,所以脑子是很消耗能量的。为什么中午会犯困,因为你吃饭以后血液都到消化道里面去了。某某朋友一天非常集中的做一件事情,最后会累的虚脱,哪怕他没有怎么动就是这个原因。我们的大脑有一千亿个neurons,每个数理有5000个神经原,每一个连接是200次/秒。我们大脑的计算能力是10的17次方。它是一个非常高效的计算,每瓦能量完成的计算量是5个Gliops。跟中国的天河二号比较一下,它现在的计算能力还没有达到人脑计算的一半,它现在是34个petaliops,它的计算效率是每瓦2.14Gliops。

这是我们和清华大学做的一个项目,它是真正的自行车,以前我们见到的自行车都是假的自行车,因为它不是自行。我们在做这个项目的时候有一些思考,这个思考就是人跟车的关系,我们觉得它未来是人跟马的关系,是朋友。如果你养一匹马,很亲以后,它跟你有一个交流,它也是懂你的,它也有自己的想法。

这是我们在百度做的自动驾驶项目。我们不把它叫做无人驾驶,我们叫做“高度自动驾驶”项目。首先这是一个非常典型的机器人项目,一个自动驾驶的车,装了这么多的传感器。这个车的后背箱堆满了服务器。感知、理解、决策控制,车的计算要直接控制、操控这个车物理的东西。这里面中国跟国外还有一些差距,首先要实现线控,中国绝大部分的车都不是线控。我们做自动驾驶,你要控制刹车,怎么控制?不是一个接口、一个计算机写进去,他是一个大的铁杆子、这边装了马达,铁杆子踩在刹车上。我们跟宝马合作,是因为他提供线控的技术。这个车我们叫做小红,小红,大白,这是我们改装的第一辆车,第二辆、第三辆。首先是对道路的感知,这里是三维高精度的感知。对车的定位要能够做到厘米量级的定位。这里面需要一些相当的传感器技术、机器人技术。这个是在G7上面采用的。大家看到划的很高,因为我们是三维的东西,很容易划的很高,都是计算出来的。

我们对车整合动力学的系统建了这个模型做仿真,在路上走我们要做模拟的仿真,模拟仿真做的差不多以后,我们再实际的去调试。

自动驾驶要飞入寻常百姓家,关键是你要用低成本的传感器实现很强的智能感知能力。谷歌自动驾驶有一个很严重的问题,他用的传感器比车本身都贵。他的传感器要70万人民币。但是我们要突破一个技术,就是怎么让低成本的传感器大规模的应用。

这是我们做的是基于图象的实时道路场景理解。比如说识别道路上的汽车,在这件事情上我们真的做的比别人好。这个蓝色的点是我们的标注人员做的。这些车是叠着排在路边,人在标注的时候不容易精确的说这辆车、这辆车、这辆车,不容易看清。这个地方阴影的遮挡。有一辆车在这里,被一个交通标志遮挡起来了,人不容易看到,但是目前我们的算法能够做到这样的水平。

最后看一下我们对自动驾驶发展路径的看法。为什么我们不认为我们要做的是无人驾驶?真正的无人驾驶要实现,还有一个相当长的路径,除了技术的能力以外,还有政府的政策法规,还有基础建设,还有保险公司怎么判定这个问题,出了问题到底是谁的错,这些事情已经远超技术本身,还有伦理的问题。真正到无人驾驶,你要经历几个阶段:第一阶段,辅助驾驶。第二,主动驾驶。第三,特定条件下的自动驾驶。第四,高度的自动化驾驶。比如说辅助驾驶,当前这个阶段是一个辅助驾驶的阶段,因为这个车告诉你哪边有车,哪边有人,如果要出事故,他会提醒你。辅助驾驶告诉你检测的结果,他不控制这个车。控制这个车变成了主动驾驶。特定环境下面,很多的车厂跟我们一样都认为在特定的场景,像某些高速公路,在两到三年的时间里面会实现智能的自适应巡航。现在车的巡航只是保持速度,如果前面的车并道过来了,你是不是会做一些改变,或者减低车速,现在的车做不到。如果这个车本身在巡航状态,他是不停在拐弯的,你会不会车道跟随?这个会最先实现。在某些比较先进的地方,你到了宾馆,车就不用管了。将来这个车是自动驾驶的,他把你的车移到那个地方。或者在一个大型的物流中心,或者在一个矿山里面,他是一个自动驾驶。最后到高度的自动驾驶。

人车一体,人不能放弃对车的控制,就像现在的飞机一样,飞机在空中的很多时候它是自动驾驶的状态,你喝杯咖啡没有问题,但是任何时候你要重新恢复你的控制,你可以做到。因为人对这个事情负责。

关于人和机器的关系,从我自己亲身经历的例子来说。我们过去的团队在两年前做过两个事情,一个事情是让你自己照的照片找一个长的最像的明星。还有一个是你拍一个照,理解了以后,生成一首诗。这里面涉及到计算机视觉,涉及到自然语言。但是从市场的反应来讲,你们可以想象到,哪个更受欢迎?因为这跟每个人都相关,每个普通人都有一个想当大明星的梦想,哪怕是一个虚幻,至少是这个产品跟每个用户之间的关联。拍照写诗为什么不受欢迎?因为他是show off,他是秀百度的机器有多牛,不是秀我多牛。这里面有一个我们的思考,机器往前,我们回到人工智能的原点,这个原点叫图灵测试,图灵测试一直在指导人工智能研究的方向,他的目的是研究这个智能的机器能够取代人。图灵测试就是如果拿一个布档着,这边是机器还是人我就不知道了。我们下国际象棋,目前他是PASS了图灵测试的。这种导致了你的做法,你不断研究跟人可以PK的机器,这是不是我们真正想做的,是不是真正的方向。站在今天可以去思考。

我刚才讲到了象棋,IBM的深蓝有一个划时代的成果,它做的比最好的象棋冠军能力还好,看似这样一个伟大的科技进展,它其实没有给IBM带来任何的价值,没有给这个社会产生任何的影响,也没有使这个社会变得更加美好。为什么?因为它无非是造一个跟人能力差不多可以PK的机器。我们看另外一个东西,搜索引擎,无论是谷歌还是百度,它这个技术不完美,因为我们理想的技术是能够给他扔一个问题,他能够自动寻找问题的答案。他做的不完美,他是扔一堆排序的结果,你自己搞清楚。但是他对这个社会产生了巨大的影响。他能让北京清华附小一个家庭环境非常优越的小孩子跟一个乡村里面的小孩子,只要有网络的情况下,获取知识、获取信息的能力是一样的。他是因为成就了每个人,让每一个普通的人更有知识,他获得信息,能够做更加明智的判断,这个事情跟这个社会的大需求发生了共振,产生了巨大的影响。

我们思考自动驾驶也是这样,我们是要去思考、去做真正的替代人去驾驶的,还是去做车成就人的,还是你可以获取更大的自由。谷歌的这个车一开始是没有方向盘的。这个车真的是你想要的吗?最近他们把方向盘加上去了。我们希望车跟人的关系,就像人跟马的关系一样。你在万马奔腾的环境里面,你骑着这个马,你不需要特别细微的控制这个马,它自己知道怎么走,避障,跟周围的马协调距离,你要把握大方向。你甚至在马上面如果打瞌睡,马也可以带着你走,你什么时候想要控制它,你是可以控制的。自动驾驶是要构建人车一体、以人为主的驾驶环境。

最后,我觉得什么是一个伟大的技术?它不在于让机器更伟大,它的伟大之处,是让每个平凡的人更有创造力、更加自我、更伟大。这是人工智能和技术发展的方向。

世界是我们的,也是机器人的,但是归根到底是属于会控制机器人的人的。谢谢大家!

提问环节

提问1:借用张院士说的最后一公里,前面在你的思路中,什么是最先一公里?最先一公里和最后一公里是什么关系?

余凯:信息的搜集、整理是目前来讲先要去做的。

提问2:假如我们可以确定机器智能的发展一定会威胁人的生存,机器超过人的时候,一个很严重的问题就是人没有用了。

余凯:首先,我们现在太早去思考这个问题了,因为我们现在离那个阶段还非常远。第二,我不认为将来机器会超过人或者驾驭人。他应该还是人的工具。我觉得它在很多能力方面是超过我们,但是最后它还是受人的驾驭。有一点是:机器人没有好奇心。我现在想不到让一个计算模型具有对未知世界探索的好奇心。因为人去探索未知世界好奇,不断的拓展知识的边界,机器人是去执行我们的想法。

提问3:我正在写一篇文章,这一篇文章的一个观点是,当机器要保证自己不断电的情况下,没有人的参与,它会不会有好奇心?

余凯:会不会有好奇心我就不知道了。这种哲学讨论我们可以永远讨论。因为那一天没有到来之前,我们可以不断的去猜测。我的观点,我们想做对社会有用的东西。

提问4:刚才余博士介绍很多激动人心的人工智能方面的成果。可是我们现在去看应用层面,包括刚才介绍很多百度的应用,好玩但是不实用,比如说魔图、百度拍植物,都不实用,或者是一个辅助性。余博士的角度看,在应用层面,出现一个endto-end的应用可能会出现哪一个领域?

余凯:这些人工智能的技术对于现实商业的影响其实是巨大的。因为今天的整个搜索、广告系统、电子商务、大数据金融,这些技术在这里面,你有和没有,是生和死的问题,不是锦上添花的事情。但是那些好玩的事情,他自己也在不断的演进。我们讲的图象识别,大家有没有听说过MobilEye?这家公司就是做车辆和行人识别感知系统,它现在做到很大。还有一个大数据公司叫Palentir,他就是人工智能大数据的方法用在国家安全领域,他现在是一百多亿美金的估值。近期来讲,你总会觉得技术发展比你想象的要慢。近期大家总是高估技术对人类的影响,但是在十年的时间里面,你一定是低估技术对你生活的影响。

提问5:在您的演讲里面有一个细节,您跟Hinton教授谈的时候,说这一波深度学习浪潮很快就过去了。在五年之后,在深度学习之后是什么样的发展方向,什么样的技术引领下一个发展方向?

余凯:在某一个方面做的事情,特别是计算机科学,常常是自己埋葬自己。很多年前,计算机体系结构,现在做的时候它不是一个你要探索的学科。深度学习一定会成为一个非常俗气的东西,每个人都会用。至于未来的方向,我不能讲太远、太哲学的,我更愿意讲现实的。现实来讲,自然语言理解是一个非常重要的方向,期待一个突破性的进展。

提问6:我是电子系的学生,深度学习的算法用在硬件上面,您觉得这方面的潜力大吗?

余凯:这个会非常有潜力,因为把这些智能的算法用在硬件里面,可以放进各种智能设备中,这是我很期待的方向。

提问7:我替经济管理系的同学们问一个问题,经管和商业领域比较喜欢研究数据和商业之间的逻辑关系,刚才你讲的非线性逻辑,是不是跟商业之间就没有关系?

余凯:现在深度学习可能不太适合你所讲的这个领域。至于发现数据结构之间的关系,到目前为止没有任何所谓的精益学习模型是适合这个的,是人做的。如果你要发现一个数据之间的因果关系,或者是其他关系,有一个大数据的说法,因果性不重要,相关性不重要。我觉得那都无所谓。发现这些关系涉及到一个很难的问题,这不光是精益学习的问题。

提问8:我是清华的学生,对大数据挖掘和人工智能比较感兴趣。您前面说我们现在低估了人工智能发展的水平,前一段时间比尔盖茨推荐了,我们要警惕人工智能未来十几年的发展,那个帖子是说未来十几年人工智能可能会达到现在我们看到的科幻片的发展水平,您对此事如何看?

第二个问题,您在讲PPT的过程中提到,统计学家说,任何假设都可能是错误的,我们现在在人工智能很多算法里面套用的公式都是借用统计规律,比如我们常用的误差,我们默认为它不同于正确分数。以前统计学家统计数据的时候对数据量的限制,是不是以前有一些规律。我们现在做的算法都是借用了这些统计规律的东西。我们最根本的东西都错了,导致人工神经网络不能很好的模拟大脑的思考。

余凯:第一个问题也陷入到哲学的讨论。我觉得他们那些人站的高度比较高,他们可以想这些事情,对于我来讲,我想的是,后三个月我怎么把这些事情做好,我怎么样让洛宾在政协会议上说我们的车到年底就能在道路上跑了,我要保证这个事情发生。他们的担忧不是不可能发生的,因为有一些滥用技术现象的发生。有一个研究通过人脸的识别,把这个东西装在机关枪上。他射击的精度一定是比任何人都射击的要准确,机关枪每一个子弹都直中眉心,这个技术现在是可以实现的,这个不是未来时。

串场:如果击毙恐怖分子的话,还是有用的。

余凯:你要讨论这个使用在什么地方。如果你允许一个机器自己判断杀不杀这个人。机器人第一定律就是这个机器人永远不能杀人。这个担心是有的,但是他有更多好的方向,我们可以做很多的事情。比如说核能,到今天为止,以前我们担心它毁灭人类,但是它成为一个稳定的能源。人总是更聪明,一定能够驾驭这个危险。

你的第二个问题,所有这些理论都是一个比较理想化的模型,你在应用中还是要去领会。因为他这个模型本身不错,但他只是一个数学公式,应用到问题里面,你要看这个理想化模型是不是反应你这个问题里面主要的矛盾。如果是主要的矛盾,他很有可能是有用的,他不是完美,是已经找到了最好的。

提问9:有一些文学数据,我们不知道他符合什么的时候,我们就经常默认他符合正态分布,

余凯:其实不是这样的,如果你了解正态分布的原因的话,你了解到这个地方用的是正态分布,有的地方用的不是正态分布,这个物理的东西你要理解。

提问10:我代表在场看现场直播的场外观众提一个问题,您能不能推荐一本入门级的精益学习的书。对如何引导中学生挖掘数据方面的兴趣?

余凯:这算是我个人回答,不能代表公司。今天我讲的都是我个人的一些东西,回答你的问题都是我个人的观点。如果是入门级的书,有一本七十年代写的书,《Patternclassification and scene analysis》是写深度学习的书。那本书有两部分,只看第一部分,不要看第二部分。我的一些朋友也是这种看法。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-04-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【学习】如何成长为顶级数据分析师和数据挖掘师?

#玩转大数据#12点的钟声敲响后,意味着已经跨过2015,进入2016了。新的一年应该拥有新的开端以及新的计划目标,也标志着新的希望。一个数据科学家在年尾做了一...

39240
来自专栏量子位

姚期智院士亲自讲授,一文读懂量子计算

但如果你对量子计算深怀兴趣,或者对量子计算的前世今生、未来前景等充满好奇,这可能是最深入浅出的授受文章。

12120
来自专栏量子位

DeepMind创始人:只有了解大脑,才能开发出更强的AI(附论文)

陈桦 允中 编译整理 量子位 出品 | 公众号 QbitAI ? 经过几十年的野蛮生长之后,人工智能正重新回到舞台中央。成本更低的计算性能和大规模数据集使研究人...

27770
来自专栏机器人网

这是AI最好的时代……

8月份有幸收到雷锋网的邀请参加CCF-GAIR大会,金光闪闪的嘉宾团体和高大上的会议盛况自不必说。作为一个一直从事nlp技术和相关产品的工程师,这里写点个人的想...

30990
来自专栏钱塘大数据

新一代AI领域十大最具成长性技术展望(2018-2019)

在2018世界机器人大会17日的主论坛上,中国电子学会发布《新一代人工智能领域十大最具成长性技术展望(2018-2019年)》。

12820
来自专栏钱塘大数据

【大咖说】发展大数据不要一味追求数据规模大,要“应用为先”

导读:中国信息化百人会学术委员、中国工程院院士李国杰认为,目前大数据技术还不成熟,面对海量、异构、动态变化的数据,传统的数据处理和分析技术难以应对,现有的数据处...

37760
来自专栏数据的力量

如何成长为顶级数据分析师和数据挖掘师?

22060
来自专栏钱塘大数据

【干货】十分钟读完《大数据时代》

? ? 1、震人心魄的数据 2003年,人类第一次破译人体基因密码的时候,辛苦工作10年才完成了三十亿对碱基对的排序;大约10年后,世界范围内的基因仪每15...

389130
来自专栏人工智能头条

机器学习与模式识别是走在正确的路上吗?刘成林、李航、周明等这样回答

30960
来自专栏BestSDK

【详解】如何让智能深度学习,突破数据瓶颈?

基于生物神经元的下一代深度学习 「虽然目前的深度学习在语音识别和图像识别方面取得了突破性进步,但如果把深度学习用于绝大多数的其他领域,比如说自动驾驶、实体机器人...

315100

扫码关注云+社区

领取腾讯云代金券