前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >李彦宏吴恩达解析“度秘”机器人和脸优APP的技术基石

李彦宏吴恩达解析“度秘”机器人和脸优APP的技术基石

作者头像
用户1737318
发布2018-06-05 15:10:42
5220
发布2018-06-05 15:10:42
举报
文章被收录于专栏:人工智能头条人工智能头条

在2015 年的百度世界大会上,百度董事长兼首席执行官李彦宏宣布在最新的手机百度6.8版本中推出机器人助理——度秘(英文名:duer),并解释了推出度秘的原因、度秘背后的技术以及度秘的未来规划。百度首席科学家吴恩达则展示了百度深度学习技术的进展,包括在噪音环境下的语音识别效果,以及基于手机深度学习引擎的iOS版脸优APP。

李彦宏:度秘及其三大基石

李彦宏表示,在各种O2O服务层出不穷、360行裂变为3600行的今天,用户对服务的需求也迅速增长,而服务的搜索过程不同于单纯的信息检索,服务需求的提出是一个动态修正、多轮交互的复杂过程,因而“我们需要有一种更好的满足用户需求的方式”,而度秘,就是用自然语言理解、智能交互、服务索引及交付等技术,不断学习和替代人的行为,让每个人都拥有自己的贴身秘书。

目前,度秘支持语音输入,能够做美食、电影推荐和部分生活服务的推荐。李彦宏演示了“在鼓楼帮我订一家好吃的餐 厅”、“可否携带宠物”、“餐厅附近有没有宠物美容店”、“推荐适合小孩儿看的电影”等一系列的多轮对话、预定等任务。

李彦宏把度秘的技术能力归结为三点:各行业实现服务接入、全网数据挖掘支撑服务索引和智能交互完成满足需求。

首先,3600行的广泛接入、完善的生态搭建,是度秘神通广大的先决条件。在过去一年,百度已经通过自营、合作、开放三种方式广泛接入了餐饮、出行、旅游、电影、教育、医疗等各类服务,覆盖了吃、住、行、玩的方方面面。随着O2O在中国的崛起,人们养成了在搜索框寻找服务的习惯,搜索正在从信息框向服务框演变。服务接入百度生态后,不仅有机会在手机百度、百度地图、百度糯米等原有的三大入口获得流量导入,同时度秘在获得服务请求时,也会将用户需求导给相应的商户。

其次,针对每一项接入的服务,百度后台通过全网数据挖掘和机器学习的方式,为服务贴上标签,建立丰富的索引维度,方便用户个性化的查询需求。以餐馆为例,地理位置是一个标签,菜品类别是一个标签,但可不可以带宠物、有没有明星光顾过,餐馆的包间有没有电视等等都能成为新的标签和索引维度。索引维度越丰富,用户在拥有个性化的需求时,能找到相关服务的可能性越大。用人工的方式为服务打标签终归具有很大的局限性,而通过全网信息的检索和对海量信息的深度挖掘和聚合,百度在为服务打标签、建立更广泛全面的索引维度方面,具有天然的优势。

最后,百度的人工智能、多模交互、自然语言处理等技术,让度秘能够更自然的交互、更智能的理解用户需求。广泛的服务接入,超强的服务索引、智能的服务满足,三者合一,构造成一个强大的度秘。

在这背后是大数据和机器学习的功劳,百度最近申请的专利:支持多轮问答和搜索,包括多轮交互、问题搜索和问题反馈机制,通过对用户习惯的记录加深对用户了解,同时利用用户的反馈完善自身功能。

李彦宏认为,相比于微软小冰、苹果 Siri 等助手产品,度秘更加场景化。他还表示,度秘的能力将接入百度地图、百度糯米等百度AP和合作伙伴的服务中,并且度秘并不排除开发单独App的可能,甚至将制造度秘机器人,以实物机器人的方式为人们提供服务,打通服务供需双方的数据,实现用户需求与商家服务的精准匹配。

吴恩达:GPU加速,HPC提升深度学习效果

百度首席科学家吴恩达认为,语音有很大的潜力改变人与设备的交互方式,现在语音识别可能已达到95%的准确度,但还取决于口音等等。95%的准确度到99%的准确度带来的不是量变是质变,是从偶尔使用语音变到常常使用做到更自然。做到99%准确,将彻底改变人与设备交互。

在百度人工智能技术的进展主要靠深度学习,语音识别也是用深度学习做的。

吴恩达演讲摘录:

在这一年中我们在深度学习基础架构上有很大的进步,这对人工智能的研究有很大的影响,我们的技术架构分为三个部分,第一就是用于训练的超级计算机,第二就是用于在线服务的云加速器,把训练后的加速器放到云端在线服务。第三就是手机上的深度学习引擎,让我详细解释一下这三个部分。

如今已是海量数据的时代,百度有着大量的数据可以使神经网络训练的更大效果更好。我们开发了HPC来做深度学习试验,这里百度使用很多的GPU做HPC,在使用HPC做深度学习训练上,百度处于世界领先地位。这里做HPC的一个难点是提升GPU的使用效率,2014年HPC深度学习的使用效率是20%左右,我们目前GPU使用效率可以提升到85%,让我们能够更快的训练巨大的神经网络。

使用HPC训练巨大的神经网络之后,下一步是使用它提供在线服务,例如当用户讲话时,系统会实时返回结果。普通的CPU服务器有时候很难做到运行巨大的神经网络,我很高兴像大家宣布百度已经开发了两个加速技术,第一我们开发了FPGA加速器,在很多重要的应用下他可以把速度提升五倍左右。第二我们也开发了GPU加速器,这里GPU不仅用于训练,我们也打算将其用于在线服务。百度的这种技术也是在世界上领先之一,这样做的难点是如果有十个用户在使用一个服务器,我们需要找到一个聪明的方法让一个CPU有效的为十个用户提供服务,使用这个技术,我们可以在在线服务上明显的提升神经网络规模。

对于一些应用,把数据传到云端太慢,影响用户体验,所以我们需要在手机上运行深度学习引擎。用HPC训练了巨大的神经网络后,把这个神经网络运行在这么小的手机上很难的,所以我们开发了手机深度学习引擎。

我们来看一个例子,我们想识别人脸,并理解表情,我们开发了一个深度学习系统,可以识别人脸上的72个关键点,对比其他系统我们识别了比较多的关键点,让我们有更多细节来理解表情。

在手机上运行神经网络,难点是模型规模、速度和错误率,这张图是一个神经网络在PC上运行的结果,这个神经网络对于手机来说太大了,用我们的手机深度学习引擎我们使用了一个聪明的办法,将神经网络的模型减少,还大量提升运行速度。

使用手机深度学习引擎,我们做了一个新的APP叫做脸优,我们刚刚在IOS发布这个APP,用手机拍一张你的照片,用神经网络识别出你的面部,然后和另外一张图片放在一起效果就是这样。让我们为大家演示一下,这就是我的手机,我刚刚今天早上跟我其他的演讲人拍的他们的照片。这就是我的脸变成了就是王劲,也可以变成李彦宏,很好看,这就是Travis 再试一试,很帅。做女性的也可以,其实这就是我妻子的图片,还有这就是我们的CFO,好,就这样,谢谢。如果你有iphone,我希望大家下载玩一下。

脸优是一个娱乐的APP,是需要非常快的响应速度,那么手机深度学习引擎还有什么其他用处呢?假如你和你的孩子一起去超市买东西,你们看见了这盒牛奶,我拿了一盒牛奶,如果你的孩子对这盒牛奶好奇你会怎么办?我们与伊利合作做了一个直达号轻应用,它可以识别出牛奶盒,并让你看到一个3D效果的地图,也可以从不同的角度来看他,从上面可以看,可以啊,远一点,台上灯光很亮,看见了,那你可以从不同的角度看这个地图,如果小朋友点击这个地图也可以看到另外一端牛奶的信息。这个轻应用两三个月后会上线,这个可以利用产品的包装上的图案提供增强现实体验,不需要特别的图片或二维码,增强现实技术可以让你更多的了解我们的世界,我们目前还是和很少的商家合作,希望未来有更多的商家可以使用这个技术,帮助用户了解产品并探索世界。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-09-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能头条 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档