李彦宏吴恩达解析“度秘”机器人和脸优APP的技术基石

用户1737318

发布于 2018-06-05 15:10:42

5490

发布于 2018-06-05 15:10:42

文章被收录于专栏：人工智能头条

在2015 年的百度世界大会上，百度董事长兼首席执行官李彦宏宣布在最新的手机百度6.8版本中推出机器人助理——度秘(英文名：duer)，并解释了推出度秘的原因、度秘背后的技术以及度秘的未来规划。百度首席科学家吴恩达则展示了百度深度学习技术的进展，包括在噪音环境下的语音识别效果，以及基于手机深度学习引擎的iOS版脸优APP。

李彦宏：度秘及其三大基石

李彦宏表示，在各种O2O服务层出不穷、360行裂变为3600行的今天，用户对服务的需求也迅速增长，而服务的搜索过程不同于单纯的信息检索，服务需求的提出是一个动态修正、多轮交互的复杂过程，因而“我们需要有一种更好的满足用户需求的方式”，而度秘，就是用自然语言理解、智能交互、服务索引及交付等技术，不断学习和替代人的行为，让每个人都拥有自己的贴身秘书。

目前，度秘支持语音输入，能够做美食、电影推荐和部分生活服务的推荐。李彦宏演示了“在鼓楼帮我订一家好吃的餐厅”、“可否携带宠物”、“餐厅附近有没有宠物美容店”、“推荐适合小孩儿看的电影”等一系列的多轮对话、预定等任务。

李彦宏把度秘的技术能力归结为三点：各行业实现服务接入、全网数据挖掘支撑服务索引和智能交互完成满足需求。

首先，3600行的广泛接入、完善的生态搭建，是度秘神通广大的先决条件。在过去一年，百度已经通过自营、合作、开放三种方式广泛接入了餐饮、出行、旅游、电影、教育、医疗等各类服务，覆盖了吃、住、行、玩的方方面面。随着O2O在中国的崛起，人们养成了在搜索框寻找服务的习惯，搜索正在从信息框向服务框演变。服务接入百度生态后，不仅有机会在手机百度、百度地图、百度糯米等原有的三大入口获得流量导入，同时度秘在获得服务请求时，也会将用户需求导给相应的商户。

其次，针对每一项接入的服务，百度后台通过全网数据挖掘和机器学习的方式，为服务贴上标签，建立丰富的索引维度，方便用户个性化的查询需求。以餐馆为例，地理位置是一个标签，菜品类别是一个标签，但可不可以带宠物、有没有明星光顾过，餐馆的包间有没有电视等等都能成为新的标签和索引维度。索引维度越丰富，用户在拥有个性化的需求时，能找到相关服务的可能性越大。用人工的方式为服务打标签终归具有很大的局限性，而通过全网信息的检索和对海量信息的深度挖掘和聚合，百度在为服务打标签、建立更广泛全面的索引维度方面，具有天然的优势。

最后，百度的人工智能、多模交互、自然语言处理等技术，让度秘能够更自然的交互、更智能的理解用户需求。广泛的服务接入，超强的服务索引、智能的服务满足，三者合一，构造成一个强大的度秘。

在这背后是大数据和机器学习的功劳，百度最近申请的专利：支持多轮问答和搜索，包括多轮交互、问题搜索和问题反馈机制，通过对用户习惯的记录加深对用户了解，同时利用用户的反馈完善自身功能。

李彦宏认为，相比于微软小冰、苹果 Siri 等助手产品，度秘更加场景化。他还表示，度秘的能力将接入百度地图、百度糯米等百度AP和合作伙伴的服务中，并且度秘并不排除开发单独App的可能，甚至将制造度秘机器人，以实物机器人的方式为人们提供服务，打通服务供需双方的数据，实现用户需求与商家服务的精准匹配。

吴恩达：GPU加速，HPC提升深度学习效果

百度首席科学家吴恩达认为，语音有很大的潜力改变人与设备的交互方式，现在语音识别可能已达到95%的准确度，但还取决于口音等等。95%的准确度到99%的准确度带来的不是量变是质变，是从偶尔使用语音变到常常使用做到更自然。做到99%准确，将彻底改变人与设备交互。

在百度人工智能技术的进展主要靠深度学习，语音识别也是用深度学习做的。

吴恩达演讲摘录：

在这一年中我们在深度学习基础架构上有很大的进步，这对人工智能的研究有很大的影响，我们的技术架构分为三个部分，第一就是用于训练的超级计算机，第二就是用于在线服务的云加速器，把训练后的加速器放到云端在线服务。第三就是手机上的深度学习引擎，让我详细解释一下这三个部分。

如今已是海量数据的时代，百度有着大量的数据可以使神经网络训练的更大效果更好。我们开发了HPC来做深度学习试验，这里百度使用很多的GPU做HPC，在使用HPC做深度学习训练上，百度处于世界领先地位。这里做HPC的一个难点是提升GPU的使用效率，2014年HPC深度学习的使用效率是20%左右，我们目前GPU使用效率可以提升到85%，让我们能够更快的训练巨大的神经网络。

使用HPC训练巨大的神经网络之后，下一步是使用它提供在线服务，例如当用户讲话时，系统会实时返回结果。普通的CPU服务器有时候很难做到运行巨大的神经网络，我很高兴像大家宣布百度已经开发了两个加速技术，第一我们开发了FPGA加速器，在很多重要的应用下他可以把速度提升五倍左右。第二我们也开发了GPU加速器，这里GPU不仅用于训练，我们也打算将其用于在线服务。百度的这种技术也是在世界上领先之一，这样做的难点是如果有十个用户在使用一个服务器，我们需要找到一个聪明的方法让一个CPU有效的为十个用户提供服务，使用这个技术，我们可以在在线服务上明显的提升神经网络规模。

对于一些应用，把数据传到云端太慢，影响用户体验，所以我们需要在手机上运行深度学习引擎。用HPC训练了巨大的神经网络后，把这个神经网络运行在这么小的手机上很难的，所以我们开发了手机深度学习引擎。

我们来看一个例子，我们想识别人脸，并理解表情，我们开发了一个深度学习系统，可以识别人脸上的72个关键点，对比其他系统我们识别了比较多的关键点，让我们有更多细节来理解表情。

在手机上运行神经网络，难点是模型规模、速度和错误率，这张图是一个神经网络在PC上运行的结果，这个神经网络对于手机来说太大了，用我们的手机深度学习引擎我们使用了一个聪明的办法，将神经网络的模型减少，还大量提升运行速度。

使用手机深度学习引擎，我们做了一个新的APP叫做脸优，我们刚刚在IOS发布这个APP，用手机拍一张你的照片，用神经网络识别出你的面部，然后和另外一张图片放在一起效果就是这样。让我们为大家演示一下，这就是我的手机，我刚刚今天早上跟我其他的演讲人拍的他们的照片。这就是我的脸变成了就是王劲，也可以变成李彦宏，很好看，这就是Travis 再试一试，很帅。做女性的也可以，其实这就是我妻子的图片，还有这就是我们的CFO，好，就这样，谢谢。如果你有iphone，我希望大家下载玩一下。

脸优是一个娱乐的APP，是需要非常快的响应速度，那么手机深度学习引擎还有什么其他用处呢？假如你和你的孩子一起去超市买东西，你们看见了这盒牛奶，我拿了一盒牛奶，如果你的孩子对这盒牛奶好奇你会怎么办？我们与伊利合作做了一个直达号轻应用，它可以识别出牛奶盒，并让你看到一个3D效果的地图，也可以从不同的角度来看他，从上面可以看，可以啊，远一点，台上灯光很亮，看见了，那你可以从不同的角度看这个地图，如果小朋友点击这个地图也可以看到另外一端牛奶的信息。这个轻应用两三个月后会上线，这个可以利用产品的包装上的图案提供增强现实体验，不需要特别的图片或二维码，增强现实技术可以让你更多的了解我们的世界，我们目前还是和很少的商家合作，希望未来有更多的商家可以使用这个技术，帮助用户了解产品并探索世界。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2015-09-09，如有侵权请联系 cloudcommunity@tencent.com 删除

机器人