首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【清华AI公开课】景鲲:百度为什么重视语音?

【清华AI公开课】景鲲:百度为什么重视语音?

作者头像
新智元
发布2018-05-29 15:31:14
6940
发布2018-05-29 15:31:14
举报
文章被收录于专栏:新智元新智元

演讲:景鲲

编辑:田令、江磊

【新智元导读】4月19日,清华大学《人工智能前沿与产业趋势》系列课程第三讲开课,本讲主题是“自然语言处理技术的发展和行业应用”。自然语言处理(NLP)被认为是人工智能研究中最为困难,也是最重要的问题之一,不仅基础研究难,技术落地和应用场景也很复杂。本课由百度度秘事业部总经理景鲲主讲。新智元作为独家合作媒体,带来干货整理。

主讲老师

雷鸣

天使投资人

百度创始七剑客之一

酷我音乐创始人

清华大学海峡研究院大数据 AI 中心 专家委员

特邀讲者

景鲲

百度度秘事业部总经理

景鲲 2014 年加入百度,就职于大搜索任总产品架构师,负责百度大搜索整体产品规划、创新与落地推进。带领团队大刀阔斧的创新整体搜索体验,为数以亿计的用户提供平等便捷的搜索服务。同时与团队一起开创式的引入了语音搜索、图像搜索、对话式搜索等创新搜索交互方式。构思和推动了人工智能机器人助理度秘整体业务从想法、落地,到取得国际领先的优势,推动了整个业界对智能对话领域的认知。2016 年 10 月,全面接手度秘团队的管理工作。促成度秘与国安广视、小鱼在家等多个厂商的战略合作,开拓了软硬结合的新产品形态。并在 17 年,带领团队在美国拉斯维加斯 CES 上正式推出了对话式人工智能操作系统 DuerOS。

景鲲加入百度之前,曾任微软公司首席研发总监并负责微软必应搜索在亚洲市场的研发工作,也是微软小冰的创造者。

4月19日,清华大学《人工智能前沿与产业趋势》系列课程第三讲开课,本讲主题是“自然语言处理技术的发展和行业应用”。自然语言处理(NLP)被认为是人工智能研究中最为困难,也是最重要的问题之一。本课由百度度秘事业部总经理景鲲主讲。在讲座之前,雷鸣老师就音频和NLP技术作了总览式的概述:

NLP技术现在能看到一些落地,特别大的一个场景就是助理,包括家庭助理、虚拟助理、车内的语音助理、儿童语言交互机器人等。第二个场景时智能客服系统;第三是语言翻译。

景鲲:语音是第三次交互革命

景鲲:大家好,我叫景鲲,我来自百度,百度度秘事业部。我加入百度大概四年时间,负责对话式人工智能的产品的落地。加入百度之前我在微软工作了八年时间,负责必应搜索引擎和微软小冰项目。所以直接跟NLP以及NLP的业务落地有一段时间的经验了。然后也给大家介绍一下百度度秘。

整个百度的业务主要分成两块,一块是我们在移动市场上做的一些业务,比如搜索,爱奇艺,手机百度的feed流等;另一块就是我们面向人工智能时代兴起,用人工智能来驱动的新的业务,这个业务包括无人车。第二个就是人机交互,我们做了百度度秘。我们在 AI 时代落地的两大主要业务平台,一个是无人车的阿波罗,一个是度秘。

百度为什么把度秘作为这么重要的一个战略业务来做?其实它是一个非常大的业务。回望我刚开始学计算机的时候,那个时候还是用鼠标和键盘,键盘是用五笔输入法。然后那个时候用五笔输入法还要去花钱上培训班学习五笔输入法。后来可以用拼音输入法了,一下门槛就降低了。 用拼音输入法之后,很多人就可以跟计算机进行交互,进行交流了。随着这种输入的门槛的降低,用户跟计算机之间的交互更方便了,更多的用户得以接触到计算机。所以鼠标和键盘的交互就推动了整个计算机的普及。

第二个阶段也是由交互推动整个科技的进展,这次的交互是用手指触屏的交互。通过手指触摸手机,让更多的用户能够跟计算机进行交流,所以在这个时候基本上已经摆脱了语言的障碍。所以我们可以看到在中国市场,移动的互联网用户是远远大于 PC 时代的互联网用户的。

我们觉得在新的人工智能时代,新的交户应该是用更加自然的,用人类的交互方式与计算机进行交流,我们认为这种沟通方式就是用语音、用对话。因为我们每个人可能两岁的时候就开始学说话,我们80岁的时候还是可以用语音交流。为什么语音交互可以成真?因为计算机通过人工智能能力的赋能,通过深度学习等各种机器学习的方法,语音识别、图像识别等能力开始慢慢变得成熟,NLP的能力在某些领域也逐渐可以落地。 所以在人和机器交互过程中,机器开始能够尝试听懂我们所说的话,语音交互开始变得越来越popular。

大概在Siri出现、在 iPhone4 的时候,就有一大批公司在做语音交互方面的产品。那时候是高峰期,很多公司都在做,但迅速就到一个下降期。用户对语音助手开始失望。但最近这两年随着Echo的出现,大家发现语音助手找到了它的使用场景,它跟硬件结合之后,通过远场交互的语音能够让我们跟机器进行交流,所以这个市场又蓬勃而起。

为什么百度这么重视这件事情?因为每一次的科技的进步,大的进步,基本上都是由交互来驱动的。从最开始在鼠标键盘时代,世界上最大的公司是微软。微软当时基本上只做了一个体验,就是鼠标和键盘的体验,把它做到了最优。移动时代又出现另外一家伟大的公司,就是现在市值最高的一家公司苹果,把这种交互做对了。所以它推动了整个移动智能社会的前进,开拓了难以想象的巨大的科技市场。

我们觉得在新的时代通过自然语言对话,我们有机会跟每一个计算机、每个手机、每个桌子甚至每个椅子去对话,在我们需要的时候我们就跟它对话,在新的场景里面去对话,这样的市场将会比原来市场大得多。每个人与搜索引擎去互动,或者跟互联网去交流,获取信息服务,都是一种更加便捷的交互。所以第三次交互的革命将会引发非常多创新。

我们看一下一些研究机构做的市场分析。这是IDC做的中国市场对话式人工智能的市场分析。报告显示,到2020年,27%的智能家居产品都会变成语音可以互动的。从现在的市场来看,基本上语音交互的产品已经逐渐变成标准配置,所以到 2020 年的时候,大概有 27% 的家具可以互动,不只是电视,冰箱、空调、洗衣机,甚至连豆浆机,我们的合作伙伴都希望用户能它说话。所以智能家具的市场还是很大。

第二个市场就是车载市场。因为车本身就是双手被固定在方向盘上的一个场景,用户的一个很自然的需求,就是通过跟车的交互去获取车上的信息和服务。这个时候最自然的一种交互就是语音交互。所以从今年开始大家也可以看到在一些新车上,尤其是以互联网汽车为标签的新车上,语音交互已经成为了标准配置。

还有就是手机和可穿戴设备。我们平台上现在最活跃的一个设备是手表,比如儿童手表。每年在中国能卖大概上千万的智能手表,但是在中国这种手表主要是消费给了儿童群体,在这个群体里面用语音交互就是最自然的一种交互。预期到2020年,手机和可穿戴设备大概能达到 68%。

回顾一下原来的手机市场,当 IOS 推出之后,大家都发现手指触摸这种体验太好了。但是在安卓系统开放之前,一个厂商大概要花几千万美金,可能才能研发一款手机。但是有了安卓之前,这些厂商投入的资本可能是1/10的原来的投入,所以迅速让智能设备、智能手机变得满地开花,数量和接触人群都在指数级的增长。语音交互也一样,并不是每家公司都能够从头做语音识别、语音合成、语义理解,甚至资源的检索。这个时候百度其实非常有意愿提供语音交互时代的一个底层的操作系统,能够赋能这样的智能设备,让它变成语音交互。

要把语音交互做对的话,有三点要做对:第一是听得清,第二是听得懂,第三是满足得好。

听得清,就是把语音识别成文字的过程。第二,听得懂是真正能够理解文字,能够消化,知道用户的意图。第三,满足。知道用户的意图之后,还能把合适的内容和服务传递给用户。所以这三步缺一不可。

第一步很多的公司都在解决,而且听清的问题已经逐渐被解决。虽然中国还存在着一些地方的口音,但是语音识别的能力基本上是逐渐增强,可以预见,在未来的一两年内,语音识别,听清的这部分可以做得很好。但是在有些固定场景里面,还需要特定的优化。

第二方面是最难的,就是听的懂。听懂其实是很高的要求,不只要知道它的字面意思,比如我们在百度搜索上我们经常看到用户查询北京天气,可能就有一百种以上的说法,用户会说“北京天气”,也会说“北京明天下雨吗”,也会说“北京明天刮风吗”,“北京明天有雾霾吗”,这些都是跟天气相关的需求。怎么样做到听懂是人工智能交互中最核心的能力,谁能把听得懂做好,就能真正攻克人工智能的难关。

第三方面就是满足。用户在与一个设备语音对话的时候,往往会有非常多样的需求,真正能够把需求理解好,并且把资源索引到,这也是百度可以做的优势,并且可以为我们的用户和合作伙伴去提供的能力。

在Echo出现之前,大家其实比较聚焦的听清的能力是在手机上的近场语音交互。比如说我们按一个按钮,比如像微信,去解决这种语音识别的能力。但是随着智能硬件出现,就出现了新的场景的语音交互。比如说在一些广阔空间、车载、吵杂环境里面开始出现了麦克风阵列。简单解释一下,麦克风阵列由两个及以上麦克风组成的一个阵列,它可以进行回声消除。屋子里面多个麦克风阵列,通过不同的麦克风接收到声音信号的强弱,通过接触到不同的声音的时间,来消除掉回声。在没有这个技术之前,大家可能会觉得不是一个特别的难的问题,但其实这是对计算机是一个非常难的问题。因为在这样的屋子里面,尤其在这样密闭的空间里面,回声让计算机听起来是多个声波的叠加。多个声波叠加之后计算机就分不清哪些是原声,哪些是回声。

有时候我们跟人说话,面对面的时候听得很清楚,但换一个位置就可能听不清了,这是因为我们的耳朵有指向性。通常正面对着一个人的时候,收音最好。对计算机也是一样,有阵列之后往往需要一个解决的问题,就是通过阵列能够辨别发音的方向是哪个方向。我们一旦定位发音的方向之后,这个方向的语音识别就会做得更好,这也是通过多麦克阵列来达到的效果。

还有语音唤醒。语音唤醒指现在的计算机麦克风不能时刻收音,以教室为例,旁边的机器声,甚至窗户声会有很多声音杂音进来,让计算机到搞得很乱。语音唤醒是指,通过一个特定的唤醒词,说了这个词之后,机器开始响应,开始听我们的声音。所以语音唤醒相当于人和机器之间进行了一个初次的连接。

还有远场语音识别。远场语音识别是在智能硬件出现之前应用的不太多的一个技术,但随着像智能音箱这样的设备的出现,用户往往跟它的交互式在一米开外的,这个时候的语音识别跟近场手机上的语音识别有很大的不一样。所以在智能硬件这个领域,让一个设备真的可以听清我们说话需要做的新的技术储备。

第二个方面就是听懂。没有大数据没有算法是很难做好听懂的。我用了一个词叫“freestyle”,用户在跟机器沟通过程中,其实他的表达是非常重要的。举个例子,这个词语音识别是“在家为是”,这是我们有一个电视机顶盒在湖南落地的时候,湖南的一些用户检索的日志,然后我们脱敏之后,发现“在家为是”就是“浙江卫视”。所以看语音的时候其实不懂他是什么意思,要真的懂的话,你需要加上地方语音识别的模型,再加上我们在搜索引擎看到用户的搜索数据采集的信号,结合在一起才能真正了解这个是什么意思。所以用户在跟计算机语音交互过程中,要解决听懂的问题。

听清慢慢能够被解决,但是谁能解决听懂谁,谁就基本上跨过了人机交互的一个非常重要的门槛。要解决听懂的方式,就是要通过大数据、通过深度学习算法不停地计算,才能知道用户真正表达的语意是什么。

第三个就是满足。解决了交互之后,用户就会忽略交互。iPhone 一代出现的时候,大家会觉得用手指去按整个的屏幕是一个特别爽的交互,但是随着智能手机逐渐普及之后,用户觉得说用手按屏幕就是一个很正常的交互,忘记了交互。忘记交互之后,用户就开始真正关心里面的服务和内容。所以当有些用户跟智能音箱去交互的时候,他们需要的是音乐,是信息,或者是聊天等等各种各样的信息的服务,这些服务正好跟百度所拥有的信息和服务的资源是特别吻合的,所以我们也把这些数据开放出来,跟我们的合作伙伴,通过他们的语音交互去直接获取这些信息和服务。

然后透露一个数据,截止到今年的 1 月份,百度DUEROS 的平台上搭载了激活的设备数,累计已经超过了 5000 万台,相当于是 5000 万的手机、音箱、电视、手表等各种设备都具有了语音识别的能力。每个月的活跃设备超过1000 万。这个数字还在不停的增长,基本上每年我们可能接触的语音智能设备都会翻倍增加。2020 年的时候,智能设备可能会真正走到我们每个人的家庭里面。

我们的合作伙伴也很多,这里举几个例子,比如说海尔、VIVO、TCL、小米等等,这些公司本来跟百度的关系其实是没有那么近的。他们都是硬件公司,百度做的是互联网搜索,本来感觉两个行业并没有太多的交集。但是当我们做的这种唤醒万物,让每个智能设备都可以语音对话之后,我们的交易就很多了。很多的智能家居的合作伙伴都在把这样的能力植入到他的设备里面去,让设备具有可以语音交互的能力。

同时落地的设备也非常多,从音箱到投影仪到机器人、电视,会非常多。还有,它催发了第三个开发者生态。开发者生态是什么?大家知道在PC时代,有一个非常庞大的开发者生态,是做应用程序 exe。在移动时代也有一个非常强大的开发者生态,是做 APP 的开发者。每一次一个交互的开启,基本上代表着有一类新的开发者也会随着这个平台去成长。所以现在在语音交互的平台上,已经超过了一万多个开发者跟我们一起合作。同时用户用这种语音交互累计回答的问题已经超过了24亿个。

这里举几个例子,现在都有什么样的语音交互设备,NLP和语音识别都应用在什么样的产品上?比如说早晨的时候会用在智能音箱上,很多人早晨起床的时候会问一下天气,问一下路况。还有在路上的设备,有车载显示屏、耳机等。还有一些机器人和其他设备。

在人工智能时代,软件+硬件是深度结合的趋势。原来我们做语音识别的时候,很多时候是在手机上做。原来微软的触摸,比如Windows8,是在笔记本上可以触摸的。但后来发现虽然触摸交互是对的,但是你放到一个不同的设备上,感觉就不对。很少有人用手指去触摸屏幕。在语音上也是,比如说手机是一个触摸为主的设备,我们原来做语音助手的时候,很多是把语音能力嫁接在手机上,其实用户用手机去进行语音交互的时候,反而没有触摸来的快。所以语音更好应用的场景在哪里?更好是在新的 AI智能硬件上。

百度也做了几款智能音箱的尝试,包括raven H和小度在家。除了中国市场在做对话式人工智能的落地,涉及到语音识别,语义理解交互和内容,国际的巨头也在布局市场,亚马逊,谷歌苹果微软都投入重兵。人工智能终将走近大家的身边,走进寻常百姓家,在生活中有工作的用武之地。

对话环节

清华大学海峡研究院大数据 AI 中心专家委员雷鸣,百度度秘事业部总经理景鲲,清华大学智能技术与系统国家重点实验室主任朱小燕,梅花创投创始合伙人吴世春就NLP在现在和未来的挑战,深度学习、机器学习在NLP中扮演的角色,NLP技术发展落地以及投资等方面的问题,进行了精彩对话。雷鸣认为,人工智能到明年开始逐渐落地,生根发芽,这是解决实际问题的一个过程,在产品落地的过程中,这个市场有特别多的机会。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-04-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档