前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >2018年人工智能将打响语音交互的“发令枪”丨科技云·视角

2018年人工智能将打响语音交互的“发令枪”丨科技云·视角

作者头像
科技云报道
发布2022-04-14 18:26:00
4070
发布2022-04-14 18:26:00
举报
文章被收录于专栏:科技云报道科技云报道

以前,人们习惯于通过键盘和触控屏操控智能设备。未来三到五年,人们或许可以随时给身边智能设备、机器人下达指令,帮助订餐、订票,乃至端茶递水。过去,机器对语音识别度不高,对自然语言的语义更难以理解,阻碍了语音交互的应用。随着降噪技术、方言识别、远场识别、全双工交互、机器学习等技术的发展,使语音和语义识别理解有了大幅提升,让机器准确理解并执行人类指令成为可能。

近两年,语音交互得到了全球互联网巨头的高度重视。为了能够在语音交互生态中抢占战略高地,亚马逊、苹果、微软、谷歌、百度、科大讯飞等一众全球科技企业纷纷进军语音助手市场。

除苹果Siri、谷歌GoogleNow、微软Cortana外,亚马逊也在大力推广Echo智能音箱。Facebook推出了聊天机器人Messenger Platform,希望通过建立对话式系统,实现订餐、下单、获取资讯等服务。谷歌则在I/O大会发布Google Home智能音箱。

在巨头之外,中国的诸多创业公司也开始声势渐起。随着越来越多的公司挤入语音交互这一细分市场,该领域在2018年将迎来更为激烈的竞争。

从“一问一答”到“自然交互”

语音识别的不断进化之路

数据报告显示,2016年语音识别正确率已经提高到了90%,而五年前则只有70%。计算机和智能终端的界面,正在从“键盘+鼠标”变为“麦克风+按钮”,语音识别交互所占份额正在不断增加。

从语音交互的成长路径看,大致可以分为三个阶段:一问一答、有问有答、自然交互。

语音应用通过算法的演变和大量数据的输入,在技术层面实现自然语音识别和语义理解,针对对话内容进行数据匹配,然后调取相关话题,从而实现简单内容的单向一问一答。第一阶段在自我学习、逻辑推力方面有很大欠缺,不能针对同一对话内容展开深入交互,横向拓展和纵向发展都不能满足用户需求。

2000年,比尔盖茨曾提出“未来十年是语音的时代”。业界目前所说的智能语音,学术上称为“自然语言处理”。

业内人士认为,智能语音技术将会成为人类主流的人机交互方式之一,计算机技术与人工智能领域的发展为智能语音交互发展带来了希望。

语音交互的第二个阶段就是对话,即有问有答,包含上下文逻辑。对话层面仍然停留在“人机对话”阶段,机器仍然停留在被动接受人类输入大量数据阶段,相比“问答”层面,只不过信息流、数据存储量更大,机器仍然不能更深层次理解人的意思,无法实现自学习、自成长,与机器的语音交流还不能像人一样自然。

语音交互的第三阶段,就是具有感知能力人机交互的发展。不仅有问有答,包含上下文的逻辑,同时智能硬件能够更多地融合各种环境信息,通过感知、判断和推理,做出不同决策或推荐。也就说,在交互过程中,机器有了更多的主动性和感知能力,能够为人提供更多、更好的帮助。

语音交互重要的是应用场景,是否能够打透用户亟需的场景才是决定其发展成败的关键因素。当前,用户对于语音交互的要求并不高,而是希望确实能够解决生活中的具体问题,但通用的语音交互总是伴随着智慧概念,其功能无法令用户满意。因此语音交互的落地首先要考虑是否能够满足用户最基础的需求,而不是急于贴上AI的标签。

同时,语音识别从手机转向垂直场景,需要解决远场语音识别和场景语言理解的问题,亚马逊率先解决了这些问题,国内科大讯飞和声智科技也随后补齐了这个链条。

目前来看,智能语音交互的技术链条趋于成熟,已经具备了大规模普及的基础,等待的只是用户习惯的改变。相比其他人工智能技术,语音交互在未来五年内有望成为大规模落地应用的技术,其迭代的速度可能会超过我们的预期。

但是语音交互仍然还有很多问题需要解决,包括终端技术的低功耗和集成化、语音识别的场景化和一体化,以及语言理解的准确性和引导性。

想让语音交互流行起来?

还有几个重要问题需要解决

语音交互的两个关键点为语音识别和语义理解。语音识别方面,随着智能终端的普及应用,我们已经获取了大量的语音数据资料,再加上算法的优化,这为计算机的深度学习提供了大量的支持。

这其实跟人类学习语言是一个道理。首先,大脑要有学习认知的能力(算法);同时,还要掌握充分的词汇量,接受足够的听力训练(语音数据),才能听懂一门语言(语音识别)。

语义理解依赖于神经网络(ANN)的技术,本质上是一个自适应非线性动力学系统,将机器学习的方式模拟人类大脑的神经元,当处理的语言越来越多时,这种网络就可以逐渐理解语言,实验结果发现,这种技术可以使准确率提升25%以上。

语音识别技术目前仍受制于环境、口音等客观因素的影响,比如背景噪音、口音、语速、特定领域的专有名词等都影响准确率。

在一项测试中,实验者随机截取了几段网络课程用主流的云端引擎测试识别准确度,基本上准确率在70%左右;然后又截取了一段新闻联播的音频,用同样的云端引擎做测试,准确率达到了95%左右。通过这个测试,可以清楚看到客观因素对语音识别准确率的影响。

语音交互有着天然的用户场景和用户群体,创造了全新的伴随式场景,语音交互解放了人们的手和眼睛,让人们可以做到一心二用,这极大的提高了语音交互在某些场景下的效率。

现阶段最符合用户习惯的交互方式是GUI,但GUI也是随着智能手机的发展才逐渐流行起来。语音交互技术一旦解决了拟人化的问题,赋予声音情感化,强化人人交互的体验,就会进一步促进用户习惯的养成。

另外随着智能设备影响的扩大,用户群逐步向老龄人群、低龄人群、身体残障人群渗透扩散的趋势非常明显。

对于这些新进入人群而言,原有的触控交互方式或许并不太适合,用户习惯也未形成,例如老年人视力下降、手指也不够灵活;低龄儿童还不能掌握手写等能力也不适合长时间看电子屏幕;弱视/盲人更希望接受语音信息和发出语音指令,等等,因此语音交互也更适合拓展智能设备新的用户人群。

起风的时候,所有厂商都以为会有能力飞的更高,但不是所有厂商都能飞的很远。语音交互产品并非是由入场时间决定输赢,功能完成度、服务好感度、交互体验度会成为留住用户最重要的砝码,也是一些厂商能够抓住的新机会。尽管智能语音产品刚刚开始在中国家庭落地,但未来十年,以语音交互为开端的人机交互革命将开拓出更为多元的场景,生活的本来面目也将由此而改变。

【科技云报道原创】

转载请注明“科技云报道”并附本文链接

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-01-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 科技云报到 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档