智能硬件带来真正的语音时代

年底,所有互联网行业大会都会有智能硬件的位置,大佬们都在说,IOT(Internet of Things)时代来了。互联网巨头、传统硬件公司、各色创业团队,都挤在这个风口等着被吹起来。除了做产品的,还有一类玩家十分兴奋地等着智能硬件火起来:语音技术团队。

2014年底,语音行业新闻不断:云知声完成5000万美元B轮融资主攻智能家居,科大讯飞推出自己的语音智能音响硬件,百度语音涉足智能硬件领域……智能硬件正在成就语音,语音也在成就智能硬件。

一、语音交互正在爆发,尤其是智能硬件

智能硬件最热的门类是可穿戴设备、智能家居、车联网以及智能影音配件。所有这些设备的共同特点都是没有键盘鼠标、绝大部分没有自己的屏幕、几乎都是与手机App协同工作。还有许多智能硬件的使用场景中,双手并不方便,比如在驾驶过程中,再比如看电视离屏幕太远,这时候必须要有脱离双手的新型交互模式。正是因为这些原因,语音成为智能硬件最理想的交互方式之一。

具体来说,语音识别可以解决输入部分,比如通过语音让智能手表完成某个动作,发起一次搜索,再比如通过语音让智能音响播放下一首歌曲,让智能电视播放特定节目;语音合成可以实现交互反馈,比如语音播报搜索结果,语音播报导航指令;语义理解则可以解读声音背后的需求做出反馈,用户可以很自然地对电饭锅说,“明天早晨8点帮我煮一碗八宝粥”,智能电饭锅解读指令并准备行动;声纹识别则可以实现个人ID鉴权,实现智能家居的开门、智能购物的支付等等。

反过来,语音技术虽然已发展多年却一直未能走向大众化。虽然在教育、交通等领域有诸多非常试用的行业应用,但在大众消费市场,智能语音交互上却显得有些高冷。Siri推出之后,Google Now跟进。而在国内,百度语音助手等应用也先后推出,但它们都未成为一个高频、刚需和普及应用,更多是用户打发无聊时间的玩具。智能硬件则有助于语音交互的普及,让语音成为真正的刚需应用。

智能硬件需要语音来解决所存在的交互短板,最终实现人与人对话一样的自然、简单和智能化的交互模式。语音市场也想要抓住正在爆发的智能硬件市场,抓住被用户大量高频使用的机会。

二、百度切入语音交互:互联网巨头的新玩法

语音市场并不是全新的。美国有Nuance这类老牌巨头,中国有科大讯飞这样的百亿元市值公司以及云知声、思必驰等后来者,除了专业公司之外,Apple、 Google、微软、百度、搜狗、微信在语音技术上均有所投入。中国最近动作最大的玩家则是百度。在科大讯飞等语音巨头深耕10多年的背景之下,百度打算如何玩?

1、完全不同的技术原理。

传统语音识别技术基于概率论和统计学,需要人工监督。百度语音则是基于深度学习,以百度大脑为基础,百度大脑是百度在人工智能时代的核心智能平台,图像识别、自然语言处理,均会基于百度大脑。百度语音由GPU深度学习基础设施支撑,不仅更准确,识别所需的运算更加快速和经济。除了识别之外,在语义理解上一直专攻自然语言搜索的百度优势更是不言而喻。

而百度语音开放平台负责人张克宁则透露,传统语音平台基于已有技术已经很难再有大的改进,百度语音基于全新的技术原理更有机会取得突破性进展,比如抗噪技术、响应时间等都有突出表现。今年8月,科大讯飞在百度大脑问世之后,对外正式宣布要推出“超脑计划”,以应对以百度大脑为代表的新一波语音技术浪潮,这个计划要实现基于类人神经网络的认知智能引擎,而它的推出也在一定程度上验证了传统语音玩法已慢慢过时,未来几年语音技术会有爆发式的突破。

2、完全不同的平台玩法。

任何语音平台最终都要比拼合作伙伴数量,这决定用户数量和使用情况。更多人使用语音将能贡献更多的语料等数据,帮助语音效果不断提升。目前,科大讯飞拥有的合作伙伴数量可能在行业里位居前列,开发者也达到数万级别。百度语音平台此次正式开放则有着完全不同的思路。

百度语音平台与百度的内容深度融合,比如百科知识、地图路线、问答结果、天气等中间页服务,面向智能硬件还有百度Inside等平台,百度可以提供多种不同的模板便于开发者整合,GoogleNow比Siri表现更好正是因为内容更强。百度语音开放平台基于API和离线包,支持混合模式,针对不同行业提供不同的模板,而不是为每家企业量身打造,也不是基于License的软件包形式,是更加“互联网”的开放平台。

3、与行业玩家完全不同的目的。

百度要做智能生态,语音只是开放的一部分,百度还有大数据引擎、百度云、百度地图、百度图像识别等多维度API开放出来。百度语音开放,为的是用户、流量和数据,通过在不同设备和不同APP中渗透进百度语音,夯实入口。传统语音玩家就算免费提供语音能力,最终还是要通过增值服务赚钱。百度语音为的是服务,被百度视作连接服务的一种方式和必备的能力,传统语音玩家则是把语音作为自己的看家本领想办法基于语音衍伸一个新的生态实现盈利。

三、语音未来走向何方?突破技术瓶颈成为必备交互手段

尽管智能硬件给语音带来新一波机会,但语音技术依然存在着不少瓶颈,其中典型的有移动网络、识别能力、抗噪能力、远场交互、方言识别还有语义理解。不过这些瓶颈正在一个又一个被攻克,比如4G网络普及和离线语音技术就可以很大程度解决网络问题,再比如深度语音识别可以提升语义理解、语音识别和抗噪能力。在传统语音巨头和互联网语音玩家的合力之下,这些瓶颈最终都会消失。

未来,语音交互与人工智能、深度学习、云端内容深度耦合,语音识别能力并不是孤立存在的,将语音转化为文字之后,能够提供什么、能够做什么,才是关键所在。这就需要与云端内容和服务、与人工智能深度结合起来。这样看来,搜索引擎在做语音上有着得天独厚的条件。语音正在成为新的搜索入口,IOT时代,语音即搜索。

还有一个趋势是,语音会与不同行业深度结合。比如教育行业的口语评测、儿童歌曲、儿童互动教育,再比如呼叫中心的语音客服。这都需要对行业深厚的理解和足够定制化的解决方案。科大讯飞这类传统语音巨头已经在某些行业深耕,其他的行业机会则留给了开发者,基于百度、讯飞等公司的语音开放能力,与行业结合实现行业定制化的语音方案。

值得一提的是,语音并不是万能的,未来的交互一定是多元化的,文字、图像、视频、体感、触感都不会消失,不同产品、不同场景,会有不同的交互诉求。语音虽然很重要,但也只是其中一种。比尔盖茨说过,人们总是高估一项新技术在一两年内能够做到的,却低估语音在五到十年能做到的,语音就是曾经被低估的技术,其潜力正在被激发出来。

原文发布于微信公众号 - 罗超频道(luochaotmt)

原文发表时间:2014-12-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏罗超频道

百度饮得知识图谱的头啖汤!会让大家跟着吃鸡吗?

2017年,知识经济日益火爆,分答、知乎、得到等知识平台可谓如日中天。眼下这种火爆已在从人类延展到机器。互联网巨头纷纷对知识变得饥渴起来,知识成为数据之后的又一...

3718
来自专栏高端访谈

对话派派王耿:派派找到了AI之匙

当移动互联网的红利消失殆尽,社交行业也在经历着阵痛的转型之路。在消极者看来,已有的社交霸主格局无法被撼动,机会难觅,而在积极者看来,人工智能、大数据、VR/AR...

1452
来自专栏华章科技

大数据临产业风口,如何解读数据资产的商业价值?

如今,大数据已不再停留于概念畅想阶段,对于大数据的认知与应用也越来越广泛深入,不管是政府还是企业都在加快行业建设与布局,资本市场的助推更是加速了这一进程。全球范...

1801
来自专栏镁客网

极限元温正棋:从前端信号处理到语音识别、对话、声纹情绪与合成,要打造智能交互闭环 | 镁客请讲

1943
来自专栏腾讯大讲堂的专栏

拼多多黄峥:所有的电商都应该做小程序

4539
来自专栏人称T客

只有满足用户需求的创业才有商业模式

作者:T客汇 窦悦怡 关键词:商业模式,应用场景,用户体验 网址:www.tikehui.com 随着互联网的蓬勃兴起,在移动社交时代,SaaS是互联网的体验与...

3467
来自专栏华章科技

美国数据科学家带你看看大数据的未来

从SGI的首席科学家John R. Masey在1998年提出大数据概念,到大数据分析技术广泛应用于社会的各个领域,已经走过了17年的时间。现在再也没有企业怀疑...

792
来自专栏CSDN技术头条

美国数据科学家带你看看大数据的未来

从SGI的首席科学家John R. Masey在1998年提出大数据概念,到大数据分析技术广泛应用于社会的各个领域,已经走过了17年的时间。现在再也没有企业怀疑...

1967
来自专栏人称T客

读了这篇文章,对于MEAP,你不再是陌生人丨研报

T客汇官网:tikehui.com 撰文 | 李哲 ? 上一期,我们得出的主要结论之一是,中大型企业率先展开移动信息化实践,已积累了大量移动信息化的实践经验,并...

3737
来自专栏数据猿

DataEye CEO 汪祥斌:游戏行业或将率先进入数据买量时代

数据猿导读 2016年整个游戏行业崛起了一股买量潮流,一些主流广告平台的采量正代替应用市场成为游戏持续获得用户的主力手段。在2017年买量成本还会有更大幅度的提...

3107

扫码关注云+社区

领取腾讯云代金券