人工智能时代语音大热,中国巨头如何争夺麦克风?

语音并不是一个新鲜事物,2011年,Siri被内置在iPhone 4s之中横空出世时,曾掀起一波语音技术和讨论热潮和语音助手的创业热潮。时隔五年之后,Google AlphaGo人机大战将AI(人工智能)从实验室技术变成坊间热议的话题,人工智能成为国内外科技巨头的争夺焦点,语音则成为巨头进军AI的必经之路。

• Google I/O大会上,最重要的项目便是Google Assistant(谷歌助理)和Google Home(类似于Amazon Echo的智能家庭音箱助手),Google Home的基础则是语音。

• 苹果WWDC开发者大会上,5岁的Siri终于兼容了Mac,并向开发者开放,能完成更多任务。

• Amazon Echo成为Amazon 最成功的硬件产品,这款产品销量已达到400万,家庭智能语音音箱,被视作是智能手机之后的又一个爆款品类。

Google I/O大会上发布Google Home

KPCB合伙人、享有“互联网女皇”称号的玛丽·米克尔在今年的互联网趋势报告中,将超过十分之一的篇幅给了“语音”二字,在其看来,“触摸屏+麦克风”正在取代“键盘+鼠标”的交互方式。

如此重要的技术革命,中国巨头自然不会缺席。截止目前,中国市场还没有与Amazon Echo媲美的中国版智能语音音箱,但在软件层面互联网公司却一直在想方设法入局。Siri发布的第二年,搜狗便发布了语音助手,搜狗也是中国最积极投资语音的互联网巨头之一,阿里、腾讯、网易、京东等巨头在语音上虽然偶尔有零星动作,但并未将之视作重点,要么是第三方合作,要么是蜻蜓点水。搜狗是搜索引擎,且崇尚技术,这是其押注语音的原因所在。

输入成中国玩家进军语音的亮点

输入是语音最典型的应用场景,户外、家里、走路、开车,人们有许多时候都不便于打字,或者说懒得打字,抑或打字效率不够高,语音就成为一种选择。随着语音技术的发展,识别准确率、方言兼容度、噪音抗干扰诸多难题都已得到解决,语音识别率已达到实用水平。

在语音输入法上,搜狗输入法、讯飞输入法和百度输入法是最主要的三个玩家。科大讯飞凭借着语音技术切入输入法领域,宣称用户数已过亿;百度输入法也将语音当做亮点,其宣称借助于DeepSpeech技术解决了噪音问题。语音输入量工具最大的则是搜狗输入法,其7%的用户会用到语音识别功能,这一功能每天会有超过1.4亿次的语音转化量。

搜狗输入法做语音则有5年历史,与讯飞语音输入法强调识别率不同,搜狗输入法更强调智能输入。识别率再高,语音输入依然会有错字现象,手工更改成痛点——用语音输入就是因为不想动手。搜狗输入法的解决方案是智能交互,比如用户说“航天一院”很可能被识别为“航天医院”,用户就可再说“一二三四的一”,搜狗输入法就会将“医”改为“一”。这样的交互能实现,关键不在于识别率,而是语义理解,如果没有语义理解技术,就会直接将“一二三四的一”转化为文字。好的语义理解,需要应用深度学习为基础的人工智能技术,这是互联网公司尤其是搜索公司擅长的地方。

语音输入法成为中国互联网巨头做语音的一大亮点,美国用户并不需要“输入法”,系统自带功能就可满足,因此美国并没有类似于搜狗这样的输入法巨头。当然,英文会需要语音输入,不过这并没有成为Siri的重点,未来或许会出现英文版的语音输入法。

汽车成中国巨头最亲睐的场景

在语音使用场景方面,美国科技巨头更亲睐“家”,Amazon Echo、Google Home均是面向家庭这一场景。家是封闭空间,相对更安静,并且干扰他人和被他人干扰的问题更小,还能与智能家居打通,是非常适合的语音场景。不过,由于做硬件需要较强的“硬实力”,与智能家居打通则需要大量的产业整合,不是一时半会能实现的,因此中国互联网巨头均对这个场景望而却步,阿里、京东有尝试与第三方合作推出与Echo类似的产品,市场表现却很平淡。

与“家”同等重要的语音场景非汽车莫属:车主在驾驶时双眼和双手都被占用,语音成为最佳输入方式。过去汽车内的语音输入存在许多痛点,自带语音功能只支持少数英文命令,并且还要给更多钱买“豪华版”才会配置。汽车内的语音交互充满着互联网巨头最向往的颠覆机会。

搜狗针对汽车发布了智能语音导航App,可实现驾驶之外的常规车内交互,包括打电话、发短信、查天气、歌曲播放等等,这款产品可运行在智能手机上,还可通过车机互联协议使之运行于汽车屏幕,如果汽车厂商与搜狗进行前装合作则可独立运行于汽车的OS上。不久前,YunOS与上汽合作的国内首款互联网汽车,语音交互被当做一个卖点:阿里巴巴CEO张勇展示了用语音打开天窗这样的操作。在未来,汽车内的语音交互将成为标配。

智能技术确保语音能够听得懂

Siri才五年历史,但语音却有十分悠久的历史:科大讯飞在1999年就已成立,现在是A股市场上市值400亿元的语音巨头。不过,语音走向大众,彻底改变人机交互方式,却是近几年才发生的事情。从国内外科技巨头的动作来看,智能技术和云端服务已成为语音的两大支柱。

语音技术过去是基于“规则”而不是“统计”,基于一定规则,对海量的语料库进行处理之后就能不断提高识别准确率。深度学习为基础的人工智能技术加入之后,语音技术就变成通过机器集群去学习海量语料数据,并寻找到各种规律,进而进行准确的语音识别和语义理解。

不论是语音输入的智能纠错,还是语音搜索对用户请求的准确理解,抑或Siri响应用户诸如“帮我设置一个提醒,明天9:00取快递”这样的复杂命令,底层均是人工智能技术,AlphaGo掀起的AI启蒙运动则将会成为语音普及的助力。

搜狗与清华大学联合成立“天工智能实验室”,正在人工智能技术这个“根”上布局,以求赢在起跑线上。借助于人工智能技术,搜狗宣称语音识别准确率高于97%,识别速度高达每分钟400字以上,在语音修改方面,支持替换、插入、删除等几百种改错操作 ,修改成功率达到90%以上,处于行业领先水平。

云端服务则决定语音能够做什么

智能技术确保了人与机器能够顺畅地对话和交互。云端服务整合能力,则决定机器在听懂人话之后能做什么。

Siri相比Google Now的劣势是,许多Siri无法回答的问题,Google Now可通过搜索解决。Amazon Echo之所以有很大价值,在于其能够去Amazon网站下单购物。这些均体现了云端的服务整合能力,正是意识到这一点的重要性,今年的WWDC上苹果决定开放Siri给开发者,让开发者来丰富Siri的服务。

云端服务上,搜狗拥有搜狗地图、搜狗搜索、搜狗号码通、搜狗问问、搜狗百科等产品,未来搜狗语音还可整合其伙伴如京东、知乎、腾讯的诸多服务,比如QQ音乐、腾讯视频、京东购物等等,甚至用语音给微信好友点个赞。相对来说,互联网巨头云端服务整合能力更强,搜索引擎凭借着强大的内容整合和服务连接能力表现又更突出。

仅仅是整合“在线服务”并不足够,互联网巨头要做语音,下一步重点将是努力去与实体世界服务实现整合,比如让用户能够通过语音订外卖,可以通过语音打开门禁,通过语音来打开车窗……整合方式有两种方向:一种是手机App与各种服务连接起来;还有一种是语音inside各种硬件之中,例如机器人,汽车等等。总之,整合实体世界服务之后,语音就不会只是回答用户的问题,而是要帮助用户完成任务,成为全能助理。

语音市场在AlphaGo掀起人工智能热潮之后又迎来新的发展契机,语音正在彻底颠覆人与机器的交互方式,搜狗为代表的中国科技巨头正在输入、汽车等场景上寻求突破,在智能技术和云端服务上进行双重布局。不过,要让麦克风取代键盘,科技巨头还有很长的路要走,可谓任重道远。

本文分享自微信公众号 - 罗超频道(luochaotmt)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-07-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序员互动联盟

为什么国内程序员更喜欢用国外技术网站?

目前国内程序员的数量已经几百万之众,中国的软件经过最近几十年的发展已经取得了绝大的进步,亚诞生了像bat这样在全球都很有名的互联网公司,但你会发现很多程序员还是...

49320
来自专栏腾讯大讲堂的专栏

什么是「好产品」?

大约1年前,我所在的部门和某互联网社区合作发起了一轮招聘,目标是产品经理,我是这轮招聘的面试官之一。当时在网站上提了一些问题作为「笔试题」,用来对候选人做第一轮...

32350
来自专栏程序员的知识天地

调查3.9万名国外程序员制作出来的开发者技能报告

这是一份样本数超过 3.9 万人的调查报告,参与调查的开发者遍及全球。除了四分之一的开发者在学会开车前先学会编程之外,还有这些调查结果等你发现。对照这份调查报告...

11630
来自专栏华章科技

曝光:硅谷巨头们如何玩赚大数据

今天要跟大家分享的文章来自曾小苏 Clara的《硅谷观察之大数据篇》,该作者是36氪驻硅谷首席代表,水瓶座B型血爱吃肉,传说中是个美女。在硅谷的一个月,她在 s...

12930
来自专栏华章科技

CTO不写代码,真的可以吗?

导读:CTO 在公司里是干嘛的?到底写不写代码?该不该做代码评审(Code Review),亲力亲为给程序员做出榜样?还是把握一下大方向,设计架构,管管程序员,...

18640
来自专栏镁客网

阿里飞猪大数据杀熟冤不冤?我们做了这个实验

近日,作家王小山通过微博爆料称遭遇飞猪大数据杀熟。他表示,自己前几天在飞猪购买了利马到布宜诺斯艾利斯的机票,同一个航班,其他平台票价为2500,飞猪的价格却为3...

14530
来自专栏罗超频道

搜狗做AI:围绕语言,力出一孔

数千万年前,猿猴为了生存,学会使用石器,跳下大树直立行走,从而为人;人类为了更好地交流,发展出语言;为了记住过去,又发明了文字,从此人类有了有记载的历史。

12820
来自专栏罗超频道

度秘会重新定义语音助理吗?跟Siri不同在哪里?

就在苹果秋季发布会的前一天,近20家中国科技企业在北京召开发布会,其中最受关注的是一年一度的“百度世界”。百度世界大会对标苹果的WWDC或Google I/O,...

45190
来自专栏镁客网

哈佛将研究能够赶上人脑的人工智能系统

13460
来自专栏Rainbond开源「容器云平台」

好雨科技发布SaaS应用市场“云市”,做软件厂商与用户的连接器

14920

扫码关注云+社区

领取腾讯云代金券