记者:胡祥杰
2016年8月3日下午,中文搜索公司搜狗发布语音交互引擎 ——知音。搜狗CTO 杨洪涛首次披露了公司未来8年主要的发展方向,搜狗语音交互中心负责人王砚峰则详细介绍“知音”。在发布会现场,王砚峰告诉新智元,3月份时,搜狗委托第三方测评机构对搜狗、科大讯飞和百度的语音输入进行实测,结果显示,搜狗和讯飞能力基本持平,整体领先百度。此外,搜狗语音技术也会跟一系列企业进行合作。
搜狗人工智能战略方向:自然交互+知识计算
人工智能技术是搜索的基础,在搜索公司占有绝对重要的地位,搜狗CTO 杨洪涛在本次发布会上说:“如果从具体的技术领域来讲,其实搜索引擎更是人工智能技术的全能选手,这些领域中的学习,自然语言理解、舆论语音识别、知识图谱都是搜索引擎里面大量使用的技术。”
搜狗CTO杨洪涛
杨洪涛在大会上首次公布了搜狗未来8年的工作主要方向:自然交互+知识计算。杨洪涛说:“自然交互指的是让机器能够很好地懂人的一种自然表达,可能里面包括语音技术。而知识计算是要把互联网上海量的信息、知识提取出来、表示出来、存储出来,而且能做运算和推理,帮用户做一个好的决策,解决你的需求。所以,工作目标就是辅助人做更好的决策。”
搜狗的语音技术究竟什么水平?
2015年12月,市场调查机构TECHnalysisResearch对来自5个国家(美国、英国、德国、巴西和中国)的3012名用户就虚拟语音助手发起调查,在参与调查的1024位美国用户中,有超过50%表示并不会使用语音助手,而7%的人不知道语音助手是什么。在全球范围和美国地区,只有43%的参与调查者表示使用语音助手服务。
Facebook CEO 扎克伯格上个月在接受The Verge的采访时说,并不认为语音是最好的交互界面。
那么语音的应用场景究竟在哪?以语音输入为例,据搜狗语音交互中心负责人王砚峰的介绍,有三种情况:一是当你的双手、双眼被占用的时候,这时候你是没有办法进行键盘输入;二是在一些不能用键盘输入的设备上,比如音箱、智能眼镜,还有你在路上走路的时候,也不太方便用键盘输入,可能语音更方便一些。
这些场景在生活中虽然常见,但是并不是主流,这是否可以解释语音技术在不断发展,但是消费者的接受度并不高这一现象?
搜狗最早于2012年就开始研究语音输入,当时使用的是谷歌的语音识别技术,不断累积数据,一年之后技术跟进之后,把Google的技术替代掉。据王砚峰介绍,现在搜狗每天使用语音输入的请求次数已经超过1.4亿次,已经是互联网上最大的。搜狗语音识别在2012年11月份上线,现在每天使用语音输入功能的用户比例已经达到8%,同时现在在输入法上每天用户产生出来的语料规模是11.7万小时,这个数字比目前国内任何语音公司使用的语料规模还要大。
在发布会现场,王砚峰展示了搜狗、讯飞和百度三家公司的语音输入法在实际应用中的对比情况。考虑的因素包括输入的场景、用户的性别、口音以及环境的噪声,采用的是多机模式,即,三台手机在那里,一起来按。结果显示:搜狗跟讯的讯飞的能力相对持平,整体领先百度,领先的幅度还不小。
王砚峰对新智元介绍说,本次测评由第三方公司完成,具体过程搜狗不加干涉。他认为,这个结果相对有一定的真实度和说服力。
此外,搜狗的语音技术会跟其他企业合作,比如在车内的语音交互上。王砚峰说,目前已合作企业包括四维图新。
语音理解依然是难题
杨洪涛和王砚峰在发布会接受提问时均表示,搜狗的语音技术,未来五年主要是在对话方面,但是语义理解方面不能做到真正像人一样聪明。
王砚峰说:“因为人的思考方式是抽象的,而人的特点在于看一两个样本,你给他讲一两个道理就可以触类旁通,但是机器要通过特别大量的样本才能有理解能力,所以人的理解方式跟机器的理解方式不一样,所以我们现在很多不管是在文字方面也好,还是在语义对话方面也好,我们确实没有足够多好的样本来“喂”机器,第二你有很多好的样本,能不能彻底解决机器的问题是不知道的。就像现在的自动驾驶,像特斯拉前面出的那件事,只要这种正确率达不到百分之百,用户对自动驾驶接受就要有相对长的时间。”