专访 | 语音助手的涅槃关头,我们应该完全抛弃屏幕还是选择“语音+图形界面”?

AI科技评论按:距离苹果Siri的推出已经快6年了,期间很多智能手机厂商也纷纷将语音助手列为卖点之一,但是其使用率一直不高,究其原因,还是语音助手的功能有限。不过随着深度学习带来的技术进展,以及亚马逊的Alexa的大获成功,智能语音助手获得了前所未有的关注,很多人都认为,语音将是下一个流量入口。

上周,乐视推出了带有智能语音助手的手机,这款手机搭载的语音助手就是去年AI科技评论曾报道过的创业公司奇点机智的产品——“小不点”。对此,AI科技评论对奇点机智联合创始人林德康进行了专访。

奇点机智联合创始人:林德康

林德康,前Google高级管理科学家(senior staff research scientist),主攻自然语言处理。在加入Google之前,林德康是加拿大Alberta大学计算机教授,发表过逾90篇论文、被引用超过12000次,他也是华人圈少数几个国际计算语言学会ACL Fellow之一。

“小不点”宣传视频

奇点机智成立于2014年11月,两位创始人邬霄云和林德康曾在谷歌工作,并且在自然语言处理方面都有着深厚的技术和经验积累,该公司曾先后入驻微软创投加速器(MVA)第六期、以及TechCode孵化器。至于为何会选择做语音助手?林德康表示,最主要的目的并不是因为门槛的降低,而是因为语音助手确实有用。

虽然都是语音助手,但是“小不点”和苹果的Siri、微软的Cortana等不同。传统语音助手除了能够执行系统级别的功能,比如设置闹钟、打电话等,功能十分有限,更像是一个“搜索引擎”;“小不点”则抛弃了业界流行的单独的语音对话界面,转而帮助用户用语音来更便捷地操作手机里的各种APP,比如发微信红包、打车、定外卖等,更像是一个“动作引擎”。

因此,使用小不点的用户虽然是用语音在与手机交互,但是同时也在与手机的图形界面进行交互,这就是林德康提到的CGUI——Conversational Graphic User Interface。

为什么苹果Siri推出多年,功能依然十分有限?

对于小不点来说,其与同类产品最大的不同可能就是最后的实现过程了。

目前市面上大多数的语音助手度需要集成第三方应用的API,才能实现调用功能,然而这一方法存在很大的弊端,因为这会涉及到与第三方APP之间的谈判,覆盖的速度会很慢,而且很多语音助手都想将其他APP的功能集合到自己的界面之中,因此开发者们往往会有抵触情绪,这也是为什么苹果Siri这样的语音助手在推出这么多年之后,功能依然十分有限的原因之一。

用小不点发微信红包

而小不点则是使用了安卓系统里面针对视障用户的Accessibility辅助功能,可以直接读屏,然后实施虚拟点击操作,因此不需要调用第三方APP的API。比如用微信发红包,用户说完“给XXX发10块钱的红包”之后,小不点就会打开微信,并查找联系人,然后跳转到微信发红包的界面,并预填好10块钱的金额,你需要做的只是确认发送。

不过,林德康表示,他们并不排斥接入第三方APP的API。

此外,小不点还有一个比较智能的学习功能。你可以通过这个功能教会小不点实现目前还不能完成的操作,而且小不点在学会之后,其他的用户未来也有可能使用这一功能。据悉,奇点机智已经为这一独特功能申请了专利。

比如,如果你想让小不点学会帮你“点一杯咖啡”,那么你可以直接告诉它“学习点一杯咖啡”,激活自动学习的功能,接下来你就可以开始按平常的步骤进行操作,并在所有操作完成后点击“结束学习”即可。由于小不点会记录这些操作过程,因此下一次只需要对它说“点一杯咖啡”即可自动完成所有步骤。(以下是在乐视手机上的演示视频)

由于以上两点优势,小不点能够在很短的时间内覆盖尽可能多的APP。据奇点机智透露,小不点目前已经覆盖了50多款常用的APP,具备上百种功能。

虽然目前小不点的公开版本还只能实现一轮对话,并不能一直在后台聆听,但是其内测版已经实现了多轮对话,可以通过语音实现连续操作,而不需要重新激活。(如以下视频所示)

「给小乐发微信」 ->「发送我在这里你快过来」->「发送我的位置」->「发送XXX和OOO的名片」->「视频聊天」

背后的技术

1. 语音识别

虽然奇点机智是一家创业公司,而且小不点研发周期也只有1年多的时间,但是林德康表示,目前小不点并没有采用第三方的语音识别技术,而是奇点智能一个5人左右的团队自己研发的,而且采用的就是谷歌的TensorFlow框架。

林德康向AI科技评论透露,其实之前小不点曾采用百度语音服务来进行语音识别,后来才选择自己做。为什么呢?原因有以下几点:

  1. 如果使用第三方的语音识别的话,首先需要将音频传过去,然而传回来的一般就只有一句话。但是实际上在这句话有很多的可能性,而第三方只会在众多可能性里挑选一个它认为最好的传回来。但是如果是自己能够掌控这一过程的话,就可以将众多可能性先预留着,然而再下一步的时候看哪一种其实更说得通。
  2. 采用自己的语音识别技术可以针对某些特定场景进行优化,比如在识别微信通讯录里的人名的时候,如果采用第三方接口,不一定能够识别正确,但是如果是自己的语音识别技术,系统就可以参照通讯录里面的名字进行实时更正。
  3. 由于深度学习这一革命性进步的出现,让语音识别领域重新洗牌,几乎所有玩家都站在了同一起跑线上,大幅降低了后进者的门槛。因此虽然奇点机智起步较晚,但是实际上的技术差距并不大。

不过一个小团队的一年的努力,真的能够与大公司相比吗?虽然林德康并没有给出用来衡量语音识别的词错率(word error rate)的具体数值,但是他表示,在实测体验的过程中,两者表现差不多。不过,目前小不点只支持普通话,并不支持方言。

除了不断地投喂数据,训练语音识别的算法模型之外,还有哪些方法可以提高语音识别的正确率,降低用户在使用过程中的挫败感呢?林德康举了一个例子。他表示,研发会根据APP的名字来优化语音识别的准确率。比如“摩拜单车”的“摩拜”两个字在通用语料库里可能并不是排名最高的,但是对于小不点的用户来说,可能大部分时候指的就是“摩拜”,因此在优化时,他们会将这点考虑进去,来提高用户的使用体验。

而且作为一家小团队,奇点机智除了购买训练语音识别模型所需要的标记数据之外,还专门开发一款APP,让员工利用碎片时间,来专门标注训练所需要的数据。

2. 语义理解

由于公司的两位创始人都有NLP(自然语言处理)的背景,因此在这一部分会有一些优势。林德康在回国之前就是谷歌做自动问答系统的,他表示其中有很多东西都是类似的。

比如实体识别,包括人名、地名、电影名等专有名词,这些都是最基本的,但是要理解整句话的意思的时候,就需要推理功能了。比如当你说“我想去成都”,那么我们可能就会给你用携程等软件搜寻火车票或者机票,如果你说“我想去积水潭医院”,那么我们可能就会用打车软件给你预订车辆。因此只是将一个个的关键词列出来是不行的,还必须将每个词进行分类,然后根据词的表达结构做推理,才能真正理解用户的意图。

林德康认为,做自然语言理解最怕的就是边界,比如Facebook的Messenger Bot聊天机器人,里面上下文的关联太多。而做小不点这种类型的语音助手相对容易一些,虽然语音助手的可能性也非常多,但是它能做的东西是有限的,因此是存在边界的,比如不会用户不可能用携程去交水费。

语音助手的未来:语音+图形界面

2014年11月,奇点机智获得了徐小平100万美元的天使轮融资;去年3月底,奇点机智又获得了襄禾资本和NEA资本500万美金A轮融资。虽然已经获得两轮融资,但是作为一家创业公司,未来的盈利模式很显然也是需要考虑的事情。

林德康表示,目前团队的注意力主要集中在打磨产品,争取与更多的手机厂商合作,未来还会推出独立的APP,暂不考虑盈利的事情。

据AI科技评论了解,由于奇点机智不会向合作的手机厂商收取费用,未来很可能会通过为第三方APP提供流量入口来获取盈利。比如目前用户想通过小不点来订餐,但是在用户没有指明APP的情况下,小不点会默认打开“饿了么”,如果你的手机里面没有饿了么,那么就会跳转到饿了么的下载页。当然,你可以直接告诉小不点,你想通过美团或者百度来定外卖。

对于语音助手未来的发展前景,林德康虽然也认同语音是下一个流量的入口,但是他认为“语音+图形界面”才是未来,而不是Alexa那种完全抛弃屏幕的做法。

虽然林德康表示,利用模拟点击来实现语音操控APP的功能是小不点的首创,但是近日网上流传出来的演示视频显示,三星的智能语音助手Bixby采用的也是和小不点相同的方式,这也从侧面验证了奇点机智方向的正确性。

不过,目前计算机还无法真正理解人类的自然语言,这也是为什么就连Facebook、谷歌等科技巨头的聊天机器人想要实现多轮对话依然十分困难,据外媒报道,Facebook的虚拟助理M和Messenger bot的进展很不顺利,其中M能够正确回应的请求只有 30%,使用情况令人失望。因此,奇点机智的这条路或许没有很高的技术门槛,但是却更加实际。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-04-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

预测未来的公司有何过人之处?

833
来自专栏CSDN技术头条

程序员编程生涯中常会犯的7个错误,你中了吗?

作为软件开发人员生活和职业指导,我需要和很多程序员交流,帮助他们提升职业生涯,加速成长。 时间久了,我发现很多程序员总是犯着相同的错误,前仆后继,却毫不自知。 ...

1839
来自专栏新智元

吴恩达推荐:谷歌、微软分羹 AI 云,四大原因凸显亚马逊危机

【新智元导读】AWS或许正在被 Microsoft Azure和谷歌云拉下王座,本文作者、ArchiTECHt创始人、编辑兼撰稿人Derrick Harris认...

2799
来自专栏镁客网

VR和云服务,使出洪荒之力也难擦出火花

3283
来自专栏程序员笔记

自由体验

2136
来自专栏速成应用小程序开发平台

微信小程序备受用户喜欢对APP是否有影响最终会被取代吗?

自小程序2017年1月9号正式上线以来,不论是中小商家,还是各大品牌巨头,都在抢占小程序这波风口,打造属于自己的小程序。截至目前,全国正式上线小程序超过100万...

1824
来自专栏BestSDK

一周简报|哄睡神器“凯叔讲故事”正式部署智齿客服,24小时为用户解决问题

编辑导语 哄睡神器“凯叔讲故事”正式部署智齿客服,24小时为用户解决问题;TuSDK:人脸识别将成为校园杜绝作弊利器;ApplePay将发布网页版,支持大部分主...

5579
来自专栏java达人

程序员技术变现之路

人是会骗人的,但代码不会,人是靠不住的,但紧跟趋势的技术却不是,只要掌握技术,在任何用得到技术的地方,都可以混口饭吃。普通程序员的一生,就是日复一日进行技术变现...

2120
来自专栏ThoughtWorks

我们为什么做社区?

很多同学在加入ThoughtWorks之后,会频繁的听到和提起“社区”这个词,以及越来越多的参与到“社区活动”中,无论是自发的还是被影响的,都会对社区有更深的接...

1404
来自专栏互联网数据官iCDO

【WAW演讲稿】宋星——金融行业数字营销的数据破局

好的,那么我今天的内容是关于金融行业数字营销的数据破局。前面两位老师给我们很多从大数据、机器学习、人工智能、区块链上非常好的建议,来讲我们是怎么样玩营销的。那么...

3225

扫码关注云+社区

领取腾讯云代金券