前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >对话 | 不能与人类直接对话的智能硬件都是“伪”智能

对话 | 不能与人类直接对话的智能硬件都是“伪”智能

作者头像
AI科技大本营
发布2018-04-27 15:15:07
1.1K0
发布2018-04-27 15:15:07
举报

整理 | Donna

编辑 | 鸽子

不能直接与人语音对话的智能硬件都是耍流氓!

随和、直爽,是海知智能创始人兼CEO谢殿侠给人的第一印象。这位曾创立北大古典音乐社团的江湖才子“谢大侠”直言不讳地称“不能与人类直接语音对话的所谓智能硬件是“伪”智能。

在他看来,AI和智能硬件对人类的影响会比过去200年间的工业革命、PC革命和互联网革命的总和还要大。自己算是赶上了这波时代更迭的浪潮。

采访中,“谢大侠”向我们详细介绍了他针对细分用户群制定的“挖井”战略及背后对市场的深度观察,还描述了他要构建的“第三方技能插件开放平台”:降低个人制作技能插件的门槛,从而直接帮助有需求的个人和企业整合一套适合自己的解决方案来对接硬件。

打假人工智能:Glass,Apple Watch是“伪智能”

AI科技大本营:当时为什么创业做语义理解这一块?

谢殿侠:2014年,语音识别、语音合成这两个环节在学术或者是工程上,都开始突飞猛进。

为什么会突然突飞猛进呢?

因为当时,深度学习已经开始被应用在语音识别上。

过去采传统的模式识别,能将结果提升几个百分点,就很不错了;但当时,微软邓力团队用深度学习的方式来做语音识别,一下子就将准确率提高了20%以上。相对于过去,这绝对是一个结构性的变化,里程碑式的变化。

照这样的发展速度,三五年或有限时间内,语音识别的准确率就能达到一个非常高的程度了。

可是当时,语义理解还没有太多人来做。

相比语音,语义理解的不确定性会更强。当然,机会也更更多。

因为当语音识别不成问题时,语义理解的准确程度将在很大程度上决定用户的体验。

再加上,我跟我的CTO之前一直专注在语义理解方面,我们觉得,机会来了,而且还是个不小的机会。

AI科技大本营:既然语义理解这么难,创业公司的风险会不会很大?如果科大讯飞等公司直接来切语义这一块,会不会创业公司根本就没有机会?

谢殿侠:这倒不会。

第一点,语音识别和语义理解其实是两个不同的细分领域,表面上来看,貌似相关性比较强。但实质上,完全不同。因此,从语音想直接切到语义,其实是重新开山的过程,没有那么容易。

第二点,2014年,这个时候还处在非常早期的阶段,没有一家可以自信地说,能一下子把整个大海给煮沸了。

不过,正如你所说,语义很难,所以我们在2014年定了一个原则,我称它为挖井战略:即我们不做开放领域的语义理解,只扎根于几个垂直领域,扎得足够深,挖到水,再去做横向拓展。

把这个原则翻译成偏书面话就是:针对特定用户,面向特定场景,解决特定问题。“三个特定”。

有了这么一个策略呢,我们就会在有限的资源、有限的时间内,取得还可以的结果。当然今天说这些都是马后炮了,不过回头来看,这个策略确实有效。到今天为止,某些我们比预期中跑得更快。

比如说,原本有一些明年、甚至更远才能够落地的项目,我们实质上在去年、今年已经陆续落地了。

不过呢,刚开始,这个策略确实会让我们比别人慢一些。

AI科技大本营:“挖井”这个策略现在回过头来看,确实很正确,但在当时,当别人都比你快的时候,一直坚持克制,并不容易吧。没有动摇过?

谢殿侠:一直没有动摇。

当时有人认为直接做智能硬件能更快赚到钱,很多人都去做了,但我们忍住了坚持有所为有所不为。

尤其那时不少智能硬件都算是伪智能硬件,因为不是说连上智能手机就称之为智能硬件。什么是真正的智能硬件?真正的智能硬件是要能够理解人的语音,和人进行沟通,这才是真正意义上的智能硬件。

2015年,可穿戴设备比如手表、手环,包括谷歌Glass等,不太接地气,谷歌Glass最后也失败了。

智能手表,无论是安卓系列还是苹果,也不是特别成功。在此之后,可穿戴设备收缩得很厉害。

另一块是家居、车载场景,这块比较慢热。但基于家居场景的亚马逊做的Echo就非常成功:做智能音箱,可以播放音乐,可以语音交互,也可以控制其他家居产品。这就是场景找对了。

Echo的成功也应证了这个想法的正确:一定要注意场景,在具体的可真正落地的场景中去做我们的产品。

AI+智能硬件 > 工业革命+PC革命+互联网革命

AI科技大本营:您刚刚提到在明年或者更远时间才会落地的,其实在去年和今年已经落地的项目,具体指的什么?

谢殿侠:有两件事。

第一个是2B业务,主要用于大型企业的智能客服上。

再一个,是我们推出的水晶球智能分析员,这个在去年下半年开始落地,今年就已经有结果了。

这两件事原本预期在2018年才会落地出结果的,没有想到在2016年下半年就已经开始进场了,2017年已经有了初步的成效。

AI科技大本营:您没有料到这两个事情能这么快落地,是因为竞争对手少,还是市场的发展比您想象得更快?

谢殿侠:应该说是市场发展快。不过,整体的市场是前慢后快。

2016年以前,大家对智能硬件、机器人、以及家电行业不抱太大期望。但是,2016年下半年阿尔法狗的横空出世成了全民事件。加上国家开始加大扶持,媒体不断宣传呼吁,人工智能的市场被真正唤醒了。

人工智能概念的普及这个太重要了,直接推动产品的快速落地。

AI科技大本营:在这个热度中,泡沫的成分有多大?

谢殿侠:有泡沫,成分也不少。

泡沫普遍存在于三个方面:一是很多给自己贴人工智能标签的公司和行为。这些公司本质上还是做的大数据的应用或者是传统的信息化系统。

另一种泡沫是在资本层面。一些什么都没有只有AI概念的公司,就因为这个概念有了很高的估值。

还有一种泡沫是业内一些不健康的想法,比如有人吹语义理解准确率已经达到了97%以上。

虽然有泡沫,但总的来说,人工智能的发展趋势是不可逆的,当它在各行各业落地后,将产生比工业革命、PC革命、互联网革命和移动互联网革命全都加起来,都要大得多的影响。

用60分以上的产品吸引用户

AI科技大本营:突然开始的市场火热,会不会有泡沫?比如,由于技术目前还非常早期,这些寄希望于语义、语音识别来升级的厂商,期望过高;在他们跟风尝试后,发现产品并没有想象中好用,用户体验并不够好,从而不会进行复购。这样的情况是否存在?

谢殿侠:这种情况在产品发展初期确实会出现。

比如说智能音箱,前几年有不同大大小小的品牌在做。其中大部分宣传效果和实际效果差太多了。

这时候,巨头们也开始进入这个领域,于是用户体验有了极大的提升,即使用户的一些落差还存在。

但是,即使产品现阶段有它的缺陷和不足,从长远或者全局角度来看,这个产品本质上还是大势所趋。而早期的消费者也能看到产品在一步一步完善,变的对它更满意。

这和PC机的发展和普及一样。早期宣传的很神,但使用起来很慢很烂,用户有心里落差。不过这并没有影响PC机普及到千家万户。手机发展也是一样,最初的大哥大,到功能机,再到iPhone,即使到iPhone1时,短消息还不能转发。

智能音箱也一样。虽然现在大家会认为智能音箱的功能,手机连音箱也可以实现。但是,当用户用过一个人机交互的智能音箱,就不会愿意使用原来的音箱了。因为普通音箱需要操作十多次才能播放音乐,而智能音箱一句话就可以实现了,这个差异非常大。

所以,尽管智能硬件产品目前普遍还有许多毛病,但是它能在某些方面比较极致的解决人的需求,使人们产生依赖。

当然,智能硬件类产品想要赢得市场,也得做到起码的分值。对智能音箱来说,首先质量要达到同类蓝牙音箱的水准。其次,智能音箱得听得懂人说的话,不能听十句错六句。最后,我想听的歌曲,曲库里面大部分都在。

这三个要求是乘法关系。音箱质量要好,理解力要足够的准,内容体量也要足够大。其中,理解中包含语音识别和语义理解。如果语音识别是80分,语义理解是80分,乘在一起就是64分。然后喇叭质量不太好,又是80分。然后后面资源又不够,假设虽然还是80分,那最后乘起来就只有40分了。一个40分的东西,人们肯定把它扔掉。

但是如果最终的体验到了60分,人们会容忍它的一些问题,然后享受它所带来的一系列的便利。

AI科技大本营:是不是当一个产品成为了刚需,人们就会容忍它的一些存在的毛病?

谢殿侠:是的。这就对应了我之前提到的三个特定,特定用户、特定场景、特定问题。我们计划在一个领域里面做到足够的透。让它在此领域,的的确确跟传统的方式有比较大的体验和改观,把它做到极致。

AI科技大本营:能不能具体说一说您定的这三个特定分别指什么?

谢殿侠:我们会先定位明确的使用人群,因为我们觉得用户群是细分的群体。我还是从智能音箱举例,用户群是老年人,还是白领或者小孩。然后,定位场景,是在家里,还是在车上,还是在办公室。家里是在卧室,厨房,还是客厅。最后是特定问题。我们可以为儿童打造语音交互的故事机,也可以为白领打造听音乐的音箱。

细分客户群,场景与问题,就相当于我们对解决智能硬件复杂的技术问题增加了一些边界条件,减少不确定性。最终说能够在相对有限的范围之内,能够形成一个最优解。

当用户群明确后,我们会预估我们可解决的问题与场景。比如,我们可以做儿童陪伴型机器人,但做不了儿童教育型机器人。原因一是教育类机器人离代替老师去解决教育问题还差的很远。二是我们现阶段的技术还没有发展到可以将它做好。过去市场上有一些做教育类机器人的创业公司,不少都搭进去了。

而我们可以做好陪伴型机器人,另外还可以加入学习型成分,比如词语、成语、甚至诗词接龙。

所以,当我们寻找合作伙伴时,我们希望对方先给出明确的产品策略,把用户场景和问题的边界定了,定在合理的范围之内。然后我们做出来,在最终用户能够接受的范围之内,那这个产品才能落地。否则的话,大家都只是一片好的想法,没有好的结果。

海知智能的定位是产品技术平台,也就是说,我们只提供能力,让我们的合作伙伴,他们用我们的能力做出来他们想要的产品。相当于我们是电厂,但是我们这个电比较特别。

我们希望这个电呢,你做灯泡也可以,做冰箱也可以。但是你说要做一个造火箭的工厂,那可能对不起,这个事不是我们现在的范围。

AI科技大本营:从商家的需求来看,明显感觉到跟之前是一个爆发性的增长吗?

谢殿侠:是的,大家都意识到了这个趋势:接下来这个时代,所有人、事、物都会有自己的bot。

不过,我们还是只能提供有限的服务。我们自己会定义一些领域,然后在场景下优选服务对象。这些对象必须是我们有能力充分打磨的。比如说面向家庭的智能家居,然后用户是小孩和白领。

AI科技大本营:所以平时拒客率挺高的?

谢殿侠:原则上,我们只筛选出产品价值观和我们一致的客户,所以的的确确有所为有所不为。比如说我们在2015年,有一段时间梳理客户可能有将近100,但是最终我们选择了不到10家做合作。

作为产品技术平台,我们还是希望能够让产品落地,所以基本上会选择有明确合理的产品策略的公司和一些种子的开发者,或者是标杆客户来做合作,深度打磨产品。

现在我们的平台开放注册了,希望大家能可以来用我们的技术。未来一年预期应该有上万,我们定的目标也是至少过万。

Bot skill:非典型第三方技能商店

AI科技大本营:为什么给你们的平台取名Bot skill平台?Bot skill又分别代表什么意思呢?

谢殿侠:首先,skill就是技能的意思,这儿代表某一种特定的能力,例如外卖能力,语音交互能力。bot就是一个集合和运行我们的工具所做出来的skill的平台,也可以看作是一个机器人的大脑或者灵魂。当技能落地到冰箱上,或者是有胳膊有腿的上面,或者是音箱上,就变成了一个有型的机器人robot。

我们的Bot skill平台中文叫第三方技能插件开放平台。简单点儿说,我们负责技能插件的开发,同时还做了一个bot的平台,用于和别的平台对接。比如我们的技能要和小米或者百度对接,这时就是bot和bot之间的一个衔接。

AI科技大本营:能具体说一说你们服务的领域吗?

谢殿侠:我们主要为两块服务,一块是有领域支持,或者支持某一个领域服务的人或是机构。然后我们提供这个工具,让大家比较低的门槛就可以把自己领域的这些知识,或者是服务,转化成另一个领域的知识图谱。然后变成是一个技能插件,一个skill。

另一块,我们把这些skill呢,可以推送到,比如说第三方的这些平台,像小米手机。然后落地到最终的硬件产品上。

总计来说,我们目前定位还是一个技术提供者,然后帮助这些领域的所有者做技能插件。我们不自己做硬件。同时呢,我们打通了能够落地的这些语音交互平台,或者我们也可以直接给硬件提供一整套bot的服务,然后最后落地,所以我们就起到中间桥梁的作用。

AI科技大本营:那目前的Bot skill平台可以和别的平台自动对接吗?

谢殿侠:目前还不行。即便我们能把格式问题解决,别的对接的应用商店也可能有审核程序,像百度度米和思必驰。也就是说,我们的技能会通过我们的平台通道向另一个平台发送。但是要进入别的平台时,会有审核。如果我们通过审核,我们的技能就进入它们的平台,和他们的技能结合落地。如果没通过,那技能就只能留在我们这儿了。

虽然不能和有审核程序的平台自动对接,我们的第三方插件平台还是有它自身的价值的。我可以用我们的工具一站发布,然后通到不同的平台上去。但是如果有公司自己开发某个技能后想要推广到另一个公司去落地,他就需要去修改格式或是重新开发来符合那个公司的格式和语言。

这就是我们独立第三方的价值。我们希望通过开发第三方平台,用一个简单便利的方式为其他公司带来价值。在应用插件的生态链内,我们和百度,思必驰等应用商店不存在竞争。

我们的开发工具,相比微信公众号发文章,就相当于一个第三方文本编辑器。有了这个文本编辑器,还有一键输送功能之后,技能插件就能同时分发到各个内容平台上去了。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-12-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技大本营 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档