语音交互只是说话?相比自动驾驶它还在L1级!

作者简介:李智勇,声智科技合伙人、副总裁。

2017 年可以看做是智能语音交互的元年,在这一年里小爱同学、天猫精灵纷纷上市。2018 年里语音交互的落地突然加速,落地的产品从大公司关注的智能音箱扩展到其它品类,比如电视盒子、闹钟、灯、智能马桶等。那接下来语音交互会如何发展?

▌语音交互的终极目标

语音交互的便利程度正好与人工智能的发展程度成正比,智能程度越高语音交互的等级也就越高,所以其终极形态与人工智能的终极形态类似。

如果抛弃特别夸张的想象来说,那语音交互要能达成《她》或者《黑镜》里描述的样子:

  • 当你输入数据给它后,它能够根据输入数据表现出不同的个性。
  • 在数据的处理上它近乎是全能的,只受个人权限的限制。
  • 如果真的赋予实体,那它可以感知周围环境并作出与人类似但很多方面会更优秀的反应。

今天的智能音箱和未来相对终极的语音交互方式以及设备相比,其差距要远大于 X86 电脑和今天 Pad 的差距。

一旦发展成以上这样的程度,那语音交互就会彻底地打开边界,而不只是我们使用数据的一种方式,甚至会成为生活的必须品。我们不会对 iPhone 产生依恋,但语音交互则会。

回顾下《黑镜》里描述的场景,可以对此有更好的理解:

女主人公的丈夫去世,过于思念自己丈夫的女主人公通过公开的自己丈夫的数据创建了一个有性格的,属于自己的语音交互机器人。这个机器人在绝大多数方面表现和女主丈夫一致。女主使用一段时间后,就升级了这服务,为这语音交互机器人赋予了和自己丈夫一样的形体。

这看着非常科幻,但实际上一旦语音交互达到上述程度,那这类事情几乎一定发生。既然我们能接受很宅并愿意躲在家里,那就一定能接受这样一种非真实、但更完美的电子助手进入心灵的世界。《她》这部电影虽然没拍,但如果有为个性化语音交互系统塑形的服务,主人公也一定会接受。

在这里反倒是互联网限制了我们的想象力,因为互联网更多体现的只是工具的属性,但实际上语音交互系统所涵盖的范围要比互联网大的多。当前之所以能做的还不多,主要是层级还不够。

▌语音交互的L1、L2、L3

我们可以这样定义语音交互的 L1 阶段:

能以极高的准确率,在典型的环境下响应用户的语音输入。极高的准确率最低应该在 90%+。这时承载语音交互的设备主要负责功能性的提示与反馈(灯与屏幕等)。

当前所有与语音相关的公司,事实上都是在达成 L1 的路上。L1 的出口为语音交互习惯彻底树立,人们面对每款设备的时候会首先想到用语音操作,而不是遥控器或者屏幕。

在 L1 阶段语音交互更像是自动化程度、精准程度更高的搜索,但搜索的范围扩大了,不单是局限于已有的数字内容,也扩展到家电、视频通话等正常搜索不会覆盖的领域。

我们可以这样定义 L2 阶段:

能以极高的准确率识别出交互的当事人和环境,然后进行个性化的交互。这时承载语音交互的设备通过摄像头等传感器能够实时感知,进行适当移动,初步拟人。

L2 阶段体现的是个性化,不再是千人一面。如果 L2 得以达成,那《她》所描述的场景是可以实现的。语音交互可以定制出性格,而这种性格很可能确实满足某个人的心理期待。

在 L2 阶段,语音交互会打破工具的边界,尝试走入从来没被搜索等介入的领域,比如排遣寂寞。现在的各种 App 是按照领域来切分的,而在 L2 阶段,所有 App 的边界会被打破,信息的输出是按照人来切分的。也就是说不再有 BAT、头条、美团等,只有张三的语音交互助理,李四的语音交互助理。

我们可以这样定义 L3 阶段:

只要有数据,语音交互系统的能力就可以无边界扩展(包括个性和能力)。交互设备可以进行拟人化输出。

L3 阶段体现的是后端内容扩展的无边界特性,不再是有多少智能就有多少人工,以及拟人化输出。拟人化输出包括移动、说话的语调、风格、姿态等。

如果 L3 阶段得以实现,那《黑镜》描述的场景是可以实现的。只要有一个人充分的数据描述,就可以立刻模拟这个人,然后赋予他一个真实的身体。

在 L3 阶段,语音交互及其载体,将是社会生活、甚至家庭的一部分。

本质上,从 L1 到 L3 体现的是数字化和智能程度不断加深,同时数字和智能又按照人类的理想形态进行物化的过程。这一过程也是完全颠覆基于手机的移动互联网的过程。

▌语音交互发展的核心障碍

整个行业迫切需要彻底解决下面的问题:

  1. 解决前端声学适配问题,否则变成每个设备都需要调整,但真正能对其调整的人员很少。
  2. NLP 整合足够全的内容资源,开发出缺省的 Killer App,因为产品公司不可能系统地在产品周期内整合所有内容。
  3. 落地方式多样化(包括纯软件、模组的)。语音交互和移动应用的根本不同是需要面对多种多样的设备,所以其自身的落地形态必须是灵活的。

眼下不同产品公司的诉求差别很大,小公司希望的是 turn-key 的方案,有内容的公司希望的是自己做部分 NLP,偏行业的公司希望的是有带硬件可贴牌的产品、但自己开发手机 App,诸如此类。

因为用户需求的复杂性,落地是一个相对长跑且需要保持灵活的过程,不同产品公司需求的内核是一样的,但处理大品牌客户总是需要灵活处理很多细节。这对于创业公司难度不大,但对巨头会形成难以跨越的障碍。

▌未来三年必然会达成的成绩

现在与语音交互相关的公司,核心在做的就是 L1 阶段的事。这个阶段虽然在人工智能的大趋势里面,但本质上智能并没那么关键,关键的是便利以及能输出的内容。这两者会推动树立语音交互这种习惯。

如果要在数量级上进行判断的话,那三年后可以达成的目标是:

  • 每年有 10 亿台支持语音交互的设备售出。

至少故事机、电视机、电视盒子、汽车前后装、白色家电、灯、闹钟等会加入这种特性。手机、Pad、电脑这些大品类上语音交互的能力则会变成标配,但使用频次估计需要更长的时间进行提升。在最初,交互频次会很差(这点在前文已提及),语音交互本身并非一种独立的交互方式,而是同其背后的内容深度绑定,我们很多的应用实际上是针对手机和键盘鼠标操作优化过的。

  • 凡是电子设备都可以用语音来进行交互。

语音交互不会挑设备,同之前的交互相比,它可以更加低廉,理论上只要麦克风并且能联网就足够了。相较于给设备加入键盘鼠标或者屏幕,这个成本要低很多。这点上做出表率的仍然是亚马逊,亚马逊不停地推出新的设备,如微波炉、车载设备等。当然不同设备上语音交互的层次是不同的,有些设备如白色家电,语音交互会限制在一到三轮以内。

在更高一级的视角下,当前的所有努力本质作用就一个:通过便利性树立语音交互的习惯。但是,习惯背后跟随的是用户时间,二者又会为下面的进一步发展提供试验田。只有达成了这一目标,从技术到产品再到用户这一循环才算真正完成了第一次迭代。

▌结语

语音交互看着太简单了,不过是说话而已,所以很容易被误解为,像说话一样的交互就是现在语音交互设备所应该能干的事。其实不是,语音交互的从 L1 到 L3 有可能比自动驾驶从 L1 到 L5 还要漫长。

(本文为作者独立观点)

--【完】--

本文分享自微信公众号 - AI科技大本营(rgznai100)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-11-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

吴恩达旗下Drive.ai商业化第一步!现在去德州能打无人驾驶出租车

其任职董事并已参与日常运营的Drive.ai,10月19日起,正式在德州阿灵顿向公众开放无人驾驶接送服务。

9220
来自专栏人工智能头条

10分钟看懂全卷积神经网络( FCN ):语义分割深度模型先驱

今天是10月24日,既是程序员节,也是程序员感恩节。这一天,大家纷纷向那些无私奉献、一心为民的好人们,送出“好人一生平安”的美好祝愿。而“1024”,既是这一句...

24410
来自专栏光荣与梦想1987

瘦死的骆驼比马大!800亿美金的百度或许还有机会赶超腾讯和阿里

从最近的情况来看,百度的市值始终徘徊在800亿美金左右。相对于4000多亿美金的腾讯和阿里来说,百度显然是掉队了。不过,千万不要小看百度。毕竟,瘦死的骆驼比马大...

12410
来自专栏量子位

马斯克新梦想迈出第一步!首条地下高速隧道即将完工,12月免费体验

相比特斯拉的“加速世界向可再生能源转换”,SpaceX的星辰宇宙,Boring无聊得就只像个地铁。

8800
来自专栏趣谈编程

人工智能会改变世界?那这项技能你必须要掌握了。(内含福利)

假设我拥有多啦A梦的时光机,时光机带我穿越到了50年后,那未来的生活一定离不开人工智能。

8730
来自专栏镁客网

在自动驾驶的商业化道路上,能站着把钱挣了吗?

这个问题的答案见仁见智。2009年谷歌看似不经意的“GooCamp”沙龙,却开启了日后九年内自动驾驶的蜕变之路。

9520
来自专栏AI科技大本营的专栏

为了智能驾驶,李彦宏要改造城市道路

10 月 18 日,在世界智能网联汽车大会上,百度 CEO 李彦宏提到:当汽车变得越来越智能,道路的基础设施也必须跟着变,必须进行改造。

11930
来自专栏Linyb极客之路

一个思维习惯,让你成为架构师

  程序员的迷茫不仅仅是面对技术繁杂的无力感,更重要的是因为长期埋没于软件 世界的浩大的分工体系中,无法看清从业务到软件架构的价值链条,无法清楚定位自 己在分工...

10830
来自专栏AI科技评论

一张 AI 的「自画像」

AI 应该长什么样子?人们给出常见的答案不外乎是:像个机器人,像一组闪烁的 LED 灯,或者像电脑屏幕上一组变幻莫测的波形。那么在 AI 的眼中,一个 AI 应...

14630
来自专栏镁客网

华为、小米极力推崇!AI开源为何在国内大行其道?

卡内基梅隆计算机科学院院长安德鲁·摩尔(Andrew Moore)曾提到过这样一组数据:现在,在提交给大型人工智能会议的论文,50%都来自中国,而在十年前,这个...

17820

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励