前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >解放千万智能家居,度家给出语音控制的最优解

解放千万智能家居,度家给出语音控制的最优解

作者头像
Alter聊科技
发布2023-01-13 20:40:33
4750
发布2023-01-13 20:40:33
举报
文章被收录于专栏:Alter聊科技

撰文 / 张贺飞

编辑 / 沈洁

什么是智能?

可以找到的回答有很多,不过近几年逐渐有了统一的答案。

当你想要知道明天的天气情况时,可以直接问家里的智能音箱;当你开车时想要切换导航路线,可以直接说出新的目的地;当你感觉空调不够凉爽的时候,也可以直接告诉空调把温度调低一些……

智能化的标准或许很广泛,但语音交互已经是最基础的门槛。

刚刚结束的2021云智技术论坛上,百度智能云将不小的篇幅留给了度家语音语义一体化平台。在语音能力逐渐成为“智能”的代名词,并升格为IoT产品标配的大环境下,百度智能云所谋为何?

01

技术的幸存者偏差

和机器“对话”似乎并不是什么新概念。

早在上世纪80年代,语音识别就开始走出实验室有了商业应用,尽管机器还只能识别单个词汇,识别准确率也维持在相当低的水准,却未能阻挡人们的尝鲜心态,IBM的Via-vioce系统、微软的Whisper系统、英国剑桥大学的HTK系统等先后诞生。

2010年是语音识别的转折点,一些学者开始将深度学习技术引入到语音识别领域,语音识别的准确率不断刷新纪录。

到了2015年末,百度语音识别的准确率首次达到90%,等同于人类速记同样一段对话的水平。Google在2017年6月宣布语音识别的准确率达到95%,短短10个月后就被百度以97%的准确率超越。

技术被证实是产业繁荣的催化剂,语音识别的商业化就是直接的例子。

根据华西证券的调研报告,AIoT是大众接触消费者最普遍的渠道,目前智能语音已经应用于智能手机、可穿戴设备、智能车载、智能家居等产品,2020年的市场规模为241.1亿元,预计到2023年市场规模将达到570.3亿元。

语音技术的成熟以及语音市场的持续繁荣,是否预示着语音交互的用户体验已经彻底告别尝鲜期?

事实可能会让人有些失望。心理学中有个概念叫幸存者偏差,如果把目光聚焦于百度这样的技术派,语音交互已然迈向了新台阶,但在相当比重的智能硬件产品中,诸如唤醒率偏低、识别率低、答非所问等现象仍然是一种常态。像百度这样的头部玩家仍在刷新纪录,可很多主打语音控制产品还处于伪智能的阶段。

02

度家给出的最优解

并不难对这一市场现象给出合理的解释。

语音技术在消费级业务中的落地通常有两种方式:一是将语音技术能力封装为SDK或API,下游的客户或开发者可以直接调用,优势在于成本较低,但技术能力因人而异;二是提供定制化的解决方案,即根据客户需求进行定制化、深度合作,在一定程度上保障了终端的用户体验,缺点是成本偏高。

这大抵也是百度智能云推出度家平台的原因所在,区别于上述两种合作模式,度家语音语义一体化的思路让外界看到了三重优势:

首先,度家输出的是软硬一体的解决方案,集成了百度自主研发的鸿鹄芯片,在性能、兼容性、扩展性上打破了传统方案的制约。

比如传统芯片的平均功耗往往很高,而鸿鹄芯片将提取的语音特征直接在云端进行高精准识别,既保证了语音识别的准确性,平均功耗也只有100mw;鸿鹄芯片支持多达六路的麦克阵列语音信号,并支持deep peak、deep cnn语音唤醒以及百度最新的双麦克模型波束算法,可以满足设备唤醒后360度无死角识别;同时还能和各种安卓、linux芯片集成为onboard方案。

其次,语音语义一体化弥补了语义能力的短板,如果只有语音识别而缺少语义理解,折射到用户体验上就是答非所问的尴尬。

除了流式多级截断注意力模型、端到端建模等语音识别上的算法优势,百度智能云的另一个强项在于语义理解。在传统的开发模式中,开发者想要让理解语音的指令,需要花费很大的功夫理解意图、词槽、模板、特征词等等,度家平台的方案是语义物模型,开发者只需要理解设备属性、控制动作、设备状态等内容,进行简单的配置就能驱动设备根据用户的语音指令作出正确的反应。

最后,通过开源框架和订制开发板的产品矩阵,帮助开发者进一步降低技术落地的时间和成本,加速语音技术的规模化应用。

譬如在硬件层面,度家和乐鑫联合开发了集成鸿鹄芯片的开发模组,采用了双麦克风的设计,可以在5米范围内精准拾音,同时搭载了DeepPeak唤醒引擎、端到端建模技术和流式截断的多层注意力模型,极大地提升了语音识别的准确度,并且拥有方言识别、中英文混合识别等能力。配合百度官方的开源框架,开发者在极短时间里就能将智能语音应用于智能家居、智能机器人等产品。

在智能语音市场高速增长,而语音控制的用户体验却有些掉队的局面下,度家的语音语义一体化方案可以说是当前的最优解。

03

万物皆可语音控制

百度智能云押注度家的野心也就不难理解。

一种解释是智能语音市场的掘金空间。曾有人在2019年对AI市场进行细分,其中智能语音的市场占比为22%,仅次于已经实现大规模商业化的机器视觉,倘若算上自然语言理解16%的市场份额,等待语音语义一体化的将是一个体量不输于机器视觉的蓝海市场,百度智能云无疑有着充足的用武之地。

即使是在智能家居市场,行业也还处于起步阶段。2020年空调的出货量为5100万台,智能语音的搭载率仅为15%,小家电市场在2020年的销售额约为7000亿元,可智能语音的搭载率却不到1%。以电视市场高达70%的智能语音搭载率为准绳的话,仅智能家居行业就存在着毋庸置疑的机会。

如果只是从市场规模的维度审视度家,可能会低估百度的战略布局,何况还有一种站在长远视角上的解释。

综合不同调研机构的报告,目前智能音箱在国内的月销量稳定在300万台左右,累计出货量已经超过1亿台。按照国内当前的城镇化水平,智能音箱在城镇家庭中的渗透率业已超过20%,等同于智能手机在2012年前后的渗透程度,也就预示着语音交互的市场教育有了初步的基础。

在百度的战略谋划中,小度系列产品担纲了消费者教育的角色,小度的屡屡破圈就是最直接的写照。作为百度AI To B的核心渠道,百度智能云自然扮演了智能语音向B端输出的角色,进而从B和C两端加速智能语音的市场渗透。

可以佐证的是:度家已经为TCL的高端电视提供音唤醒及识别服务,解决了TCL原有语音方案远场唤醒效果不佳、抗外噪能力弱等痛点,重构了TCL高端电视的语音交互体验,未来TCL会有更多的家电将搭载度家的服务;针对扫地机器人、集成灶等工作环境复杂难以语音控制的产品,度家通过端云一体的方案消除了技术落地的瓶颈;即便是智能风扇、咖啡机等低成本的小家电上,在鸿鹄芯片的赋能下实现了控制场景下的自由说,不再局限于划定的指令词。

就度家最新的动作来看,正在借助端云一体、开源框架、订制硬件的综合优势,给予开发者足够的自主权,进一步降低智能语音技术的应用和开发门槛,让开发者们以极低的成本将智能语音移植到新产品中,以潜移默化的方式逐步消除幸存者偏差的现象。

毕竟人类大脑每天处理的信息中,声音信息的占比高达20%。作为人类和外界最重要的沟通纽带,智能语音注定是人机交互的主流趋势之一,万物皆可语音控制将是属于智能化时代的鲜明特征。

04

写在最后

确切地说,度家只是百度智能云在IoT领域的落子之一。根据IDC发布的报告,在中国AI公有云服务市场,百度智能云市场份额连续四年排名中国第一。

正如2021云智技术论坛苏州站上所呈现的,端边云全面智能化的天工AIoT平台将AI能力和物联网进行了深度融合,诸如美欣达等合作伙伴在百度智能云的赋能下实现了低碳运营,AIoT视觉智能已经深入到工业质检、智能制造、城市管理等场景中……

携AI进场的百度智能云,正进一步释放了物联网底层能量。

主理人 | 张贺飞(Alter)

前媒体人、公关,现专职科技自媒体

虎嗅、钛媒体、36kr、创业邦、福布斯中国等专栏作者

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Alter聊科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档