前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >国内那几家语音唤醒技术做的比较好?语音唤醒技术哪家强?

国内那几家语音唤醒技术做的比较好?语音唤醒技术哪家强?

原创
作者头像
用户5543763
发布2022-03-24 11:06:57
2.6K0
发布2022-03-24 11:06:57
举报
文章被收录于专栏:人工智能汇人工智能汇

编辑导语: 随着语音交互技术的日渐成熟,越来越多的智能硬件都选择增加语音能力作为产品卖点之一。但是,设备在进入语音交互工作状态的时候,需要先进行唤醒操作。 常见的唤醒语音交互的操作有按键或者触屏形式,但是,为了进一步降低学习成本和操作复杂度,也有不少的智能硬件选择通过语音唤醒的方式来激活交互功能。 本文将综合对比市面上各家提供的语音唤醒技术相关指标,可以帮助你快速掌握语音唤醒技术的情况。

一、语音唤醒技术的相关核心指标

1、唤醒率

语音唤醒的主要目的既然是激活设备进入交互工作状态,那么,唤醒率的高低就显得额外重要了。理论上,最好的状态就是我只要说一次唤醒词,设备就能立即响应。不过,受说话人与设备距离、发音标准、噪声等各种各样的因素,实际工作中比较难达到次次响应的完美工作状态。

一般来说,在近距离的安静场景下,市面上的技术都能够做到唤醒率在95%以上。

不过,消费者的实际使用场景是较复杂的,因此,需要模拟不同的应用场景进行实测,才能得到最后的唤醒率指标。

2、误唤醒率

指设备被非唤醒词唤醒的概率,误唤醒率越高,效果越不好。

大家在日常生活中可能会经常碰到,放在家里的智能音箱,大晚上莫名其妙答一句“我在”,把人吓个半死;还有如果家里用的智能电视,唤醒手机语音助手的时候,不是同一个唤醒词,电视也会蹦出一句“我在”。

这就是典型的误唤醒场景,一般用24小时被误唤醒多少次来衡量。

3、响应时长

主要是指用户说完唤醒词后,设备给出反馈的耗时,一般越短越好。

而反馈的形式则比较多样,可以通过语音应答响应、也可以通过亮屏或者指示灯闪烁响应。统计来看,如果是亮屏或者指示灯闪烁响应,控制在200ms以内用户体验较好;如果是语音应答响应,太快反而体验不好,一般控制在500ms左右更佳。

4、功耗

主要是针对电池供电设备,理论上越低越好,这样,设备的使用时长不会受到太大的影响。

因为唤醒的工作原理是会持续检测声音中是否包含唤醒词的特定片段,所以,会持续耗电。

为了进一步降低功耗,部分产品也会采取DSP来完成语音唤醒,再通过AP层兜底的模式,保证唤醒和功耗的均衡。

总结:语音唤醒的技术指标,除了与算法相关之外,还与智能硬件的结构设计、芯片算力、使用场景等息息相关。最后的实际效果,则应以实际测试效果为准,参考下图:

二、语音唤醒技术对比

该对比信息均从互联网公开渠道获取,相关信息来源于提供商官网公开信息,如其官网有更新,请以更新信息为准。(PS:百度搜索🔍“语音唤醒”)

从上面的对比上来看,我们可以发现几点信息:

  • 大部分服务商都会提供唤醒词评估服务。
  • 在系统支持上,安卓和iOS比较主流。不过,越来越多的语音唤醒功能开始应用在了穿戴设备上,是否支持Linux和Rtos系统也至关重要。
  • 在唤醒词上,基本都支持中文唤醒词,毕竟,大部分的产品都是面向国人,中文普通话是主要的语言。不过,也有服务商,能够额外支持英文、数字、方言唤醒词,市场更加细分。
  • 唤醒指标上,近场唤醒率基本都在95%以上。不过,正如前面分析的那样,唤醒跟很多因素相关,最后在产品上的实测值才具有代表性。

三、唤醒词的区别

唤醒词的定义实际是比较广泛,至少包含了四种使用场景:品牌唤醒词(如,小飞小飞)、离线命令词(如,我要听周杰伦的歌)、云端命令词(如,我要听周杰伦的歌)、免唤醒词(如,下一首、暂停)。这些使用场景,实际上都是使用了唤醒词的原理,只是唤醒后执行不同的动作。

四、语音唤醒项目实施要点

1、唤醒词评估

大部分服务商都提供了唤醒词评估服务,不过,有部分服务商对唤醒词有一定的限制。因此,在选择唤醒词的时候,需要充分考虑品牌、发音特点、词语等因素,综合确定最终的唤醒词。

2、确认测试环境和工具

以以往交付的唤醒项目来看,主要测试的环境包括:外噪场景测试、自噪场景测试、安静场景测试和误唤醒测试。

3、声音采集

根据产品主要面向的使用人群,采集真人发音音频。

示例:【某某投影仪音频采集需求】

  • 采集人数200人,总音频2000句
  • 男女比=1:1
  • 一人10句
  • 语速快:中:慢=1:3:1
  • 年龄儿童:青年:中年=1:3:1
  • 区域:北上广深
  • 普通话

4、测试音频处理

包括去除破音的音频、去除时长>1.7s的测试音频、音频幅度归一化。

5、数据记录表

根据实测结果,如实填写表格中对应测试结果,完成项目验收。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、语音唤醒技术的相关核心指标
    • 1、唤醒率
      • 2、误唤醒率
        • 3、响应时长
          • 4、功耗
          • 二、语音唤醒技术对比
          • 三、唤醒词的区别
          • 四、语音唤醒项目实施要点
            • 1、唤醒词评估
              • 2、确认测试环境和工具
                • 3、声音采集
                  • 4、测试音频处理
                    • 5、数据记录表
                    相关产品与服务
                    语音识别
                    腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
                    领券
                    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档