前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Vocalize.ai评估报告 - 唤醒性能竞争力分析

Vocalize.ai评估报告 - 唤醒性能竞争力分析

作者头像
用户6026865
发布2019-08-14 17:45:26
7160
发布2019-08-14 17:45:26
举报

Vocalize.ai于6月份发布了其第三方评估报告。该报告基于同样的测试环境硬件和软件环境,重点对比分析了目前市面上在售Alexa唤醒词解决方案。在测试前,没有任何一个模型经过了事先训练。

重点测试和评估如下指标:

  • FALSE Reject - 背景噪声包含安静,典型噪声,嘈杂人声(babble)和音乐
  • FALSE Reject - 快速语音,压缩率分别为0%, 56%, 84%
  • FALSE Accept - 混杂的音频流(Miscellaneous Streaming Audio)
  • FALSE Accept - 接近的短语(Near Phrase, 如Alex, Alexandar, Ajax, e.g.)

对比测试结果总结:

在FR性能方面,Sensory与Amazon模型均展现了良好的性能,但Sensory模型总体上持续的优于Amazon。Snowboy FR性能看起来相当的糟糕。Sensory同样在FA表现出色,Snowboy与Amazon分别位居其后。

FR(False Reject)

FR(False Rejection Rate,错误拒绝率)用以衡量未被正确识别的唤醒数量。例如,如果重复测试40遍唤醒词,而设备仅仅唤醒36次,则FRR = 10%(即4次未成功唤醒的次数,除以总的唤醒词尝试次数)。Vocalize FR评估方案包括背景噪音情况和快速语音情况。

测试结果 - 背景噪音情况

总共40次唤醒尝试,在四种噪音环境下反复试验。在每种噪音环境中,其信噪比约为6dB。较小的百分比数字代表更好的性能,其表明设备可以更加准确地在不同的噪音环境下成功探测唤醒词。

可以看到Sensory在250KB和1MB模型尺寸情况下,其误拒绝率显著的小于其他方案。

测试结果 - 快速语音情况

总共40次唤醒尝试,分别在三种不同的压缩率下反复测试。此测试方案的压缩率采用了现存的认知训练程序(Cognitive Training Procedure)。较小的百分比数字表明性能更优,其表明设备在不同唤醒语速下,可以更加准确地探测唤醒。

其中Sensory不同尺寸的模型性能明显好于其他对比测试方案。

FA(False Accept)

FA用以衡量在一段时间内不期望而被唤醒的次数。例如在24小时被误唤醒的测试。Vocalize.ai评估测试方案分别为在24小时内的混杂音频流环境下,以及732个接近唤醒词发音(utterances of near phrase)的音频。

测试结果 - 混合音频流环境

24小时持续播放音频流且FA事件被精准记录。该音频流包含对话式广播(talk radio),新闻或音乐广播。较小的数字代表更好的性能,表明测试设备在测试环境下较为不容易被误唤醒(less susceptible to false trigger)。

测试结果 - 接近短语情景

732个接近发音的短语人声,所有的FA事件被准确地记录。测试文件包含单个人接近短语的发音。较小的数字代表着更佳的性能,即在音频测试环境下较为不容易被误唤醒。

测试环境如下:

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-06-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SmellLikeAISpirit 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档