Vocalize.ai于6月份发布了其第三方评估报告。该报告基于同样的测试环境硬件和软件环境,重点对比分析了目前市面上在售Alexa唤醒词解决方案。在测试前,没有任何一个模型经过了事先训练。
重点测试和评估如下指标:
对比测试结果总结:
在FR性能方面,Sensory与Amazon模型均展现了良好的性能,但Sensory模型总体上持续的优于Amazon。Snowboy FR性能看起来相当的糟糕。Sensory同样在FA表现出色,Snowboy与Amazon分别位居其后。
FR(False Reject)
FR(False Rejection Rate,错误拒绝率)用以衡量未被正确识别的唤醒数量。例如,如果重复测试40遍唤醒词,而设备仅仅唤醒36次,则FRR = 10%(即4次未成功唤醒的次数,除以总的唤醒词尝试次数)。Vocalize FR评估方案包括背景噪音情况和快速语音情况。
测试结果 - 背景噪音情况
总共40次唤醒尝试,在四种噪音环境下反复试验。在每种噪音环境中,其信噪比约为6dB。较小的百分比数字代表更好的性能,其表明设备可以更加准确地在不同的噪音环境下成功探测唤醒词。
可以看到Sensory在250KB和1MB模型尺寸情况下,其误拒绝率显著的小于其他方案。
测试结果 - 快速语音情况
总共40次唤醒尝试,分别在三种不同的压缩率下反复测试。此测试方案的压缩率采用了现存的认知训练程序(Cognitive Training Procedure)。较小的百分比数字表明性能更优,其表明设备在不同唤醒语速下,可以更加准确地探测唤醒。
其中Sensory不同尺寸的模型性能明显好于其他对比测试方案。
FA(False Accept)
FA用以衡量在一段时间内不期望而被唤醒的次数。例如在24小时被误唤醒的测试。Vocalize.ai评估测试方案分别为在24小时内的混杂音频流环境下,以及732个接近唤醒词发音(utterances of near phrase)的音频。
测试结果 - 混合音频流环境
24小时持续播放音频流且FA事件被精准记录。该音频流包含对话式广播(talk radio),新闻或音乐广播。较小的数字代表更好的性能,表明测试设备在测试环境下较为不容易被误唤醒(less susceptible to false trigger)。
测试结果 - 接近短语情景
732个接近发音的短语人声,所有的FA事件被准确地记录。测试文件包含单个人接近短语的发音。较小的数字代表着更佳的性能,即在音频测试环境下较为不容易被误唤醒。
测试环境如下:
本文分享自 SmellLikeAISpirit 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!