专栏首页VoiceVista语音智能Vocalize.ai评估报告 - 唤醒性能竞争力分析

Vocalize.ai评估报告 - 唤醒性能竞争力分析

Vocalize.ai于6月份发布了其第三方评估报告。该报告基于同样的测试环境硬件和软件环境,重点对比分析了目前市面上在售Alexa唤醒词解决方案。在测试前,没有任何一个模型经过了事先训练。

重点测试和评估如下指标:

  • FALSE Reject - 背景噪声包含安静,典型噪声,嘈杂人声(babble)和音乐
  • FALSE Reject - 快速语音,压缩率分别为0%, 56%, 84%
  • FALSE Accept - 混杂的音频流(Miscellaneous Streaming Audio)
  • FALSE Accept - 接近的短语(Near Phrase, 如Alex, Alexandar, Ajax, e.g.)

对比测试结果总结:

在FR性能方面,Sensory与Amazon模型均展现了良好的性能,但Sensory模型总体上持续的优于Amazon。Snowboy FR性能看起来相当的糟糕。Sensory同样在FA表现出色,Snowboy与Amazon分别位居其后。

FR(False Reject)

FR(False Rejection Rate,错误拒绝率)用以衡量未被正确识别的唤醒数量。例如,如果重复测试40遍唤醒词,而设备仅仅唤醒36次,则FRR = 10%(即4次未成功唤醒的次数,除以总的唤醒词尝试次数)。Vocalize FR评估方案包括背景噪音情况和快速语音情况。

测试结果 - 背景噪音情况

总共40次唤醒尝试,在四种噪音环境下反复试验。在每种噪音环境中,其信噪比约为6dB。较小的百分比数字代表更好的性能,其表明设备可以更加准确地在不同的噪音环境下成功探测唤醒词。

可以看到Sensory在250KB和1MB模型尺寸情况下,其误拒绝率显著的小于其他方案。

测试结果 - 快速语音情况

总共40次唤醒尝试,分别在三种不同的压缩率下反复测试。此测试方案的压缩率采用了现存的认知训练程序(Cognitive Training Procedure)。较小的百分比数字表明性能更优,其表明设备在不同唤醒语速下,可以更加准确地探测唤醒。

其中Sensory不同尺寸的模型性能明显好于其他对比测试方案。

FA(False Accept)

FA用以衡量在一段时间内不期望而被唤醒的次数。例如在24小时被误唤醒的测试。Vocalize.ai评估测试方案分别为在24小时内的混杂音频流环境下,以及732个接近唤醒词发音(utterances of near phrase)的音频。

测试结果 - 混合音频流环境

24小时持续播放音频流且FA事件被精准记录。该音频流包含对话式广播(talk radio),新闻或音乐广播。较小的数字代表更好的性能,表明测试设备在测试环境下较为不容易被误唤醒(less susceptible to false trigger)。

测试结果 - 接近短语情景

732个接近发音的短语人声,所有的FA事件被准确地记录。测试文件包含单个人接近短语的发音。较小的数字代表着更佳的性能,即在音频测试环境下较为不容易被误唤醒。

测试环境如下:

本文分享自微信公众号 - VoiceVista语音智能(AIndustrialRock)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-06-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 契约测试:微服务完整应用系统验证之道

    单元测试、组件测试和集成测试的一个共同特点是,会将应用的某一部分隔离开来去测试,而不是测试整个完整的应用。对于单元测试,被测单元只有一个或者很少几个类 ;对于集...

    用户1682855
  • 基于C3Framework开源人群计数框架的测试

    C3Framework是一个开源的人群计数框架,在进行代码复现的时候,进行单张图片的测试。

    sparkexpert
  • BBC发布AV1、VVC性能比较[2019.7]

    这是一篇近期发布(2019年7月1日更新)的来自BBC的文章,主要介绍了现在VVC和AV1的发展状况并对两者的编码效率、压缩视频的质量和编解码时间进行了测试和比...

    用户1324186
  • 【译】如何开始CI

    持续集成有点关于工具以及团队中的思维方式和文化。你希望在开发的过程中能够保持主分支的同时快速集成新代码。此工作主分支将在之后启用持续交付或持续部署(的操作)。但...

    嘉明
  • python 测试框架doctest

    doctest是python自带的一个模块。本博客将介绍doctest的两种使用方式:一种是嵌入到python源码中,另外一种是放到一个独立文件。

    用户5760343
  • 全局gitignore导致的文件被忽略~“The following paths are ignored by one of your .gitignore files.”

    要把android库代码持续集成,需要放到docker里编译, 但是‘gradlew’默认没有被添加。 手动添加时, 提示

    望天
  • BERT重夺多项测试第一名,改进之后性能追上XLNet,现已开源预训练模型

    NLP领域今年的竞争真可谓激烈。短短一个多月的时间,BERT又重新杀回GLUE测试排行榜第一名。

    量子位
  • 蓝绿发布、滚动发布、灰度发布等部署方案,这些你必须懂!

    在项目迭代的过程中,不可避免需要进行项目上线。上线对应着部署或者重新部署,部署对应着修改,修改则意味着风险。

    用户5927304
  • 模拟人脑项目彻底宣告失败:耗资10亿欧,10年前轰动全球,如今死得悄无声息

    10年砸入10亿欧元,为了用计算机模拟人脑。这个十年前曾轰动全球的项目,如今彻底“死”了,死得悄无声息。要不是有位西方记者提起,人们几乎已经完全遗忘。

    量子位
  • Web3与智能合约交互实战

    在最初学习以太坊的时候,很多人都是自己创建以太坊节点后,使用geth与之交互。这种使用命令行交互的方法虽然让很多程序员感到兴奋(黑客帝国的既视感),但不可能指望...

    Tiny熊

扫码关注云+社区

领取腾讯云代金券