唤醒词引擎对比分析

用户6026865

发布于 2019-09-10 20:40:22

1.4K0

发布于 2019-09-10 20:40:22

文章被收录于专栏：VoiceVista语音智能

唤醒词检测在语音用户界面(Voice User Interface)拥有广阔的应用，特别是其支持自然语音交互而无需双手。

品牌唤醒词模拟你呼叫一个人的名字，如"Hey Siri", "Ok Google"获取其注意力从而开始对话。

看起来相当的简单，但其实创建一个强健的唤醒词引擎其蕴涵的技术难度，让人望而却步(Surprisingly daunting challenges)。主要的行业巨头，如Apple, Google, Amazon均有其唤醒词算法团队。

以下让我们看看其中最为重要的参数指标，以及如何客观的(Objectively)评价不同唤醒词引擎的性能差异。

通常用FRR和FAR作为重要的唤醒词性能测量指标。

通常我们需要在两项指标中折中平衡。相对低的检测阀值(Detection threshold)产生搞得敏感度。高敏感度(Highly-sensitive)分级（Classifier)产生高的FAR和较低的FRR。（这样可以更容易接纳呼叫）。

以上是典型的的ROC曲线，代表了FRR和其对应的FAR在不同敏感度上的关系。

较好的算法意味着，在任意给定的FAR下有更低的FRR。越小的绿色格线的AUC（Area Under Curve）代表更为出色的算法性能。

在给定的敏感度下，FRR通过播放包含唤醒词的音频文件，计算总体拒绝的比例(Rejections rate)。

FAR通常通过播放不包含唤醒词的语音文件(Utterance)，包含各种噪音，对话或者是音乐，检测在一段时长内误接受的次数。

以下重点对比了其他两家语音引擎 - KITT.AI的SnowBoy和PocketSphinx

资源占用对比分析

唤醒词由于是长待机和监听状态，因此对能耗要求极高，如如电池驱动的笔记本电脑或智能手机等设备，高的CPU算力占用会直接的增大能耗并更快的消耗电池电量。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-09-08，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SmellLikeAISpirit 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度