前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >唤醒词引擎对比分析

唤醒词引擎对比分析

作者头像
用户6026865
发布2019-09-10 20:40:22
1.4K0
发布2019-09-10 20:40:22
举报

唤醒词检测在语音用户界面(Voice User Interface)拥有广阔的应用,特别是其支持自然语音交互而无需双手。

品牌唤醒词模拟你呼叫一个人的名字,如"Hey Siri", "Ok Google"获取其注意力从而开始对话。

看起来相当的简单,但其实创建一个强健的唤醒词引擎其蕴涵的技术难度,让人望而却步(Surprisingly daunting challenges)。主要的行业巨头,如Apple, Google, Amazon均有其唤醒词算法团队。

以下让我们看看其中最为重要的参数指标,以及如何客观的(Objectively)评价不同唤醒词引擎的性能差异。

通常用FRR和FAR作为重要的唤醒词性能测量指标。

通常我们需要在两项指标中折中平衡。相对低的检测阀值(Detection threshold)产生搞得敏感度。高敏感度(Highly-sensitive)分级(Classifier)产生高的FAR和较低的FRR。(这样可以更容易接纳呼叫)。

以上是典型的的ROC曲线,代表了FRR和其对应的FAR在不同敏感度上的关系。

较好的算法意味着,在任意给定的FAR下有更低的FRR。越小的绿色格线的AUC(Area Under Curve)代表更为出色的算法性能。

在给定的敏感度下,FRR通过播放包含唤醒词的音频文件,计算总体拒绝的比例(Rejections rate)。

FAR通常通过播放不包含唤醒词的语音文件(Utterance),包含各种噪音,对话或者是音乐,检测在一段时长内误接受的次数。

以下重点对比了其他两家语音引擎 - KITT.AI的SnowBoy和PocketSphinx

资源占用对比分析

唤醒词由于是长待机和监听状态,因此对能耗要求极高,如如电池驱动的笔记本电脑或智能手机等设备,高的CPU算力占用会直接的增大能耗并更快的消耗电池电量。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-09-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SmellLikeAISpirit 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档