前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Sensory TrulyHandsfree - 技术概览

Sensory TrulyHandsfree - 技术概览

作者头像
用户6026865
发布2021-08-26 15:05:09
4920
发布2021-08-26 15:05:09
举报

超高识别精度,低功耗,为硬件设备和各种应用带来高度可定制化的语音控制解决方案。

超强的灵活性,丰富的功能,为人机交互带来更加安全和易用的解决方案的同时,保障了设备开发商对自身品牌的保有和控制。

TrulyHandsfree在即使是远距离和噪音环境下,仍支持超快的交互反应,超低的功耗,以及优越的性能。

TrulyHandsfree语音控制语音识别技术为开发商带来品牌定制唤醒词,较少条目或者是中型条目数量的语音命令,用户语音身份识别,用户语音身份确认等诸多模式,可广泛支持如智能手机,平板,电脑,穿戴设备,耳机设备,医疗设备,和汽车等。

TrulyHandsfree可支持多种模型组件 -

固定唤醒词, Fixed wake word(FW)

预先定义的与具体用户无关的品牌唤醒词,如Alexa等。Sensory所训练的唤醒词可满足不同人口统计特征性下的不同个体,在真实使用环境下的语音识别需求,真正做到开箱即用。

用户录入的固定唤醒词,Enrolled wake word(EW)

同样是预先定义的品牌唤醒词如 Alexa,但是可适配和识别用户的不同发音特征。此场景需要用户实现录入,但对比FW模式带来了更低的FA和FR的优势。

用户自定义唤醒词,User-defined wake word(UDW)

由用户定义和录入的与具体语言无关的唤醒词或短语。

语音命令

结合FW,EW,UDW,通过对不同产品的交互设计,定义不同的命令行,实现与设备的语音交互。

语音用户身份验证和用户ID, Speaker Verification and Speaker ID

可实现语音密码功能。检测不同呼叫的差异性,对声音差异性非常敏感。此方案同样需要用户录入。

语音活动探测, Voice Activity Detector(VAD)

识别和判断用户语音的开始和结束,并捕获语音形成语音WAV流文件,可送至云端处理。

误接受过滤, False Accept Filtering

一种先进的机器学习算法,用以降低FA。某些情况下可降低50%-90%之多。

低功耗声音探测, Low-power Sound Detection(LPSD)

适用于DSP版本的TrulyHandsfree,仅处理和识别一定声音能级以上的语音。

模型集合, Model Combining

支持并行模式下的多唤醒词同时监听,也可实现串行下的唤醒词接语音命令的方式。

模型调试,Model Debugging

所有的模型可增加调试模式,增加时间戳。

代码空间模型链接,Code Space Model Linking

允许固定模型存储在代码空间(code memory)的运行模式,在RAM有限的情况下可释放更多的数据RAM空间。

小-大模型模式,Little-Big Models

结合了小模型(如小于100KB)的高效和大模型(如大于1MB)的高准确性。通过小模型的实时监听做初步判断,通过大模型进行二阶验证,实现更精准的识别。但缺点是二阶验证带来了额外的延时。

端点检测,End-Point Detection(EPD)

识别后对端点的时间戳标记。

TrulyHandsfree:标准的和嵌入式模式下的MEMORY和MIPS估算

Memory需求

  • Code Memory(ROM) 在运行于AP+OS模式下,典型的THF所需占用的代码内存空间为1-2MB。若运行于DSP模式下,可支持更小30-40KB的代码空间占用。
  • Data Memory(RAM) THF需要工作内存实现对变量和音频的存储和缓存。在AP平台下,典型需要100KB,在DSP模式下典型需要14-16KB。开发者可灵活控制不同的音频缓存大小,如最小仅960 bytes,或大可至20.6KB,具体看是否配置LPSD或EPD。
  • Model Size Sensory可提供灵活的模型尺寸,小至40KB和大至1MB。模型可装载Code,或者是Data memory。在AP模式下,模型可动态的以文件系统形式转载,或静态的编译至应用中。在DSP模式下,模型可存储在ROM中,或移到RAM中以实现更快的读取。

MIPS需求和算力需求

  • DSP模式下使用小模型可低至3 MIPS,或在AP模式下需要 100MIPS。在支持LPSD,以及数字MIC和LDO的情况下,凭据识别电流消耗可小于1mA。

TrulyHandsfree, 性能数据

识别率在不同情况下有巨大的差异,如vacabulary size, vocabulary words, grammar specification, noise conditions, 口音或者是距离因素等。

TrulyHandsfree在高噪音环境下或原厂环境下均拥有优秀的性能。如下的图标分别展示了在单唤醒词在不同模型尺寸下的识别率曲线,如80KB, 250KB和1MB-

用户录入的固定唤醒词识别率(Enrolled Fixed Wake Word Accuracy) -

TrulyHandsfree 技术规范

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-08-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SmellLikeAISpirit 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档