专栏首页VoiceVista语音智能Sensory TrulyHandsfree - 技术概览

Sensory TrulyHandsfree - 技术概览

超高识别精度,低功耗,为硬件设备和各种应用带来高度可定制化的语音控制解决方案。

超强的灵活性,丰富的功能,为人机交互带来更加安全和易用的解决方案的同时,保障了设备开发商对自身品牌的保有和控制。

TrulyHandsfree在即使是远距离和噪音环境下,仍支持超快的交互反应,超低的功耗,以及优越的性能。

TrulyHandsfree语音控制语音识别技术为开发商带来品牌定制唤醒词,较少条目或者是中型条目数量的语音命令,用户语音身份识别,用户语音身份确认等诸多模式,可广泛支持如智能手机,平板,电脑,穿戴设备,耳机设备,医疗设备,和汽车等。

TrulyHandsfree可支持多种模型组件 -

固定唤醒词, Fixed wake word(FW)

预先定义的与具体用户无关的品牌唤醒词,如Alexa等。Sensory所训练的唤醒词可满足不同人口统计特征性下的不同个体,在真实使用环境下的语音识别需求,真正做到开箱即用。

用户录入的固定唤醒词,Enrolled wake word(EW)

同样是预先定义的品牌唤醒词如 Alexa,但是可适配和识别用户的不同发音特征。此场景需要用户实现录入,但对比FW模式带来了更低的FA和FR的优势。

用户自定义唤醒词,User-defined wake word(UDW)

由用户定义和录入的与具体语言无关的唤醒词或短语。

语音命令

结合FW,EW,UDW,通过对不同产品的交互设计,定义不同的命令行,实现与设备的语音交互。

语音用户身份验证和用户ID, Speaker Verification and Speaker ID

可实现语音密码功能。检测不同呼叫的差异性,对声音差异性非常敏感。此方案同样需要用户录入。

语音活动探测, Voice Activity Detector(VAD)

识别和判断用户语音的开始和结束,并捕获语音形成语音WAV流文件,可送至云端处理。

误接受过滤, False Accept Filtering

一种先进的机器学习算法,用以降低FA。某些情况下可降低50%-90%之多。

低功耗声音探测, Low-power Sound Detection(LPSD)

适用于DSP版本的TrulyHandsfree,仅处理和识别一定声音能级以上的语音。

模型集合, Model Combining

支持并行模式下的多唤醒词同时监听,也可实现串行下的唤醒词接语音命令的方式。

模型调试,Model Debugging

所有的模型可增加调试模式,增加时间戳。

代码空间模型链接,Code Space Model Linking

允许固定模型存储在代码空间(code memory)的运行模式,在RAM有限的情况下可释放更多的数据RAM空间。

小-大模型模式,Little-Big Models

结合了小模型(如小于100KB)的高效和大模型(如大于1MB)的高准确性。通过小模型的实时监听做初步判断,通过大模型进行二阶验证,实现更精准的识别。但缺点是二阶验证带来了额外的延时。

端点检测,End-Point Detection(EPD)

识别后对端点的时间戳标记。

TrulyHandsfree:标准的和嵌入式模式下的MEMORY和MIPS估算

Memory需求

  • Code Memory(ROM) 在运行于AP+OS模式下,典型的THF所需占用的代码内存空间为1-2MB。若运行于DSP模式下,可支持更小30-40KB的代码空间占用。
  • Data Memory(RAM) THF需要工作内存实现对变量和音频的存储和缓存。在AP平台下,典型需要100KB,在DSP模式下典型需要14-16KB。开发者可灵活控制不同的音频缓存大小,如最小仅960 bytes,或大可至20.6KB,具体看是否配置LPSD或EPD。
  • Model Size Sensory可提供灵活的模型尺寸,小至40KB和大至1MB。模型可装载Code,或者是Data memory。在AP模式下,模型可动态的以文件系统形式转载,或静态的编译至应用中。在DSP模式下,模型可存储在ROM中,或移到RAM中以实现更快的读取。

MIPS需求和算力需求

  • DSP模式下使用小模型可低至3 MIPS,或在AP模式下需要 100MIPS。在支持LPSD,以及数字MIC和LDO的情况下,凭据识别电流消耗可小于1mA。

TrulyHandsfree, 性能数据

识别率在不同情况下有巨大的差异,如vacabulary size, vocabulary words, grammar specification, noise conditions, 口音或者是距离因素等。

TrulyHandsfree在高噪音环境下或原厂环境下均拥有优秀的性能。如下的图标分别展示了在单唤醒词在不同模型尺寸下的识别率曲线,如80KB, 250KB和1MB-

用户录入的固定唤醒词识别率(Enrolled Fixed Wake Word Accuracy) -

TrulyHandsfree 技术规范

本文分享自微信公众号 - VoiceVista语音智能(AIndustrialRock),作者:深思睿

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-08-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Sensory发布跨平台语音AI解决方案-多唤醒词和多语音助理同时在线

    Sensory升级其TrulyHandsFree低功耗语音唤醒和交互技术,支持Amazon的VII(Voice Interoperability Initiat...

    用户6026865
  • 将人工智能带到边缘

    Sensory的TrulyHandsfree语音控制技术是基于TrulyHandsfree Trigger技术创建。TrulyHandsfree是非常成功的语音...

    用户6026865
  • Sensory赢得2021Speech Industrial Award - VoiceAI on Edge

    Sensory是嵌入式语音软件,或者说是边缘侧语音技术的行业和技术领导者,作为专注于边缘侧语音人工智能的厂商,Sensory可以用很多种技术方式和解决方案满足用...

    用户6026865
  • Sensory 发布VoiceHub - 生成离线语音模型的在线工具

    VoiceHub采用非常直观的界面和非常简单的操作,帮助我们的客户快速生成支持语音用户界面(VUI)所需的模型文件。

    用户6026865
  • Sensory为Farberware微波炉带来创新的离线自然交互语音功能

    Sensory近期不断推出新技术,新平台和新应用。除了于去年底推出的VoiceHub(Voicehub.sensory.com)离线语音模型在线生成平台之外,S...

    用户6026865
  • Sensory发布支持多语音助理的多唤醒词嵌入式语音技术

    Sensory,嵌入式语音,视觉,和生物识别技术供应商和开拓者,于今日升级其TrulyHandsfree唤醒词引擎,支持不同产品组合,定制唤醒词,小词汇语音命令...

    用户6026865
  • Sensory&SYNTIANT合作发布边缘侧超低功耗多语言语音交互解决方案

    Syntiant,领先的人工智能芯片创业公司,为边缘侧提供智能语音解决方案(intelligent voice solutions)。

    用户6026865
  • 专访 - Sensory CEO Todd Mozer - AI, 3D人脸识别以及其他

    Sensory Inc.作为向全球移动设备提供先进的复杂生物识别算法的供应商,于近期展示了其采用面部和声音识别算法的AI虚拟银行助理技术。

    用户6026865
  • Sensory聚焦于隐私保护的嵌入式定制化语音助理驱动下一代的智能家电

    Sen基于机器学习的语音人工智能技术正在快速的渗透包括玩具和智能家电在内的一切设备。

    用户6026865
  • Sensory推出智能家电语音交互解决方案

    Sensory将与美的集团MCA事业部(Midea Microwave and Cleaner Appliances)在2020 CES展示由嵌入式Sensor...

    用户6026865
  • Sensory TrulyHandsFree - 赋能GoPro Hero运动相机离线语音交互

    Sensory TrulyHandsFree离线语音技术,为GoPro Hero系列运动相机的带来革命性的离线语音交互。解放双手,运动自然。

    用户6026865
  • Sensory - Qualcomm SnapDragon AI Solution Partner

    过去几年时间,高通每年12月都会在美国夏威夷的茂宜岛举办骁龙技术峰会,发布下一代骁龙芯片,揭晓未来一年Android绝大多数旗舰的动力引擎。而今年的峰会则具有特...

    用户6026865
  • Alango - Speech Recognition Enhancement

    穿戴和听力设备(wearable and hearable)设备需要永远在线(Always-on),这对于用户来说非常重要。我们不难想象出其重要性,比如外科医生...

    用户6026865
  • Sensory, FastCompany最具创新力公司 - 消费电子部分TOP5

    快公司发布2019年最具创新公司50强,在其中的消费电子部分,Sensory首次上榜。作为一家拥有24年历史的公司语音识别和语音智能公司,仍然保持着旺盛的创新力...

    用户6026865
  • Sensory生物识别技术 - 更安全,更便捷,最具成本优势

    生物身份识别和验证技术讲究的是在易用性和识别准确性之间的平衡(conbination of convenience and accuracy)。

    用户6026865
  • 超低功耗解决方案如何赋能Always-on语音交互系统

    消费者越来越需要可以随时通过语音控制的产品,可以与数字世界更加安全的和自然的交互。

    用户6026865
  • Sensory@2021 CES

    没关系,以下视频为2021CES中Sensory虚拟展厅所展示的Sensory最新技术进展。

    用户6026865
  • Qt 6的技术概览

    本文转载自Qt 6的技术概览 原文:Technical vision for Qt 6 原作者:Lars Knoll 翻译校对:Richard Lin 自从七...

    ccf19881030
  • Sensory TrulySecure - Easy, Embedded, Secure Authentication

    Sensory TrulySecure Speaker Verification(TSSV)技术是独立于语言的(language independent),具备...

    用户6026865

扫码关注云+社区

领取腾讯云代金券