前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Voice Commands on the Edge - Syntiant是如何解决功耗问题的?

Voice Commands on the Edge - Syntiant是如何解决功耗问题的?

作者头像
用户6026865
发布2020-06-17 09:57:19
6800
发布2020-06-17 09:57:19
举报

云端语音服务最主要的问题就是隐私和安全的问题,其次是识别率(Accuracy),功耗和处理时间(prcessing time)等问题。其中隐私,又涉及到深层次的技术和伦理问题(mix of technical ability and ethics)。

接下来我们来讨论Syntiant NDP10x系列处理器是如何解决前述(aforementioned)的挑战的。

人机交互已经走过了从键盘,到鼠标,到触控,而如今语音控制也取得了引人瞩目的进步(compelling progression),为消费类电子产品带来了令人激动的创新(exciting innovation)。

在很多场景下语音控制非常有价值,在厨房我们手很脏的时候,在健身房手有很多汗的时候,或者泡温泉手很湿的时候等等。而产品可能是蓝牙音箱,耳机,或其他如手机或穿戴等移动设备等。

但是在这些边缘侧产品上支持语音交互同时也面临着很多的技术问题,如需要在尽量降低电池功耗的同时保证语音识别的准确性(maintain accuracy of key word spotting or wake word detection)。

Syntiant神经网络技术(neural network technology)允许蓝牙音箱,蓝牙耳机,或其他电池功耗非常有限的设备支持语音助理交互(voice assistant interactions)。

Syntiant NDP 10x专为(purpose-built)执行深度神经网络算法而设计,支持始终在线能力(always-on capability),在检测到唤醒词后发出中断激活应用处理器(send interrupts to application processor),同时也支持本地语音命令吗,如"volume up/volum down/answer call/mute, e.g.)。

关键因素在于(key element)在本地检测唤醒词激活仅需消耗140微瓦的功耗,比其他竞争产品的功耗小200倍以上,同时延迟也是最低的(lowest latency)。

Syntiant的超低功耗得益于其类似于门逻辑功能的模拟计算通路(analogy of the compute path in NDP。当检测到唤醒词呼叫后,处理器会判定是或不是正确的唤醒词,若检测正确则发送中断信号。

而采用MCU架构的处理器则需要反复的将数据移入或移出内存单元。

Syntiant NDP在并行计算处理上具有极大优势(exploit massive advantages in parallel processing)。

Syntiant NDP的另一个优势是其可以在较低比特率如8 bit执行任务,对比MCU则通常需要128或256 bit才可以获得类似的精度。

NDP vs MCU/DSP

对于耳机或智能手机等近场交互产品(close-talk devices),语音识别的精度对产品尤其重要(extremely critical)。虽然Syntiant有能力开发自己的模型或库(libraries or models),但同时也与行业内几个主要的算法厂商建立伙伴关系(aligned a partnership with several key algorithm partner companies)。

如Sensory,提供超高精度,支持15种语言的语音识别技术。

不仅是唤醒词和本地语音命令,向NLP的技术演进对设备最终采用语音技术非常的重要,比如Sensory的本地嵌入式大单词量自然语言识别技术 - TrulyNatualLanguages(TNL)。

想象一下你的蓝牙音箱,不仅可听懂常规的语音命令,也可以对诸如"turn it up/crack it up"等口语表达做出正确反应,这将非常有趣并会极大的推动消费者对语音技术的采用。

随着芯片技术和算法的不断进步,将合力推动语音技术的进步和消费者体验。

Syntiant AoV(always on voice)技术以超低功耗监听唤醒词,只有在正确识别后才会激活应用处理器连接云端或执行指令。也就是说,采用Syntiant芯片技术方案,有效的避免了实时监听录音(always recording or gethering)和收集用户语音数据,有效的保护了用户的隐私。

随着产品的小型化发展,采用按键或轻触的操作方式越来越复杂和困难,如一些TWS产品轻敲左耳两次静音,轻敲右耳三次音乐快进,用户记忆和使用成本非常之高。

语音唤醒和识别,对比轻敲触控,是一种更加友好和易用的人机交互技术。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-06-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SmellLikeAISpirit 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档