创新性的训练方法与模型压缩技术结合巧妙的工程实现,使语音处理得以在本地设备完成。
设备端语音处理具有多重优势:降低响应查询的延迟时间;减少便携设备上的带宽消耗;提升在车载单元等网络连接不稳定场景下的可用性。设备端处理还支持语音信号与视觉等多模态融合,实现更自然的交互体验。
在云端,存储空间和计算能力几乎不受限制,模型可以庞大且计算密集。而在设备端执行相同功能意味着需要将模型压缩至原体积的1%以下,且精度损失最小。
云端语音处理栈的各个组件(自动语音识别、轻声检测、说话人识别)运行在独立的服务器节点上,而设备端这些功能必须共享硬件资源。
设备端ASR模型接收语音信号后输出按概率排序的识别假设集合,以网格图形式表示。与云端处理音频片段不同,设备端仅将识别网格发送至云端进行重新排序。
设备端运行两个端点检测器:
通过浅融合模型在构建网格时提升上下文相关词的概率,后续开发基于多头注意力的上下文偏置机制,与ASR子网络联合训练提升个性化内容识别精度。
构建全新的端到端循环神经网络转换器模型,直接映射输入语音到输出词序列,显著减少内存占用。
在训练过程中对网络权重施加概率分布,使量化对性能影响最小化。与传统方法不同,该方法在权重更新的反向传播过程中考虑量化影响。
在训练期间逐步减少低值权重,使网络学习适合权重剪枝的模型。通过多轮训练周期,将固定数量的权重降至接近零值。
使用复杂和简单两个神经网络处理语音输入,ASR模型动态决定使用哪个网络,节省计算成本。
AZ系列神经边缘处理器针对压缩方案优化,使用8位或更低位数表示,加速量化值处理。
利用低比特量化和零值特性设计压缩方案,芯片内置解码电路,硬件层面实现稀疏化计算优化。
正在开发多语言设备端ASR模型,支持动态语言切换自动识别,持续推动边缘处理技术发展。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。