专栏首页人人都是极客基于i.MX RT的语音识别方案

基于i.MX RT的语音识别方案

前言

“AI+IoT”将是未来的风口,各种应用和商机将成井喷式增长,国内外各大互联网巨头早已提前布局AI+IoT的战略,这同时也是恩智浦的核心战略之一。AI+IoT技术的应用,大到汽车和电视,小到灯泡、闹钟,都可以使用AI的控制技术。

今天就给大家介绍一下,恩智浦IoT解决方案团队针对低功耗、低成本的,基于人工智能技术的语音识别,在iMX RT上的软硬件设计和实现。基于该方案能针对智能家居的各种设备提供以下三种应用场景:

  1. 本地离线语音唤醒及语音控制。
  2. 本地唤醒,基于云端语音及语义识别的远程控制。
  3. 本地“Alexa”唤醒,基于云端AWS SDK的语音助手服务。

接下来介绍一下具体的这三种应用场景的逻辑框图和通用的硬件和软件方案。

本地离线语音唤醒及语音控制

如下图所示,这是完全不需要借助网络的本地语音识别模块,可以广泛应用在智能家居的低成本设备如组合灯泡、开关等离线语音唤醒,也可用于白色家电的升级换代,目前许多冰箱,洗衣机,空调等厂商已经表现出浓厚的兴趣。

该方案模块包含了语音的前端降噪、去回声等通用DSP算法,并且包含了WWE (Wake Word Engine)来处理基于AI模型的关键词唤醒的算法预测,在唤醒成功以后再进行多词条控制命令的AI模型预测。整个系统实现非常轻巧,满足低功耗和低成本的要求,非常适合做成通用智能语音模块来加以推广,针对不同的应用和厂商可以定制相应的AI语音模型。真正做到了客户交钥匙模式的方案提供。

为了能有一个更直观的了解,我们提供了相关demo的演示视频:

本地唤醒,基于云端识别的远程控制

如下图所示,在本地基于唤醒词的语音识别,然后通过交互的方式,把后面的语音输入传递到云端作进一步的智能识别。至于后面的语音控制识别,是基于关键字的识别还是更智能化的自然语言语义识别,则取决于后台的第三方AI云服务商,作为终端智能模块,该方案更多的是处理本地AI的语音关键词识别。所以和离线识别的方案实现原理差不多。

本地"Alexa"唤醒 基于云端AWS的语音助手服务

如下图所示,基于恩智浦的低成本语音识别平台,还可以做低成本的智能音箱和智能语音助手,根据产品的定位和硬件的具体配置,可以开发并集成AWS/AVS/AIS等不同等级的SDK支持,也可以完全做中国本地化的语音助手SDK的集成。

下面是一个“Alexa”语音助手的视频:

限于篇幅的限制,大概介绍了一下这三种应用场景,下面快速进入技术流们最关心的软硬件框架设计,以便进一步说明为啥该方案能够做到极低成本,却还能做到如此丰富的AI语音识别应用。

硬件框架结构

如下图所示,该方案的核心就是恩智浦的iMX RT105x跨界处理器,该产品以MCU的价格让客户得到MPU的性能体验,具有极高的性价比。

i.MX RT105x具有足够的计算性能和灵活的存储器配置,可以在不依赖于外接SDRAM时运行整个完整的AI语音模块。BOM成本是选用MPU方案所不能比拟的。由于基于MCU和新的工艺制程,使得整个方案的物理尺寸和功耗也是堪称完美组合,框图下边是开发板(3x4cm)和美元硬币的尺寸比较,可以很直观的看到整个PCBA非常小。

在硬件框图中,主要的部件是MCU、Audio Ampifier、NOR flash,另外Wi-Fi模块和A71CH加密芯片是可选的,还有一些必须的DC regulator和数字麦克风和扬声器。

对于某些应用不需要音频输出,而是接到HOST来做LED和显示更新的场景。可以去掉图中的扬声器和Audio Amplifier,达到更低的BOM成本。

目前的开发板方案可以支持3路麦克风输入,最多可以支持5路麦克风。当然这要根据客户具体的要求来做设计,因为更多的MIC会造成更多的PDM缓存,而导致外扩SDRAM致使成本提高。

软件框架结构

一张架构图胜过千言万语,技术流们一眼就看了个底朝天,没错,既然是MCU的方案,那软件架构也就轻巧简单了许多,你不再需要什么Linux、Android之类的OS,有很多适用于IoT设备的开源OS可以选择。

目前我们提供了完整的基于FreeRTOS的开发包,因为Amazon的整个开发工具链会让我们更容易的调用云端的语音SDK,开发包也包含了一些IoT必备的开发库,比如MQTT、mBedTLS、LWIP等。

另外NXP开发了自己的轻量级Audio Framework,并且包含了最重要的两个IP,一个就是软件的DSP,用于降噪和回声消除,Beamforming等语音处理算法,另外一个就是AI语音算法的预测引擎,用于加载唤醒词和本地语音控制命令库等预训练模型,并识别比对用户语音交互的预测结果。

为了进一步说明基于iMX RT 1052 MCU的智能语音方案的优越性,我们做了一些CPU和运行时内存占用率的测试,该测试基于整个语音唤醒系统在全负载状态时的工作状态,如下表所示:

S/W DSP +AI推理引擎

AFE + WWE(商用版)

AFE + WWE(开源引擎)

最高CPU占用率

56%

33%

最低CPU占用率

10%

30%

RAM占用

340KB

234KB

从上表可以看出,在整个运算负载最重的情况下,CPU的算力还盈余很多,另外对于AI预测运算所需的运行时内存占比也并不高,基于此硬件配置,在成本不升高的情况下,客户完全可以预留部分资源给其他的功能和SDK的开发使用。

结束语

总体来说,基于恩智浦MCU的智能语音识别方案,将会带给客户一个高性价比的选择。在目前市场上基本都是基于MPU的智能语音方案的背景下,这绝对是一个创新型的整体解决方案。

重要的事情说三遍:

低成本!低成本!低成本!

我们也正计划同步推出,基于MPU的高性能算力的语音解决方案,并且带有视频显示甚至是人脸识别的一整套整体解决方案,敬请期待!

本文分享自微信公众号 - 人人都是极客(rrgeek)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-12-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • ZLG深度解析——语音识别技术

    语言作为人类的一种基本交流方式,在数千年历史中得到持续传承。近年来,语音识别技术的不断成熟,已广泛应用于我们的生活当中。语音识别技术是如何让机器“听懂”人类语言...

    刘盼
  • 解读AI芯片麒麟980如何让手机更智能

    8月31日,华为发布了新一代顶级人工智能手机芯片——麒麟980,成为全球首款采用7nm制程工艺的手机芯片。麒麟980能做到人脸识别、物体识别、物体检测、图像分割...

    刘盼
  • 浅谈语音技术

    当我们使用像Skype、QQ这样的工具和朋友流畅地进行语音视频聊天时,我们可曾想过其背后有哪些强大的技术在支撑?本文将对网络语音通话所使用到的技术做一些简单的介...

    刘盼
  • 下一个人机交互的突破口在哪?

    手机是目前最重要的人机交互终端,那么下一个人机交互的突破口在哪?AR?VR?还是智能家居?经过深思熟虑后,我认为以上三个都不是,主要理由有以下三点:

    mixlab
  • Python语音交互的实现

    在windows10上运行的测试内容。 Python版本:Python3.6.2。 已经注册并添加了百度的'’语音识别'和'语音合成'应用。 已经注册并创建了图...

    py3study
  • 【AI科技】想要与用户建立更好的关系?AI语音技术来帮你

    AI将会与当初的互联网一样,为各行各业赋能。有自然语言处理、机器学习、计算机视觉、AI算法驱动的语言增强现实和聊天机器人等等,每一项技术都可以给企业提供相当大的...

    AiTechYun
  • 大数据时代的富士康,在图上画一个框3分钱

    这里生产你美颜时“一键瘦脸”的尖下颌,你一起学猫叫时的动态胡须,张学友演唱会被实时识别的犯人,生产未来的自动驾驶,智能门禁……

    用户1594945
  • 语音识别揭秘,它与人工智能是什么关系?

    自1962年IBM推出第一台语音识别机器以来,语音识别科学已经走了很长一段路。这已经不是什么秘密了。

    AiTechYun
  • 倪捷:智能语音扩展数字化服务

    广义上来讲智能语音技术有各种各样的定义,以上是常见的一些热门的场景。语音识别,刚才罗老师也分享了部分内容。语音合成是文字变成语音,这部分我们后面会详细展开。再往...

    云加社区技术沙龙
  • 腾讯AI Lab 8篇论文入选,从0到1解读语音交互能力 | InterSpeech 2018

    AI科技评论按:Interspeech 会议是全球最大的综合性语音信号处理领域的科技盛会,首次参加的腾讯 AI Lab共有8篇论文入选,居国内企业前列。这些论文...

    AI科技评论

扫码关注云+社区

领取腾讯云代金券