【AI创新者】云知声梁家恩：当 AI 遇见 IoT——云知声的 AI 之路

用户1737318

发布于 2018-06-06 15:27:49

1.4K0

【AI创新者】是CSDN人工智能频道精心打造的专栏，本期主人公是云知声创始人、CTO梁家恩。作者：王艺 CSDN AI 编辑 / 记者投稿、采访、寻求合作请邮件至 wangyi@csdn.net

梁家恩的办公桌很干净，一台电脑，两小瓶会客用的矿泉水。过少的媒体曝光让他归于神秘，三年来，醉心技术的他带领着团队为业界带来了不少惊喜。

早在2012年创立之初，梁家恩和创始团队便已设想和规划了团队的人工智能布局，这也是“云知声”三个字的来源：云——指底层的大数据机器学习及服务平台，是数据和智能的核心载体；知——指语言、知识与思维等认知能力，是人工智能的核心；声——指云知声目前广为业界熟知的物联网语音交互，对云知声而言，“声”就是智能终端的切入点和语音大数据的入口。

云知声的AI之路从“云”开始

梁家恩本人从2001年读研究生开始，就涉足语音行业，至云知声创办初期，已有12年的积累。

云知声在创业初期，创始团队不到10人，都是技术背景出身，80%都是博士，在业内有多年经验。作为从业多年的老手，梁家恩及其创始团队深知数据对AI产业化的重要性。因此在2012年AI产业还未受广泛关注，国内语音云平台还处于付费服务的年代，云知声便本着收集数据和扩大影响的目的，免费开放了其公有云平台。“当时业内不是很看好创业公司做平台，但是我们很清楚数据对人工智能来说意味着什么。如果当时我们没有从云端收集这些真实用户数据，我相信我们的进程会慢很多。”梁家恩称免费开放云平台是基于两方面的考量：一是想让业界知道云知声的技术实力；二是让用户自由使用，收集真实场景下的数据和需求，因为云做起来之后会有很多衍生效应。

在公有云平台发布后，云知声仅用3个月的时间便将其深度学习系统上线发布。云知声于2012年6月成立， 9月语音云平台开放，12月底深度学习系统上线。

2011年，微软研究院的俞栋博士通过引入大词汇连续语音识别，将语音识别任务与深度学习方法相结合，取得了显著效果。但业内普遍认为由于计算量太大，训练和线上部署都很困难。云知声团队在深入研究论文的基础上，认为俞栋博士的论文在实际应用中是完全可行的，并认为这是团队在技术上实现弯道超车的机会。

在9月云平台发布后，10月份开始集中攻关。团队从淘宝采购游戏显卡，经过了从算法跑通，到模型优化、解码器优化、系统性能和稳定性测试等一系列环节，同年12月份，云知声在普通CPU上实现了基于深度学习的大规模连续语音识别系统，这一突破领先业内多半年的时间。

以云端服务为入口，云知声在业内取得先机，开始积累数据并迭代优化。后来，云知声发现，单凭云端要形成商业模式非常困难，特别是免费的云端服务，要转化为商业价值的路径还很长。在支持搜狗语音助手、乐视超级电视等客户应用后，2014年，云知声开始切入物联网智能终端行业。

人工智能产业化——2B or 2C?

对于为何选择物联网To B的商业模式，梁家恩解读到：“目前，人工智能技术本身还不能被称为一个产业，将人工智能与传统行业结合，去改变传统行业的应用模式、思维模式是现在人工智能产业的落脚点。物联网和人工智能是一种很天然的结合，这是我们创业的初衷，就我们四年来的验证来说，也确实是这样的。现在云知声的业务领域包括家居、车载、医疗、教育。这些传统行业与人工智能融合，确实有颠覆物联网产业的趋势。”

当被问及为何不选择To C的业务模式，梁家恩的回答很直率：“我们作为技术起家的公司，在产品、内容和服务上都不擅长。To C业务需要一个相对较长的过程，技术产品化、引导用户接受产品，都需要时间。用户想要的并不是简单的语音识别准确率，就算做到100%准确，没有内容和服务支撑来解决用户实际问题，还是没人买账。我认为人工智能产业想要发展，不是去创造一种新的需求，至少在眼下不是这样的。在现存的需求上提高用户的效率和体验，使操作更加便捷，逐步改变这个行业，在我看来才是可行的通路。在两年前，大家对智能硬件的期待还是比较高的，但现在存留下来的除了Amazon Echo，其余的出货量都很难超过十万量级。和手机时代完全不同，智能硬件时代的产品形态会更加分散。”在To B的大方向指引下，云知声先后与乐视超级电视、美的、格力等家电厂商及汽车后装市场紧密合作，逐渐形成行业领先地位。

IoT 语音落地的关键难点

人工智能与物联网的结合，绕不开两个基本问题：一是真实场景下的用户体验，解放双手和双眼；二是达到工业级规模化推广的完整解决方案。

虽然现在各家提供语音识别服务的企业都宣称识别准确度能够达到97%或98%以上，但往往都不考虑用户口音、年龄、应用场景、识别领域和计算资源等因素。业内人士心知肚明，这些才是影响识别准确度的关键。真实应用场景往往要比实验室复杂很多，如果产品不针对实际应用进行优化，97%或98%这个数字是很难达到的。

云知声在 IoT 产品落地过程中，主要解决了实际场景所带来的两大挑战：

1、远讲降噪

语音是相对多变且较容易受环境噪声干扰的，多变体现在不同用户口音、年龄、性别、说话方式等差异，干扰则来自于说话场景的回声、混响、噪声、录音距离、声学设计、麦克风选择、采集电路等，这些实际情况都会对语音信号造成干扰，进而导致识别错误。在高质量手机近讲的情况下，这些干扰不会明显体现，但当语音识别技术在实际应用场景落地时，这些因素如不加以考虑和针对性优化，语音识别的准确度会大幅降低。

远讲降噪是一个系统工程问题，涉及声学设计、电声设计、信号降噪和模型适配等问题。现有智能终端厂商（除手机厂商之外）在产品结构和硬件设计时，基本不考虑语音采集和噪声抑制问题，且市场上没有相关标准可循。云知声与声学和降噪合作伙伴一同探索，逐步形成自己的积累和优化办法。

业内解决远讲和降噪问题，通常用两种方法：

通过麦克风阵列的波束形成（Beam Forming，“定向聚焦”）来拾取特定方向信号，将目标信号从背景噪声信号中分离出来，并根据语音和噪声的统计学特性，进行回声消除（AEC）、混响消除、噪声消除、语音增强等，提高目标语音的信噪比；
模拟各种真实场景下的语音数据（数据覆盖），迭代训练，用深度学习模型进行匹配，利用深度学习的特征抽象能力，学习出真实噪声场景下的语音特征，提升识别精度。

通常情况下，各家的做法是以上两种方法结合使用，才能达到最好效果，但各家发力的侧重点和策略是不同的。目前业内很多企业采用的都是看上去更“高大上”的“8 麦、6 麦、4 麦”圆形阵列方案，有些还在中间多加一个麦克风，形成8+1、6+1、4+1方案等，侧重点在于利用更多麦克风更强的波束形成能力，从前端信号处理层面提高远讲和降噪能力。但这种解决方案对麦克风性能的一致性、处理器计算资源等要求都比较高，在结构安装、规模量产和成本控制上都有明显劣势，比较适合做智能硬件单品，类似 Amazon Echo（Alexa）。

而云知声采用看似更“另类”的“双麦”方案作为切入点，主要优势在于对麦克风一致性和计算资源要求较低、结构安装便捷、更适合规模化量产和成本控制；劣势在于前端信号的降噪和增强能力要比多麦克风稍差一些。为此，云知声通过提升后端模型能力来提升整体识别效果。两年之后的2016年，Google Home 推出，也采用了双麦克风技术方案，与云知声不谋而合。

2、离线优化

家电智能化已经成为行业共识，更是产业必争之地，语音交互走在了家电智能化进程的最前列。除了智能电视，现有家电控制系统通常采用嵌入式微控制器（MCU）方案，计算资源极其有限，且不能保证实时联网。智能车载后装市场虽然采用 Cortex-A＋Android 方案，增长迅速，但计算能力和智能手机还存在相当差距，网路普及和稳定性也是问题。因此，云端方案在实用性上受到极大的限制和挑战。低资源下的离线语音识别优化成为家居及车载IoT行业必须解决的问题，主要挑战在于：

如何进行模型压缩，将云端数百MB甚至上GB的模型，压缩到 1MB 甚至 100KB 量级（约1000倍），还要尽可能使得模型压缩带来的精度损失降低到最小；
如何在计算资源极低的芯片上，实现实时语音降噪、增强和识别，确保较好的识别体验；

离线识别与云端识别的理论方法没有本质区别，但由于芯片计算和存储资源有限，在模型及计算上都需要做裁剪和压缩。

云知声通过不断的试验和优化，再次挑战了不可能，最终在低至 Cortex-M 级别的芯片上（100 MHz 量级主频／100 KB 量级内存），实现了基于深度学习的语音识别方案，在业内处于领先水平；同时，也在软硬一体模块方案基础上，推进芯片化方案 AI Chip。

3、云端优化

终端的降噪和优化，为云知声智能方案落地取得了领先优势，成为智能家居和车载后装市场上的领跑者。但云知声非常清楚，云端才是未来持续竞争优势的依托，真正智能时代的到来，离不开强大的云端智能，因此，云知声在通过“声”方案落地形成商业和数据闭环的同时，也在积极推进“云”和“知”升级，梁家恩认为，这才是云知声的未来。

人工智能产业化是场耐力赛

谈到云知声的未来，梁家恩表示，云知声的 AI 核心技术和“云－端－芯”产品体系，在未来几年还是会持续创新和快速演进的。云端的认知计算和大数据机器学习平台，将是重要的技术支撑点，而轻监督和无监督的大数据机器学习技术，在未来是最值得期待的突破。

梁家恩讲到：“人工智能产业化是相对较长的赛道，是不能靠抢跑取胜的，要靠内力提升和对时机的把握。”目前云知声的核心技术团队中 90% 是硕士／博士，核心骨干有多年的产业界经验。用梁家恩自己的话来说，“都是老司机”，但在面对创业路的问题上，要始终怀有一颗开放和应对变化的心，这是梁家恩的带队之道。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-03-01，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能

本文分享自人工智能头条微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

人工智能

登录后参与评论

0 条评论

热度