首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【AI创新者】云知声梁家恩:当 AI 遇见 IoT——云知声的 AI 之路

【AI创新者】云知声梁家恩:当 AI 遇见 IoT——云知声的 AI 之路

作者头像
用户1737318
发布2018-06-06 15:27:49
1K0
发布2018-06-06 15:27:49
举报

【AI创新者】是CSDN人工智能频道精心打造的专栏,本期主人公是云知声创始人、CTO梁家恩。 作者:王艺 CSDN AI 编辑 / 记者 投稿、采访、寻求合作请邮件至 wangyi@csdn.net

梁家恩的办公桌很干净,一台电脑,两小瓶会客用的矿泉水。过少的媒体曝光让他归于神秘,三年来,醉心技术的他带领着团队为业界带来了不少惊喜。

早在2012年创立之初,梁家恩和创始团队便已设想和规划了团队的人工智能布局,这也是“云知声”三个字的来源:云——指底层的大数据机器学习及服务平台,是数据和智能的核心载体;知——指语言、知识与思维等认知能力,是人工智能的核心;声——指云知声目前广为业界熟知的物联网语音交互,对云知声而言,“声”就是智能终端的切入点和语音大数据的入口。

云知声的AI之路从“云”开始

梁家恩本人从2001年读研究生开始,就涉足语音行业,至云知声创办初期,已有12年的积累。

云知声在创业初期,创始团队不到10人,都是技术背景出身,80%都是博士,在业内有多年经验。作为从业多年的老手,梁家恩及其创始团队深知数据对AI产业化的重要性。因此在2012年AI产业还未受广泛关注,国内语音云平台还处于付费服务的年代,云知声便本着收集数据和扩大影响的目的,免费开放了其公有云平台。“当时业内不是很看好创业公司做平台,但是我们很清楚数据对人工智能来说意味着什么。如果当时我们没有从云端收集这些真实用户数据,我相信我们的进程会慢很多。”梁家恩称免费开放云平台是基于两方面的考量:一是想让业界知道云知声的技术实力;二是让用户自由使用,收集真实场景下的数据和需求,因为云做起来之后会有很多衍生效应。

在公有云平台发布后,云知声仅用3个月的时间便将其深度学习系统上线发布。云知声于2012年6月成立, 9月语音云平台开放,12月底深度学习系统上线。

2011年,微软研究院的俞栋博士通过引入大词汇连续语音识别,将语音识别任务与深度学习方法相结合,取得了显著效果。但业内普遍认为由于计算量太大,训练和线上部署都很困难。云知声团队在深入研究论文的基础上,认为俞栋博士的论文在实际应用中是完全可行的,并认为这是团队在技术上实现弯道超车的机会。

在9月云平台发布后,10月份开始集中攻关。团队从淘宝采购游戏显卡,经过了从算法跑通,到模型优化、解码器优化、系统性能和稳定性测试等一系列环节,同年12月份,云知声在普通CPU上实现了基于深度学习的大规模连续语音识别系统,这一突破领先业内多半年的时间。

以云端服务为入口,云知声在业内取得先机,开始积累数据并迭代优化。后来,云知声发现,单凭云端要形成商业模式非常困难,特别是免费的云端服务,要转化为商业价值的路径还很长。在支持搜狗语音助手、乐视超级电视等客户应用后,2014年,云知声开始切入物联网智能终端行业。

人工智能产业化——2B or 2C?

对于为何选择物联网To B的商业模式,梁家恩解读到:“目前,人工智能技术本身还不能被称为一个产业,将人工智能与传统行业结合,去改变传统行业的应用模式、思维模式是现在人工智能产业的落脚点。物联网和人工智能是一种很天然的结合,这是我们创业的初衷,就我们四年来的验证来说,也确实是这样的。现在云知声的业务领域包括家居、车载、医疗、教育。这些传统行业与人工智能融合,确实有颠覆物联网产业的趋势。”

当被问及为何不选择To C的业务模式,梁家恩的回答很直率:“我们作为技术起家的公司,在产品、内容和服务上都不擅长。To C业务需要一个相对较长的过程,技术产品化、引导用户接受产品,都需要时间。用户想要的并不是简单的语音识别准确率,就算做到100%准确,没有内容和服务支撑来解决用户实际问题,还是没人买账。我认为人工智能产业想要发展,不是去创造一种新的需求,至少在眼下不是这样的。在现存的需求上提高用户的效率和体验,使操作更加便捷,逐步改变这个行业,在我看来才是可行的通路。在两年前,大家对智能硬件的期待还是比较高的,但现在存留下来的除了Amazon Echo,其余的出货量都很难超过十万量级。和手机时代完全不同,智能硬件时代的产品形态会更加分散。”在To B的大方向指引下,云知声先后与乐视超级电视、美的、格力等家电厂商及汽车后装市场紧密合作,逐渐形成行业领先地位。

IoT 语音落地的关键难点

人工智能与物联网的结合,绕不开两个基本问题:一是真实场景下的用户体验,解放双手和双眼;二是达到工业级规模化推广的完整解决方案。

虽然现在各家提供语音识别服务的企业都宣称识别准确度能够达到97%或98%以上,但往往都不考虑用户口音、年龄、应用场景、识别领域和计算资源等因素。业内人士心知肚明,这些才是影响识别准确度的关键。真实应用场景往往要比实验室复杂很多,如果产品不针对实际应用进行优化,97%或98%这个数字是很难达到的。

云知声在 IoT 产品落地过程中,主要解决了实际场景所带来的两大挑战:

1、远讲降噪

语音是相对多变且较容易受环境噪声干扰的,多变体现在不同用户口音、年龄、性别、说话方式等差异,干扰则来自于说话场景的回声、混响、噪声、录音距离、声学设计、麦克风选择、采集电路等,这些实际情况都会对语音信号造成干扰,进而导致识别错误。在高质量手机近讲的情况下,这些干扰不会明显体现,但当语音识别技术在实际应用场景落地时,这些因素如不加以考虑和针对性优化,语音识别的准确度会大幅降低。

远讲降噪是一个系统工程问题,涉及声学设计、电声设计、信号降噪和模型适配等问题。现有智能终端厂商(除手机厂商之外)在产品结构和硬件设计时,基本不考虑语音采集和噪声抑制问题,且市场上没有相关标准可循。云知声与声学和降噪合作伙伴一同探索,逐步形成自己的积累和优化办法。

业内解决远讲和降噪问题,通常用两种方法:

  1. 通过麦克风阵列的波束形成(Beam Forming,“定向聚焦”)来拾取特定方向信号,将目标信号从背景噪声信号中分离出来,并根据语音和噪声的统计学特性,进行回声消除(AEC)、混响消除、噪声消除、语音增强等,提高目标语音的信噪比;
  2. 模拟各种真实场景下的语音数据(数据覆盖),迭代训练,用深度学习模型进行匹配,利用深度学习的特征抽象能力,学习出真实噪声场景下的语音特征,提升识别精度。

通常情况下,各家的做法是以上两种方法结合使用,才能达到最好效果,但各家发力的侧重点和策略是不同的。目前业内很多企业采用的都是看上去更“高大上”的“8 麦、6 麦、4 麦”圆形阵列方案,有些还在中间多加一个麦克风,形成8+1、6+1、4+1方案等,侧重点在于利用更多麦克风更强的波束形成能力,从前端信号处理层面提高远讲和降噪能力。但这种解决方案对麦克风性能的一致性、处理器计算资源等要求都比较高,在结构安装、规模量产和成本控制上都有明显劣势,比较适合做智能硬件单品,类似 Amazon Echo(Alexa)。

而云知声采用看似更“另类”的“双麦”方案作为切入点,主要优势在于对麦克风一致性和计算资源要求较低、结构安装便捷、更适合规模化量产和成本控制;劣势在于前端信号的降噪和增强能力要比多麦克风稍差一些。为此,云知声通过提升后端模型能力来提升整体识别效果。两年之后的2016年,Google Home 推出,也采用了双麦克风技术方案,与云知声不谋而合。

2、离线优化

家电智能化已经成为行业共识,更是产业必争之地,语音交互走在了家电智能化进程的最前列。除了智能电视,现有家电控制系统通常采用嵌入式微控制器(MCU)方案,计算资源极其有限,且不能保证实时联网。智能车载后装市场虽然采用 Cortex-A+Android 方案,增长迅速,但计算能力和智能手机还存在相当差距,网路普及和稳定性也是问题。因此,云端方案在实用性上受到极大的限制和挑战。低资源下的离线语音识别优化成为家居及车载IoT行业必须解决的问题,主要挑战在于:

  1. 如何进行模型压缩,将云端数百MB甚至上GB的模型,压缩到 1MB 甚至 100KB 量级(约1000倍),还要尽可能使得模型压缩带来的精度损失降低到最小;
  2. 如何在计算资源极低的芯片上,实现实时语音降噪、增强和识别,确保较好的识别体验;

离线识别与云端识别的理论方法没有本质区别,但由于芯片计算和存储资源有限,在模型及计算上都需要做裁剪和压缩。

云知声通过不断的试验和优化,再次挑战了不可能,最终在低至 Cortex-M 级别的芯片上(100 MHz 量级主频/100 KB 量级内存),实现了基于深度学习的语音识别方案,在业内处于领先水平;同时,也在软硬一体模块方案基础上,推进芯片化方案 AI Chip。

3、云端优化

终端的降噪和优化,为云知声智能方案落地取得了领先优势,成为智能家居和车载后装市场上的领跑者。但云知声非常清楚,云端才是未来持续竞争优势的依托,真正智能时代的到来,离不开强大的云端智能,因此,云知声在通过“声”方案落地形成商业和数据闭环的同时,也在积极推进“云”和“知”升级,梁家恩认为,这才是云知声的未来。

人工智能产业化是场耐力赛

谈到云知声的未来,梁家恩表示,云知声的 AI 核心技术和“云-端-芯”产品体系,在未来几年还是会持续创新和快速演进的。云端的认知计算和大数据机器学习平台,将是重要的技术支撑点,而轻监督和无监督的大数据机器学习技术,在未来是最值得期待的突破。

梁家恩讲到:“人工智能产业化是相对较长的赛道,是不能靠抢跑取胜的,要靠内力提升和对时机的把握。”目前云知声的核心技术团队中 90% 是硕士/博士,核心骨干有多年的产业界经验。用梁家恩自己的话来说,“都是老司机”,但在面对创业路的问题上,要始终怀有一颗开放和应对变化的心,这是梁家恩的带队之道。


本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-03-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能头条 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 云知声的AI之路从“云”开始
  • 人工智能产业化——2B or 2C?
  • IoT 语音落地的关键难点
  • 人工智能产业化是场耐力赛
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档