对话微信智聆团队:坐拥近10亿用户,微信如何用好语音这一入口?

大数据文摘作品

记者:谭婧

如果说PC时代的搜索引擎成就了谷歌,造就了这家当今世界最大的数据公司,那么随着智能产品的普及,谁先用现象级产品掌握了语音的入口,谁就将成为AI时代的赢家。

而在今天,没有哪个入口能比得上月活用户即将达到10亿的微信。

亚马逊Amazon Echo、苹果Apple HomePod、谷歌Google Home

语音转换文字对(微信)用户来讲是很刚需的场景。”微信智聆技术团队告诉大数据文摘记者。确实,相比用“手”和“眼睛”,以及其他以手机和电脑为媒介的操作,“语言”无疑是人类最自然的交互方式。

纵观海内外科技巨头,多数通过“智能音箱”这一产品作为切入口。然而目前,在复杂的现实场景中,智能音箱的交互体验依然有限,比如调节空调温度的时候,向智能助手喊话可能还不如直接动手按按钮来得方便。

创新工场人工智能工程院副院长王咏刚也曾公开表示,仅仅是智能音响的唤醒词背后,就蕴含有巨大的技术含量:“如果要把唤醒词做到唤醒成功率70%以上,且唤醒的区间在1米到10米之间,并兼容众多不同的噪音环境,这是一件非常难的事情。对于现在已经发售的智能音响来说,能做到并做好的寥寥无几。”

相比而言,在微信中的这一应用就贴合得多。微信中常用的“微信语音输入”、“微信语音转文字”,以及王者荣耀里面的语音转文字功能背后,都由微信智聆团队提供技术支撑。

2017年11月微信正式推出微信智聆,这是微信AI团队基于深度学习理论自研的语音识别技术。为此腾讯准备了五年,在腾讯产品线微信、QQ、游戏、搜索等数十个产品中逐步应用。除了微信端,这一技术还在腾讯的其他产品线发挥了效用,包括腾讯翻译君、王者荣耀。腾讯表示这是目前业界领先的通用语音识别技术。

在1月15日的微信公开课PRO版之后,大数据文摘记者和微信智聆团队聊了聊语音识别技术。

大数据文摘:语音识别是感知技术这一类里面前沿的技术,许多人看待这个技术的时候觉得语音识别似乎已经被解决了,微信智聆如何看待现阶段语音识别技术存在的问题和机遇?

微信智聆:语音识别并不是已经解决的问题,语音识别的最终目标是任何人,在任何环境,用任何风格,无论大声还是小声,无论是正式还是随意,说任何领域的话,都可以被准确地识别出来才算。然而,这个目标目前并没有做到。目前业内比较普遍、成熟的还是环境基本安静、偏朗读方式的语音,这种情况下可达到较高的识别率,基本达到实用。但是,在碰到以下情况的时候,解决得还不够好:

(1) 环境嘈杂

(2) 远距离

(3) 重口音或纯方言

(4) 口语现象,说的很快,很随意

(5) 领域很相关,比如涉及到某个专业领域大量专有名词。

技术困难既是机会,更是语音识别赋能社会的机遇。在解决这些问题后,语音识别可走入千家万户与千行万业,真正成为提升社会效率的一个有力工具。

大数据文摘:近年来,语音识别技术取得了长足的进步,微信智聆的核心技术在哪里?

微信智聆:我们采用了深度学习神经网络LDNN结构,在解码空间,我们使用了大量数据训练的语言模型来尽可能覆盖更多的语言现象,同时使用了GPU进行推理,大大提升了效率。

大数据文摘:尽管采用了深度学习的技术,但语音识别技术仍然避免不了错误,而开发者的任务就是使得它能够像人一样,在有错误的时候去进行人机交互,修正错误,这需要感知技术和认知技术相互的帮助来实现。请问微信智聆如何用这两种技术相互帮助的?

微信智聆:目前更多的是通过统计模型在语音识别结果上做一些文本顺滑类的工作,尽可能去保证句子的主干是识别正确的。

大数据文摘微信智聆语音的数据有什么样的特色?

微信智聆:微信智聆从网络爬取公开数据、从正规渠道购买合法的第三方数据,以及请人来录制生成数据。同时,我们关注数据的覆盖度,包括人群年龄覆盖度(从儿童到老人),噪声场景覆盖度(马路,商场等环境),语言领域覆盖度,口音覆盖度(南北各主要城市口音),中式英文覆盖度(中国人中英混合语言现象)。

大数据文摘:语音数据没有人工标注很难用于算法和模型的训练。我们怎么处理这个难点?

微信智聆:目前基本我们采用的是有监督学习的方法,也就是说,数据都是有标注结果的。我们也在尝试一些半监督的方式,比如使用包含字幕的视频文件提取音频来自动训练,以及一些无监督说话人自适应的方法,这也是我们未来的一些规划。

大数据文摘:曾经有过统计,整个语音识别会分成搜索的速度和做神经网络前向传递的速度,这两个速度的比例,在传统系统里面前向传递的速度约占30%-40%,在各种各样的语言空间搜索的速度大体占60%-70%。据此,微信智聆在技术上如何突破速度的问题?

微信智聆:微信智聆采用的是静态解码网络结构,前向传递在运算过程中占比较大,70%-80%,因此我们采用了CPU和GPU异构计算,将大头运算量放到GPU上完成,可显著提升效率。

【今日机器学习概念】

Have a Great Definition

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2018-01-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器人网

机器人抓取的前世今生

最近两天参观了华为的自动化工厂,了解到机器人抓取在工业中的应用以及未来的前景,备受鼓舞。作为一个搞机器人抓取(grasping)接近八年的老“grasper”...

35280
来自专栏AI科技评论

对大脑的逆向工程是不是走向强AI的唯一出路?

GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,谷歌,DeepMind,Uber,微软等巨头的人...

319100
来自专栏专知

【重磅】美国人工智能前沿峰会日程预告:吴恩达、田渊栋、任小枫等25位AI专家分享最新成果

【导读】人工智能前沿峰会( AI Frontiers)将在美国圣塔克拉拉会议中心11月3号到5号举行。这次大会邀请来自谷歌、Facebook、微软和亚马逊等人工...

43640
来自专栏企鹅号快讯

AI能解决实际问题吗?

来源|FT中文网 不,你的计算机不会很快抢走你的工作。但是,在挑战它玩棋盘游戏之前,你应该三思——即使是它以前没有玩过的。看到最顶级的人类玩家输给机器不是新鲜事...

20280
来自专栏前沿技墅

颜值女数据科学家妙解年薪10w刀北美热门职业

67830
来自专栏量子位

他曾是百度最高奖得主,滴滴首席算法,现在要开一家AI语音超市

先是Google I/O大会上一声“嗯哼”震惊了人类世界,然后微软小冰为知乎写歌唱歌又刷了一波屏。

12320
来自专栏人工智能头条

专访阿里研究员袁全:从 AI 玩《星际争霸》谈认知智能的现状与趋势

14030
来自专栏数据猿

数据猿探访最“Cool”大数据公司—— 百分点:让数据变得有想象力

<数据猿导读> 百分点作为Gartner近期发布的 “Gartner 2016 Cool Vendors in China”报告中唯一当选的大数据技术与应用服务...

31890
来自专栏大数据文摘

俞栋任职腾讯AI Lab并负责西雅图AI实验室,专注语音识别和NLP的基础研究

30490
来自专栏祝威廉

如何评估你的创业点子

这几年互联网大潮,尤其是移动互联网的崛起和发展给我的冲击非常大,这期间看到了很多公司的起起落落,在周边也接触到了或多或少的创业公司,之前自己也有参与创业,一直对...

8720

扫码关注云+社区

领取腾讯云代金券