前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >俞栋任职腾讯AI Lab并负责西雅图AI实验室,专注语音识别和NLP的基础研究

俞栋任职腾讯AI Lab并负责西雅图AI实验室,专注语音识别和NLP的基础研究

作者头像
大数据文摘
发布2018-05-21 18:03:59
1K0
发布2018-05-21 18:03:59
举报
文章被收录于专栏:大数据文摘

5月2日,腾讯宣布任命语音识别技术顶级专家俞栋博士为AI Lab(人工智能实验室)副主任,并成立美国西雅图AI实验室。俞栋将负责西雅图AI实验室的运营及管理,推动腾讯在语音识别及自然语言理解等AI领域的基础研究。

这是近段时间以来,腾讯在人工智能领域的第三个大动作。

一个多月前的3月19日,由腾讯AI Lab研发的围棋AI绝艺,在日本UEC杯围棋大赛中夺得冠军。这是低调运行近一年后,腾讯AI Lab首次对外展示研究成果。

在绝艺夺冠后不久,3月23日,腾讯宣布任命人工智能领域顶尖科学家张潼博士担任腾讯AI Lab(腾讯人工智能实验室)主任。

腾讯AI Lab副主任及西雅图人工智能实验负责人俞栋博

“俞栋博士是语音识别与深度学习领域的专家。我们很高兴能邀请到俞博士加入腾讯AI Lab,相信他的到来将极大提升腾讯AI的技术实力。” 腾讯AI Lab主任张潼博士表示,“我们希望腾讯AI Lab不仅是一个实验室,还是一个连接器,通过将全球的优秀人才连接在一起,不断推动AI的基础研究及在更多场景的应用落地,让AI无处不在。”

俞栋博士表示:“我很高兴能加入腾讯AI Lab。在过去十多年里,腾讯积累了丰富的应用场景、海量数据、强大的计算能力和一流的科技人才,这些都是开展AI深度研究与应用的重要基础,也是吸引全球人才的重要原因。我相信,随着西雅图AI实验室的成立,未来将会有更多的一流人才加入腾讯AI Lab,共同推动全球AI技术的发展。”

俞栋:团队将主攻远场语音识别以及自然语言理解两个方向

俞栋博士是首次将深度学习技术应用在语音识别领域的研究领头人之一,该应用极大推动了语音识别的技术发展。俞栋博士在该领域出版了两本专著并发表过大量论文,也是60项专利的发明人及深度学习开源软件CNTK的发起人和主要作者之一。加入腾讯前,他曾担任美国微软研究院语音和对话组(Speech and Dialog Group)首席研究员,并兼任浙江大学兼职教授、中科大客座教授及上海交通大学客座研究员。俞栋博士曾获 2013 年和2016年 IEEE信号处理协会最佳论文奖,现任 IEEE 语音语言处理专业委员会委员,曾任 IEEE/ACM 音频、语音及语言处理汇刊、IEEE 信号处理杂志等期刊的编委。俞栋博士有中国浙江大学电子工程学士学位、美国印第安纳大学计算机硕士学位、中国科学院自动化所模式识别与智能控制硕士学位及美国爱达荷大学计算机博士学位。

作为语音领域最重要的两个国际会议之一(另一个为ICASSP),每年的Interspeech都会吸引来自学术界和工业界的从业人员参加,在大会上围绕语音领域的最新技术和研究方向进行交流。

大会进行到第二天,一篇名为《Conversational Speech Transcription Using Context-Dependent Deep Neural Networks》(使用上下文相关深层神经网络进行交谈语音转写)的论文发表,并迅速引起了科研界的高度重视。

论文提出了基于人工神经网络的语音识别新方法,实验结果显示,新方法大幅降低了语音识别的错误率。这意味着,曾于20世纪80年代末掀起热潮并最终沉寂下去的人工神经网络被再次引入语音识别研究领域,开启了语音识别的深度学习时代。

俞栋正是这一成果的主要研究人员。

回想起当时的情景,俞栋仍颇有感慨:“这项工作(将深度学习的方法引入语音识别领域)一开始受到很多怀疑,很多同事或者朋友都经历过80年代末90年代初,神经网络从高潮跌落到低潮的过程,所以他们都对此有一定的怀疑。”

但俞栋及其团队开辟的新方法用实际成果回应了质疑,“基本上两年之内,很多公司重复了我们的工作,发现确实对识别率有很大帮助,很快变成行业标准。但在我们这项工作之前,这类论文发表其实有一定困难,但是两年之后,变成没用深度学习技术就很难发文章了,反过来了。”

深度学习的钥匙打开了语音识别研究的新大门,进入深度学习时代后,语音识别也在不断取得突破。

2016年9 月中旬,微软报告了在语音识别方面取得的新里程碑:在Switchboard这一电话交谈基准测试集上新系统的识别词错率降至 6.3%;一个月后,微软又公布了在这一基准测试集上成功实现了历史性突破:他们的语音识别系统词错率(WER)和专业转录员相当甚至更低,达到5.9%。

数据背后的意义是,语音识别的识别率在近场上已经可以做到超过实用的门槛,在很多应用场景里可以应用。比如微信里面的语音转文字、语音输入法以及各类APP的语音输入框等。

在实际应用层面,语音输入已经成为许多APP必备的一项功能;但在研究层面,语音识别仍有许多留待攻克的难点。

俞栋介绍,当下更困难环境下比如远场、高噪音、或带口音的语音识别是仍需解决的问题;自适应方法(adaptation)也是重要的研究方向。

身处语音领域最前沿,俞栋的研究重点在往更深的层次走。而在加入腾讯AI Lab之后,俞栋也将带领团队主攻远场语音识别以及自然语言理解两个方向。

美国西雅图AI实验室:侧重语音识别和NLP的基础和前沿研究工作

2016年4月,腾讯成立AI Lab(腾讯人工智能实验室),致力于人工智能基础科学的开放研究, 目前实验室有50余位世界知名学院的AI科学家(90%为博士)、及200多位经验丰富的工程师进行基础研究与应用探索。

AI Lab聚焦四大领域的基础研究,包括:计算机视觉、语音识别、自然语言处理与机器学习,力求全面覆盖,并深层次拓展AI的前沿技术能力。同时发展AI在具有腾讯特色的四大业务场景中的应用能力:内容 AI、社交AI、游戏AI和平台工具AI。

腾讯AI Lab研究方向

俞栋介绍,在腾讯AI Lab的研究体系中,美国西雅图AI实验室将承担一些语音识别和NLP的基础和前沿研究工作,并试图解决这些领域更困难的问题,位于深圳的AI Lab则将继续基础研究+快速应用的结合,把在四大领域的研究和技术比较快的应用到实际场景中。

简单来说可以概括为,西雅图实验室专注于基础研究,深圳总部的团队还需兼顾应用研究。但实际上在基础研究和应用研究之间没有非常严格的界限,有时很难说清楚一个东西是属于基础还是应用,比如基础研究团队如果把某一项技术里的关键问题直接解决,那么它就可以立刻应用到产品里面,但这些问题一般来说会比较难,因此很难预测它什么时候能解决。

由此,西雅图实验室进展的确定性没有那么强,这意味着需要投入更多耐心,需要激发更多新颖的想法和算法。

在语音识别做了二十多年研究的俞栋深刻了解做基础研究需要的耐心和投入,而在与腾讯方面进行了多次沟通后,在长期耐心投入研究上内部也形成了共识。

“如果要在技术研究上取得突破,确实需要有一定耐心,相对来说长期稳定的投入,西雅图这边基本上秉持这样的理念。我们希望长远来讲,能够创新性地攻克关键的、主要的技术难题,在真实应用场景里有很大的性能提升。但是因为我们没有办法预测到底哪天能成功,我们希望在每一个阶段都会有一些进步,这是我们唯一可以定义的一些进步,但是这个进步会有多大,也是没有办法比较明确说出来的。” 俞栋回答。

但在语音识别研究与腾讯业务可能的结合点上,俞栋的判断非常乐观:物联网、游戏、微信、QQ等,都有很多业务场景用到语音识别,而语义理解与腾讯社交应用的关系会更大。

如今西雅图实验室刚刚成立,作为实验室负责人,俞栋当前的主要工作是招揽人才搭建团队。

俞栋希望能建立一个20人左右的团队,招徕有一定研究能力的人才,“研究人员能力和潜力两个部分我们都会注意,现在在通过各种渠道去发现合适的人才来加入。”

接下来,俞栋就要带领更偏向于研究、更接近于美国大公司研究院性质的西雅图实验室在语音识别和语义理解研究上继续探索了。这是一项需要长期坚定投入的工作,但已经做了二十多年研究的俞栋以及腾讯已经有了充分准备。

“我们有耐心。”

——素材部分来自腾讯科技

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-05-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档