阿里iDST鄢志杰:深度学习不可一味强调大数据、大模型、大计算

12月10-12日, 2015中国大数据技术大会 将在北京召开。会议前夕,我们特采访了本次会议的深度学习分论坛演讲嘉宾阿里巴巴iDST语音组高级专家鄢志杰,以期对其从事工作和演讲内容有进一步的了解。

鄢志杰将在12月11日下午的深度学习分论坛进行题为“Deep Learning 助力客服小二:数据技术及机器学习在客服中心的应用”的主题演讲,分享基于DNN、CNN、RNN(LSTM)及其各种组合模型的语音识别、自然语言处理技术在客服领域的应用。

鄢志杰在接受采访时表示,他的分享内容将包括Deep Learning 判断小二对问题定位的一致性、采用Deep Learning自动识别用户问题等,iDST在数据技术及机器学习方面的尝试,已经在阿里巴巴集团及蚂蚁金服助力客服小二,向客服机器人的引入迈出了第一步。不过,他认为,客服机器人不是要取代人工,而是要学习人、帮助人。比如阿里巴巴客服中心的很多Machine Learning的工作,都是去学习客服小二是如何服务的,没有客服小二,学习无从入手。

谈到深度学习的挑战,鄢志杰表示,近年来在DL领域不管三七二十一加数据、加运算能力、增加模型规模的brute-force方法从某种意义上讲是相当成功的。DL在Feature Engineering上的成功也带来了似乎不需要再关注问题本身、不需要任何Domain Knowledge,只需要把Raw Feature扔进Deep Model训练一下就能打败历史上所有模型的假象——这恰恰只是说明了我们很多人对DL的理解还比较肤浅。他认为,DL目前的挑战之一就是需要重新去严肃的思考我们要解的问题、了解我们的模型、分析我们的数据,而不是一味的强调“大数据”、“大模型”、“大计算”。

此外,对于机器学习开源工具的选择,鄢志杰认为,工具就是工具,不必抱有“宗教信仰”,比较合适的态度也许是更关注你要解的问题,基于问题来选择工具。

鄢志杰

阿里巴巴iDST语音组高级专家

鄢志杰,阿里巴巴 iDST(Institute of Data Science and Technologies)语音组高级专家。在加入阿里巴巴前,就职于微软亚洲研究院,任语音组主管研究员。毕业于中国科学技术大学讯飞语音实验室,获博士学位。研究领域主要包括语音识别、语音合成、说话人识别验证、OCR/ 手写识别、机器学习算法等。在语音及文本识别领域顶级学术期刊及会议发表多篇论文,长期担任语音领域顶级学术会议及期刊的专家评审,并拥有多项美国及PCT专利,目前是 IEEE senior member。其研究成果被转化并应用于微软公司及阿里巴巴集团的多项产品中。

以下为鄢志杰采访实录:

CSDN:请介绍一下您自己以及当前的主要工作。

鄢志杰:我主要在阿里云iDST负责语音技术方面的工作,为集团和蚂蚁金服各个业务部门,以及外部客户提供各种与语音有关的服务,包括语音识别、语音合成、说话人识别/验证、对话系统等。由于语音领域是Deep Learning的最重要的试金石之一,我们也应用各种机器学习算法到更广泛的领域,如客服问题定位等等当中去。

CSDN:在您的语音识别工作中采用了哪些DL模型?从这些模型在标准数据集上实现的精度,到实现在淘宝客服的实际应用,还需要做哪些方面的工作?

鄢志杰:语音识别领域是DL最重要的应用领域之一,很多DL算法都首先在语音识别上得到实践。因此,我们所采用的DL模型也较多,包括DNN、CNN、RNN(LSTM)及其各种组合。当前语音识别研究的重心早已从学术界向工业界倾斜,因此通常所说的标准数据集一般规模较小,主要是为快速验证算法来使用。像客服语音识别这样的实际应用场景,还需要做以下几个方面的工作:

  1. 沉淀数据,构造feedback loop,即能够形成数据的闭环,将线上实际数据很快应用到模型迭代更新中去;
  2. 提高模型训练的周转率,降低训练时间,通过大规模并行计算实现高速DL模型训练;
  3. 构造高水平的云端线上服务,包括高效的解码器、自动部署、运维等等。

CSDN:您的工作也涉及到文本分析,如何看待DL在文本分析领域的进展和前景?

鄢志杰:DL在文本领域有非常令人兴奋的进展。从早前的“看图说话”、“sequence-to-sequence翻译、语言生成”,到最近的“看图回答问题”等等,DL在文本上的应用正向纵深发展,应该说前景是很广阔的。我们自己也在这方面有一些工作,包括客服问题聚类、分类、对话理解、语言生成等。

CSDN:基于数据技术和ML,您认为客服机器人技术将能够取代多少的人工工作?时间节点如何?

鄢志杰:我个人有一个理念,就是永远不去取代人工,而是让客服机器人去学习人、帮助人。就像我们在客服中心的很多Machine Learning的工作,都是去学习客服小二是如何服务的,没有客服小二,学习无从入手。例如,我们会将客服小二的真实IVR服务进行语音识别,从沉淀下来的数据中去做Machine Learning,去做各种后续的工作。我认为客服机器人的价值在于可以减少人工,让客服中心可以随公司业务智能的扩展,而不是一味扩大人的规模,使得服务质量无法保证。

CSDN:当前的开源DL工具越来越多,您尝试过哪些工具?最喜欢什么样的工具?最终选择的标准是什么?

鄢志杰:我们拥抱开源。开源的、得到大家认可而发展起来的东西肯定是好东西。在语音领域目前最活跃的开源工具是Kaldi,是微软的前同事Povey从几年前开始一步步做起来、逐渐变得流行的。我们也是通过改造Kaldi来搭建我们系统的某些环节的,改造的工作一方面是使之适应工业界需求(如大规模的GPU多机多卡训练)、一方面是基于它的codebase来快速的做创新性研究。我认为工具就是工具,不必抱有“宗教信仰”,比较合适的态度也许是更关注你要解的问题,基于问题来选择工具。这也正是我们开发GPU多机多卡 Machine Learning Middleware的原因。这个Middleware的功能就是把各种各样的开源DL训练工具通过很少的修改,就变成可以利用多机多卡的大规模并行化训练工具。这样一来,我们就可以迅速消化、吸收,并改造层出不穷的新的DL开源工具。

CSDN:DL的领军人物Yann LeCun曾经多次谈到DL的挑战,如推理机制、无监督学习等等,您如何看待DL的挑战?

鄢志杰:DL近年来发展得太快了,也太热了。有一些brute-force的研究方法太过成功,容易给人造成误导。传统的机器学习讲究对问题的分析、对数据本身的理解、“Occam's razor”是研究者乐于奉行的原则。我们看到近年来在DL领域,不管三七二十一加数据、加运算能力、增加模型规模的brute-force方法从某种意义上讲是相当成功的。DL在Feature Engineering上的成功也带来了似乎不需要再关注问题本身、不需要任何Domain Knowledge,只需要把Raw Feature扔进Deep Model训练一下就能打败历史上所有模型的假象。我个人认为这恰恰只是说明了我们很多人对DL的理解还比较肤浅。多年后回过头来看,也许会发现,现在的我们只不过是正处在DL野蛮发展的初级阶段而已。

在我所在的语音领域,现在要找一个篇非DL的论文已经很难了。今年开InterSpeech国际会议的时候,声学所一名同学做Oral Presentation,一上台就说今天我全篇没有DL,没想到赢得台下一片掌声。我觉得DL目前的挑战之一就是需要重新去严肃的思考我们要解的问题、了解我们的模型、分析我们的数据,而不是一味的强调“大数据”、“大模型”、“大计算”。

CSDN:您对目前的DL硬件系统的满意度如何?对于DL的硬件平台的发展,您有什么期待?

鄢志杰:很乐于看到Intel找到了一个不同以往的对手NVIDIA,此外也看到DL在其它一些硬件(如FPGA等)上的发展。因为DL的推动,硬件在这方面的运算能力、通讯能力近年来都得到了很大的进步,期待硬件厂商给我们更强大的支撑。

CSDN:请谈谈您在这次大会上即将分享的话题。

鄢志杰:我会介绍数据技术、Machine Learning在阿里巴巴集团和蚂蚁金服客服系统中的好几个很接地气的应用。我们通过自动语音识别将IVR系统的客服对话数据全部转换成文本,这些文本可以用于客服质检、用于提升客服小二对问题解答的一致性,还可以让机器学习客服人员是如何一步步定位用户的问题,并做出解答的。客服本来是一个非常传统的领域,对客服系统刻板的印象就是人海战术、手写规则等等。但由于机器学习的加入,这个领域正发生奇妙的变化。新一代的客服背后站着的是数据科学家,现在讲的都是Data-driven、Deep Learning等等。这些尝试应该说只是一个开始,是我们后续通向机器人客服的必由之路。

CSDN:哪些听众最应该了解您所分享的主题?这些话题可以帮助听众解决哪些问题?

鄢志杰:一些对语音识别、文本分析、自然语言处理等DL话题感兴趣的听众应该会想来听听。我希望给大家一些全新的角度——原来DL还可以帮助客服这样的传统领域。

CSDN:您最希望在BDTC上听到什么样的分享话题?

鄢志杰:最新的来自Machine Learning Community的声音,以及DL的一些落地。

原文发布于微信公众号 - 人工智能头条(AI_Thinker)

原文发表时间:2015-12-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能快报

人工智能算法被用于分析LHC数据

如果粒子物理学家与人工智能研究人员各自独立开展工作,那么下一代粒子对撞机实验将需要采用一些世界上最先进的思维机器。这些机器应能基于少量的信息发现更多信息。在瑞士...

37513
来自专栏AI科技评论

周刊|MXNet爆红,大神Yann LeCun和吴恩达最新演讲

美国时间 11 月 22 日,亚马逊 CTO Werner Vogels 在博文中写到 MXNet 被 AWS 正式选择成为其云计算的官方深度学习平台。 MXN...

3804
来自专栏AI科技评论

四位顶级AI大牛纵论:深度学习和大数据结合的红利还能持续多久?

AI科技评论按:这轮 AI 热潮的很大一个特点就是底层技术方面在打通,虽然说过去对通用人工智能大家曾经有过很高的期望,但一直没有落地。这次,深度学习给大家带来了...

3909
来自专栏AI科技大本营的专栏

帮AI摆脱“智障”之名,NLP这条路还有多远?

自然语言处理(NLP)是人工智能(AI)的一个分支,其目标是让计算机能够像人类一样理解、处理和生成自然语言。自然语言,又称人类语言,一般以文字或文本的形式存在于...

1442
来自专栏新智元

【重磅】谷歌大脑官方年度报告:TensorFlow、机器学习、自然语言处理(27 篇顶会论文)

【新智元导读】谷歌大脑负责人 Jeff Dean 今天在谷歌博客刊文,从论文发表、TensorFlow 到推广机器学习,全面总结团队 2016 年的工作,并分享...

29210
来自专栏深度学习自然语言处理

一文了解机器学习以及其相关领域(下)

阅读大概需要5分钟 原文作者 计算机的潜意识 链接 https://www.cnblogs.com/subconscious/p/4107357.html 继...

2845
来自专栏AI科技大本营的专栏

TensorFlow可以做什么?让Google Brain首席工程师告诉你

编辑 | 明明 1月19日,在极客公园创新者大会IF2018的现场,Google Brain首席工程师陈智峰发表题为:《找答案从定义问题开始 ——TensorF...

4235
来自专栏机器之心

Science组织了一场尖锐的Reddit问答,Yann LeCun的回答还是那么耿直

35713
来自专栏云加头条

王之捷:AI智能云端架构大幅提升智能语音识别能力

腾讯云AI业务架构师王之捷分享了腾讯云在人工智能、尤其在智能云方面的最新进展,以及如何将这些能力应用到工作当中。 [1506418627111_7828_150...

5956
来自专栏新智元

【干货】杨强:从机器学习到迁移学习 | GAITC 演讲(附PPT)

【新智元导读】杨强教授认为,DeepMind把端到端的深度学习应用在强化学习上,使得强化学习能够应付大数据,因此能在围棋上把人类完全击倒,它做到这样是通过完全的...

33110

扫码关注云+社区

领取腾讯云代金券