ACL 2016：基于深度学习的 NLP 看点

新智元

发布于 2018-03-26 17:25:11

1.4K0

发布于 2018-03-26 17:25:11

文章被收录于专栏：新智元

【新智元导读】计算语言领域顶级会议ACL2016今天公布了10篇优秀论文（outstanding paper）名单。本文介绍 ACL 2016 概况，同时收录清华大学计算机科学与技术系助理研究员刘知远在知乎的回答“基于深度学习的自然语言处理在 2016 年有哪些值得期待的发展？”

今天，计算语言领域顶级会议 Annual Meeting of the Association for Computational Linguistics（ACL）组委会公布了 10 篇被评为 Outstanding Paper 的论文名单（后文有详细介绍并附下载）。

尽管距离开幕还有一段时间，但社交网络上的讨论一直处于预热之中。特别是在上述名单公布以后，Twitter 上相互祝贺的消息便没有断过。既如此，我们就来提前来感受一下 ACL 2016。

ACL 今年是第 54 届了，会议将于 8 月 7 日到 12 日在德国柏林的洪堡大学召开。用主办方的话形容，会场“本身就是一处历史名胜”：毗邻马克西姆·高尔基剧院、德国国家歌剧院，步行10分钟可达勃兰登堡门（地位类似凯旋门）。

第54届ACL将在8月7到12号在德国洪堡大学召开

本届会议共接收论文 327 篇，其中长文 230 篇，短文 97 篇。System demo 28 场。

据新智元统计，在接收的 327 篇论文中，第一作者为华人的约有一半。也就是说，继此前 CVPR、IJCAI 等会议之后，华人作者在 ACL 2016持续表现强劲。

去年 7 月，ACL 2015在中国北京召开，当时刷新了 ACL 投稿数量的纪录，相比 2014 年增加了 17%。ACL 2015 共吸引 692 篇长文投稿，其中 173 篇被接收（录用率 25%），648 篇短文投稿，其中 144 篇被接收（录用率 22.2%）。

对比去年的数据，今年会议接收的长文数量明显增加。其中，斯坦福大学 NLP 研究组今年的表现十分抢眼，一共有 8 篇论文被接收，包括 6 篇长文，1 篇短文以及在 system demo 发表的论文一篇。同时，据不完全统计，微软亚洲研究院 ACL2016 接收论文也至少有 7 篇（请以后续官方发布统计数字为准）。

ACL 2015 吸引了来自学术界和国内外知名企业的1200多名专家和学者。本届会议尚未召开，但从 ACL2016 官方 Twitter 发布的信息可知，本次会议参会人数应该是超出预期：

主办方十分高兴地宣布，他们成功在会议注册截止日期前与额外几家宾馆取得联系，可以安排住宿。

ACL 2016 由 Radboud University Nijmegen 的 Antal van den Bosch 担任大会主席。中科院研究员赵军是Workshop的co-Chairs 之一。在三位 Publication Chair 中，有一位是上海交通大学的副教授赵海。同样，清华大学的副教授刘洋也是三位 Faculty Advisors to the Student Research Workshop里的一个。如果不计算 Local committee，在 19 名 chair 中有 3 名是中国大陆学者。

本届大会共邀请了两名学者发表演讲，分别是UC Davis 的 Amber Boydstun 和爱丁堡大学的 Mark Steedman。其中，Amber Boydstun 的专攻是政治科学，关注世人的“attention”，两位学者分别会发表怎样的演讲，值得寻味。

此外，在本届会议预定举办的 15 个 workshop 中，历时最长的已经是第 15 次召开，也有首次出现的新面孔，其中尤其值得注意的是第一届 Representation Learning for NLP workshop，赞助方是谷歌 DeepMind、Facebook 和微软。其次，首次举办的机器翻译 workshop，是建立在此前统计机器翻译workshop基础之上，也是唯一连续两天都会举办的workshop。

刘知远：2016 年基于深度学习的NLP 有哪些值得期待？

不论是从接收论文列表，还是从 outstanding paper 的题目看，本次会议的讨论将十分有趣（继续见文末）。以下是清华大学计算机科学与技术系助理研究员刘知远，在知乎对“基于深度学习的自然语言处理在 2016 年有哪些值得期待的发展？”问题的回答（已取得授权，原文链接：https://www.zhihu.com/question/40489869）。

本文最后编辑于 2016年5月4日，刘老师也在文末注明，如果有新的想法，会不断补充。

从2013年的word2vec开始，自然语言处理领域引爆了深度学习这个热点，至今有2年多了。在我看来，2014年的热点是各种新颖的词表示学习方法，而2015年则开始扩展到句子层次，CNN、RNN、LSTM等模型轮番上阵，在机器翻译、文档摘要、阅读理解、关系抽取等任务上取得了重要进展。进入2016年，3月份DeepMind推出的AlphaGo在今年3月大胜李世乭，更是把深度学习的热度推向新的高潮。

2016年已经快过去一半，在这里猜测2016年NLP深度学习技术的发展趋势，也许并没有太大难度，我认为主要有以下几个：

深度学习模型在更多NLP任务上的定制化应用。例如将过去统计机器翻译的成熟成果迁移到神经网络模型上，基于深度学习的情感分析，再例如今年NAACL 2016的最佳论文Feuding Families and Former Friends; Unsupervised Learning for Dynamic Fictional Relationships也利用神经网络模型检测小说中的人物关系。
带有隐变量的神经网络模型。很多NLP任务传统主要基于HMM、CRF方法对标注标签的关联关系建模，而单纯的神经网络模型并不具备这个能力，因此一个重要热点将是在神经网络模型中引入隐变量，增强神经网络的建模能力。
注意力（attention）机制的广泛应用。大量工作已经证明attention机制在文本产生中的重要性，也是继CNN->RNN->LSTM之后的新的论文增长点，相信在2016年会有大量论文提出各种带有attention的神经网络模型。

以上是对2016年发展趋势的估计，也许等ACL、EMNLP和COLING一轮下来就能明了了。然而我想对未来更长一段时间的发展做一点思考。复旦大学邱锡鹏老师已经在他的回答中开了很多脑洞，很多观点很有启发。作为补充和争鸣，这里我也想讲讲我自己的想法。

如何将先验知识引入分布式表示

分布式表示（distributed representation）是深度学习的重要特点；避免特征工程的端对端（End-to-End）框架则是深度学习在NLP的独特优势。然而，现实世界中我们拥有大量人工标注的语言知识库和世界知识库，如何在深度学习框架中引入这些先验知识，是未来的重要挑战性问题，也是极大拓展深度学习能力的重要途径。在这个方面，有很多颇有创见的探索工作，例如来自中国香港华为Noah实验室Zhengdong Lu团队的Neural Enquirer: Learning to Query Tables [1]，等等。此外，我认为基于深度学习的attention机制也是引入先验知识的重要可能手段。机器学习领域还提供了很多其他可能的手段，等待我们去探索。

探索人类举一反三能力的One-Shot Learning

如2015年在Science发表的轰动论文[2]所述，人类学习机制与目前深度学习的显著差异在于，深度学习利用需要借助大量训练数据才能实现其强大威力，而人类却能仅通过有限样例就能学习到新的概念和类别，这种举一反三的学习机制，是机器学习也是自然语言处理梦寐以求的能力。这需要我们特别关注认知领域的相关进展[3, 4]，机器学习领域也在热切探索one-shot learning任务。在NLP领域，如何应对新词、新短语、新知识、新用法、新类别，都将与该能力密切相关。

从文本理解到文本生成的飞跃

目前取得重要成果的NLP任务大多在文本理解范畴，如文本分类，情感分类，机器翻译，文档摘要，阅读理解等。这些任务大多是对已有文本的“消费”。自然语言处理的飞跃，需要实现从“消费”到“生产”的飞跃，即探索如何由智能机器自动产生新的有用文本。虽然现在有媒体宣称实现了新闻的自动生成，但从技术上并无太多高深之处，更多是给定数据后，对既有新闻模板的自动填充，无论是从可扩展性还是智能性而言，都乏善可陈。我认为，自然语言处理即将面临的一个飞跃，就是智能机器可以汇总和归纳给定数据和信息，自动产生符合相关标准的文本，例如新闻、专利、百科词条[5]、论文的自动生成，以及智能人机对话系统等等。毫无疑问，这个技术飞跃带来的应用拥有无限的想象空间。

大规模知识图谱的构建与应用

“知识图谱”是谷歌推出的产品名，现在已经成为对大规模知识库的通用说法。如果说深度学习是机器大脑的学习机制，那么知识图谱可以看做机器大脑的知识库。知识图谱是问答系统的重要信息来源，也是阅读理解、机器翻译、文档摘要等任务进一步发展的重要支撑。目前，知识图谱从构建到应用都仍有很多问题亟待解决，例如新概念、新知识的自动学习，如何基于知识图谱实现智能推理，等等。在这方面，我一直关注知识的分布式表示学习，能够建立统一的语义表示空间，有效解决大规模知识图谱的数据稀疏问题，有望在知识获取、融合和推理方面发挥重要作用[6]。

以上是我最近对NLP深度学习技术发展的一些思考，限于个人视野难免以偏概全，主要希望起到抛砖引玉的功用，请大家批评指正。

参考文献

[1] Yin, Pengcheng, et al. "Neural Enquirer: Learning to Query Tables." arXiv preprint arXiv:1512.00965 (2015).

[2] Lake, Brenden M., Ruslan Salakhutdinov, and Joshua B. Tenenbaum. "Human-level concept learning through probabilistic program induction." Science 350.6266 (2015): 1332-1338.

[3] Tenenbaum, Joshua B., et al. "How to grow a mind: Statistics, structure, and abstraction." science 331.6022 (2011): 1279-1285.

[4] Vul, Edward, et al. "One and done? Optimal decisions from very few samples." Cognitive science 38.4 (2014): 599-637.

[5] Sauper, Christina, and Regina Barzilay. "Automatically generating wikipedia articles: A structure-aware approach." Proceedings of ACL-IJCNLP, 2009.

[6] 刘知远, 孙茂松, 林衍凯, 谢若冰. 知识表示学习研究进展. 计算机研究与发展, 2016.

ACL 2016 10 篇 outstanding 论文

在8月10日，会议将分别将在上午和下午的 session 中展示10篇本届 ACL 最佳论文。以下是论文列表：

A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task

Danqi Chen, Jason Bolton and Christopher D. Manning

Learning Language Games through Interaction

Sida I. Wang, Percy Liang and Christopher D. Manning

Finding Non-Arbitrary Form-Meaning Systematicity Using String-Metric Learning for Kernel Regression（缺）

E.Dario Gutierrez, Roger Levy and Benjamin Bergen

Improving Hypernymy Detection with an Integrated Path-based and Distributional Method

Vered Shwartz, Yoav Goldberg and Ido Dagan

Integrating Distributional Lexical Contrast into Word Embeddings for Antonym-Synonym Distinction

Kim Anh Nguyen, Sabine Schulte im Walde and Ngoc Thang Vu

Multimodal Pivots for Image Caption Translation

Julian Hitschler, Shigehiko Schamoni and Stefan Riezler

Harnessing Deep Neural Networks with Logic Rules

Zhiting Hu, Xuezhe Ma, Zhengzhong Liu, Eduard Hovy and Eric Xing

Case and Cause in Icelandic: Reconstructing Causal Networks of Cascaded Language Changes（缺）

Fermin Moscoso del Prado Martin and Christian Brendel

On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems

Pei-Hao Su, Milica Gasic, Nikola Mrkšić, Lina M. Rojas Barahona, Stefan Ultes, David Vandyke, Tsung-Hsien Wen and Steve Young

Globally Normalized Transition-Based Neural Networks

Daniel Andor, Chris Alberti, David Weiss, Aliaksei Severyn, Alessandro Presta, Kuzman Ganchev, Slav Petrov and Michael Collins

***

ACL 2015 的最佳论文分别授予慕尼黑大学的 AutoExtend: Extending Word Embeddings to Embeddings for Synsets and Lexemes，与都柏林大学圣三一学院的 Improving Evaluation of Machine Translation Quality Estimation。本届最佳论文会什么，请关注新智元后续报道。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-07-20，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习