ACL 2018:Attention 机制占主流,中文语法检错测评引关注

为期六天的 ACL 于上周在墨尔本会展中心落下帷幕,在这六天时间内,共计八场 tutorial,三百多篇论文展示,十五场 workshop,涉及机器翻译、机器学习、问答系统、信息提取、语义分析等多个方向的研究。毫无疑问,这是一场 NLP 领域的年度盛会。

今年的观众群体一如往昔,从学界的教授、学生,到业界的各类研究人员。虽然角色不一,但对于大部分人来说,参会的目的大同小异:听取会上各式各样的报告,了解学术圈和工业界中一些比较前沿的技术和方向,认识业内人士,展开进一步交流和探讨。

雷锋网此次 ACL 之行采访到腾讯 SNG 数据中心总监刘黎春以及该中心知文团队技术负责人钟黎。作为第一次参加 ACL 的「新人」,刘黎春对 AI 科技评论描述了他的参会体验。

作为腾讯参会代表之一,他在主会这几天,一直忙于与参会学生进行联系与交流。他表示,此行 ACL 的目的一方面是了解学术界和工业界的前沿技术动向,另一方面是建立和高校老师、学生间的联系,交流探讨合作机会,看是否有哪些比较好的技术,能用在自己目前的业务场景下。

他进一步说到,和学生聊完之后也会有诸多收获,「比如我们昨天跟一个 UIUC 的博士生交流,她的博士课题主要是做 representation learning,这次 ACL 的工作是文本相似度计算,其实在我们目前的 QA 技术里,其中一个重要的场景就是解决文本相似度计算的问题。」

刘黎春如是评价 ACL——「面向自然语言处理,更加专业。」结合他此前参加 AAAI 的经验,他对雷锋网表示,ACL 在 NLP 领域更加专业,更加细分,而 AAAI 是一个综合性的 AI 的会议,所以 AAAI 的文章会更多、更杂,包括计算机视觉、机器学习、自然语言处理等。在他看来,虽然这两个会议关注的重点不一样,但参加这两个会议对他们团队都非常有帮助。ACL 可以让他们在 NLP 领域结识更多的学生,包括高校的老师和企业的研究人员。AAAI 则可以看到一些在其他领域比较好的方法,可以尝试是否能将其迁移到 NLP 领域。

热门领域集中在机器翻译和 QA,目前没有较大突破

而针对 ACL 的研究热点,他表示,可以明显看到,不管是投稿文章,还是接收文章,很多都属于 QA、对话和机器翻译领域。「这两年并没有发生太大变化,包括 ACL 2018 的两篇 best paper(Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information,Know What You Don't Know: Unanswerable Questions for SQuAD),都与 QA 紧密相关。此外,深度学习仍然是这两年的主题,占据统治地位。不仅仅是刘黎春持有以上观点,在这几天的会议上,诸多与 AI 科技评论交流的老师不约而同表达了类似看法——很难看到重大突破。「Attention 仍然是一个非常重要的主题,可以看到超过 90% 的文章都用到 Attention。」

关于 Attention 的典型例子是谷歌在去年六月发表的 Attention Is All You Need 一文,他们提出一个只基于 Attention 的结构来处理机器翻译等与序列模型相关的问题,一改传统基于 RNN 或者 CNN 的模型基础,该模型可以高度并行地工作,在提升翻译性能的同时训练速度也获得了极大提升。这掀起了 Attention 机制的使用热潮。

虽然没有较大的技术突破,但在 ACL 2018 上也能看到一些创新点。「我觉得今年 VAE(Variational Auto-Encode)技术用得比较多,强化学习和对抗学习一直是这两年的热门。」腾讯知文团队负责人钟黎对雷锋网如是说到。

钟黎对雷锋网表示,今年也提出了一些比较有意思的问题。比如说 learning to ask,以前我们做问答都在考虑 learning to answer,现在开始考虑如何问问题。另外也有出现一些新的任务,比如说有篇文章考虑预测对话过程中出现不符合预期的转折,对话会跑偏等,可以提前去判断跑偏情况。

此外,钟黎表示,今年有很多文章都是在生成上做控制,比如说控制文字风格、情感、回复的情况等等。

提到今年的亮点文章,刘黎春与钟黎对清华与微软合作的一篇文章印象深刻。

以前在解决多轮对话的时候,这是一个对业界极具挑战性的问题,但这一次在会上,清华跟微软合作的一篇文章通过反问一些问题,来更好地了解用户在对话里想要达成的目的,更好地去把握用户的意图,给用户提供更好的对话体验。他们如是评价:「这是比较好的一个尝试方向。」

具体说来,这一文章讲到了学习提问(learning to ask),即如何去找到一些更好的提问。会有一些提前设置好的主题词,先定义好 what——做什么,how——怎么做等几种类型,然后根据不同的类型来学习提问,这样可以保持对话的持续性和流畅性,使得对话更加人性化。

自然语言处理顶会上的中文测评系统

当然,在这样一个国际性会议上,不止可以看到一系列最新的计算机技术,还可以看到 AI 对传统语言学产生的影响。来自北京语言大学的助理研究员饶高琦今年在 ACL 上作为 NLPTEA: The 5th Workshop on Natural Language Processing Techniques for Educational Applications workshop 的主席,向雷锋网重点介绍了 CGED(Chinese Grammatical Error Diagnosis,中文语法检错)测评系统。

CGED 是自然语言处理领域的权威赛事,由 IJCNLP 联办,今年已是第五届,参赛选手需要用人工智能算法自动识别中文里面的语法错误。

「简单来说,我们的测评是给外国人学汉语做的一个中文语法纠错系统,中国人很少会犯语法错误,但对于学中文的老外来说,这种错误常常发生。此外,儿童在小学、中学等阶段的学习过程中,也很容易犯错。」

饶高琦表示,他们主要教外国人学汉语,有一半的学生来自海外。他们会在课堂上以及一些汉语类考试中积累数据,再将训练集开放出来,然后开发出训练模型,进行自动检错和改正,帮助老外校对中文语法错误。

在去年,阿里巴巴 iDST 团队在 CGED 三个 level 中全面夺冠,今年哈工大、科大讯飞联合拿了第一名,社科院取得了第二名,阿里排名第三。饶高琦表示,目前这个评测系统还比较困难,因为比较缺数据。但他进一步表示,这一系统特别有用。「现在每年新增 210 万注册学生学汉语,这个市场本身很大,但是跟技术存在巨大落差。我想将来这是一个蛮重要的增长点,会引发很多人前来关注。包括企业界已经看到了前景,学术界也有中科院、哈工大、郑州大学、云南大学等参与了这一评测。」

站在语言学家的角度,饶高琦表示,NLP 的发展对语言学提出的一个新挑战就是如何生产 AI 可以用的知识。「以前的语言学就是面向人的知识,但现在主要是面向 AI。什么样的知识可以被 AI 用,这是语言学家现在会更多关注的一个问题,也是我比较关注的一个问题。」

而此外,他也表示,今年成立亚太地区的 AACL,这说明亚洲的研究力量成为不可忽视的群体。不管是这一领域的研究,还是工作机会,一定会越来越多。

当然,以上内容只是 AI 科技评论在 ACL 上的一小部分见闻。在这样一个 AI 迅速发展的时代,AI 科技评论将继续致力于连接学术界与产业界,跟踪学术最新动态,报道产业最新趋势。接下来,AI 科技评论也将与大家相约 KDD、ECCV 等国际性 A 类学术会议,带来更多精彩报道,敬请期待。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-07-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯高校合作

腾讯多项AI黑科技亮相SIGGRAPH Asia 2018

? 你的脑洞,在这里都已实现:虚拟人Siren、AI画师YUI、腾讯丽影、智慧商超、智能弹幕、微派机器人······ ? 2018年12月4日到7日,第11届...

23820
来自专栏华章科技

为什么要学数学?因为这是一场战略性的投资

导读:本文是李大潜院士在复旦大学数学科学学院新生迎新大会上的讲话,随后演讲稿在朋友圈爆红。没错,一篇关于数学的演讲稿竟然就这么火了,你或许会一脸懵B。那么就看看...

9110
来自专栏数据科学与人工智能

大数据,小数据,哪道才是你的菜?

美国著名科技历史学家梅尔文?克兰兹伯格(Melvin Kranzberg),曾提出过大名鼎鼎的科技六定律,其中第三条定律是这样的[1]:“技术是总是配“套”而...

25270
来自专栏人工智能头条

MSRA周明:计算机能“理解”多少我们的语言了?

18160
来自专栏华章科技

全球高校计算机专业排名出炉:上海交大排名27,清华位列31

CSranking的排名主要依据各个大学院系在计算机领域的顶级学术会议发表的论文数量来衡量。

9940
来自专栏CSDN技术头条

MSRA周明:计算机能“理解”多少我们的语言了?

【编者按】对自然语言计算技术的研究人员来说,能够实现人与计算机可以进行有效沟通,计算机能理解用户的意图,执行命令或回答问题一直是他们努力迈进的目标。基于近30年...

19050
来自专栏AI科技评论

学界|运筹学教授叶荫宇:作为 AI 基石,优化算法如何在实际中应用?

AI科技评论按:昨天,AI科技评论报道了钛媒体和杉数科技主办的 2017 AI 大师论坛,其中,杉数科技首席科学顾问叶荫宇出席了活动并发表了学术演讲。作为在运筹...

438120
来自专栏机器之心

专访 | 昆仑数据首席科学家田春华:人工智能降低了工业大数据分析的门槛

45170
来自专栏钱塘大数据

美如画丨2018年度最佳数据可视化作品

过去几年,对数据以及数据分析的关注可谓达到了一个新的高度。如今,数据和信息已经成为一种可以带来绝妙视觉观感的工具。曾经简单的图表和散点图,现在已经成了数据艺术中...

20040
来自专栏新智元

认知科学与人机交互简史

前言 “水是最好的”(Water is best),这句话是西方“科学和哲学之祖”泰勒斯(Thales,约公元前624年——公元前546年)的名言,无独有偶,与...

38950

扫码关注云+社区

领取腾讯云代金券