前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >学界 | NLP顶会NAACL-HLT论文奖名单公布,BERT获最佳长论文奖

学界 | NLP顶会NAACL-HLT论文奖名单公布,BERT获最佳长论文奖

作者头像
AI研习社
发布2019-05-08 16:41:39
1K0
发布2019-05-08 16:41:39
举报
文章被收录于专栏:AI研习社AI研习社AI研习社

AI 科技评论按:将于今年 6 月在美国明尼阿波利斯市举行的自然语言处理顶会 NAACL - HLT ( Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies;ACL 北美分会 )今天通过官方博客发布了 NAACL-HLT 2019 的论文奖名单。会议设置了许多种不同的论文奖项,去年的来自谷歌的热门论文 BERT 获得最佳长论文奖 —— 虽然 BERT 本身并没能带来重大理论突破,但这篇论文发表之后的火热讨论、成为新的基线模型、以及出现大批基于 BERT 的改进模型都是有目共睹的。

根据 NAACL-HLT 官方博客介绍,NAACL-HLT 2019 正会部分最终投稿数为 1955 篇(已去除撤稿与评审前拒稿),相比 2018 年的 1072 篇增加 82%;其中长论文 1198 篇,短论文 757 篇。正会接收论文共 423 篇,接收率 21.6%。另外,工业界部分(Industry Track)的最终投稿数为 100 篇,相比 2018 年的 85 篇增加 17%;接收论文共 52 篇。

获奖论文列表与简介如下:

最佳主旨论文(Best Thematic Paper)

What's in a Name? Reducing Bias in Bios Without Access to Protected Attributes

  • 姓名里含有什么?无需访问受保护的属性就可以降低个人简历中的偏倚
  • 论文摘要:如今有越来越多的研究都在尝试提出新的方法减少机器学习系统中的偏倚。这些方法通常都需要访问种族、性别、年龄之类的应受到保护的隐私属性,然而这就带来了两大挑战,1,受到保护的属性可能是不允许访问的,或者使用这些信息是非法的;2,很多时候我们希望同时考虑多种受保护的属性产生的影响,或者属性的共同影响。这篇论文探究了职业性分类中减少偏倚的问题,作者们提出的方法可以降低预测到一个人的真正职业的概率和他们的名字的词嵌入之间的关联性。这种方法利用了社会偏见,它其实被编码在了姓名的词嵌入中;这样这种方法就不再需要访问受保护的属性。更重要的是,它仅仅需要在训练的时候访问不同的人的姓名,部署后就不再需要。作者们在线上的大规模个人简历数据集上评估了提出的方法的两种不同版本,结论是这两个版本的方法都可以同时减少人种和性别偏倚,同时还对分类器的总体正确率几乎没有影响。
  • 论文地址:https://arxiv.org/abs/1904.05233

最佳可解释性 NLP 论文(Best Explainable NLP Paper)

CNM: An Interpretable Complex-valued Network for Matching

  • CNM:一个用于匹配的可解释复数值网络
  • (是的这篇论文来自中国作者)
  • 论文摘要:这篇论文的目标是通过量子物理的数学框架对人类语言进行建模。量子物理中已经有设计完善的数学方程式,这个框架借用了这些方程式,然后在单个复数向量空间中统一了不同的语言学单位,比如,把单词看作量子态的粒子,把句子看作混合系统。作者们构建了一个基于复数值的网络来实现这个框架并把它用于语义匹配。由于具有约束完善的复数值成分,这个网络可以把释义呈现为显式的物理概念。论文中提出的这个用于匹配的复数值网络(CNM)在测试的两个问答数据集上可以取得与优秀的 CNN 和 RNN 基准线模型近似的表现。
  • 论文地址:https://arxiv.org/abs/1904.05298

最佳长论文(Best Long Paper)

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding

最佳短论文(Best Short Paper)

Probing the Need for Visual Context in Multimodal Machine Translation

  • 探测多模态机器翻译中对视觉内容的需求
  • 论文摘要:目前的多模态机器翻译(MMT)研究表明,视觉模态往往不是必须的,或者带来的收益并不明显。作者们认为原因是这个任务的唯一一个可用数据集 Multi30K 中的问题都太简单、太短、重复性高,在这样的状况下,只把源文本作为内容就已经足够了。作者们认为,对于更加一般性的情况,合并使用视觉和文本信息、增加翻译的可靠性是完全可行的。在这篇论文中,作者们选择了目前最先进的 MMT 模型并探究了视觉模态的影响,他们部分削弱了模型的源文本侧,并进行了系统性研究。结果表明,给定有限的文本内容时,模型可以利用视觉输入中的信息并生成更好的翻译结果。这很好地反驳了当前的观点,认为 MMT 模型会丢掉视觉模态中的信息,原因是由于图像的特征的质量不高,或者视觉模态与模型的集成方式不好。
  • 论文地址:https://arxiv.org/abs/1903.08678

最佳资源论文(Best Resource Paper)

CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge

  • CommonsenseQA:一个面向常识知识的问答挑战
  • 论文摘要:当人类回答问题的时候,除了问题给定的文本之外,他们其实还会运用对这个世界的丰富的知识来帮助他们答题。问答任务上的近期研究主要关于的都是在给定的相关文本或者文档上答题,很少需要通用的背景知识。为了探究有先验通用知识的状况下的问答任务,作者们提出了 CommonsenseQA 数据集,这是一个用于常识问题回答的有挑战性的新数据集。为了捕捉关联性之外的更多常识,作者们借助 ConceptNet 提取了与同一个源概念有相同语义联系的多种概念;作者们也让众包工作者编写提到了源概念的多项选择问题,在这些问题里需要辨析源概念和其它的相关概念。这样的设定会让众包工作者们尝试编写有复杂语义的问题,这样的问题也就往往需要先验背景知识才能回答。通过这个过程,论文作者们共创建了超过一万两千个问题,并通过一系列传统上较强的基线模型的测试表明了这个任务的难度。目前作者们找到的最强的基线模型是基于 BERT-large 的,这个模型得到了 56% 的准确率;而人类的准确率为 89%。
  • 论文地址:https://arxiv.org/abs/1811.00937

AI 科技评论报道。更多顶级学术会议报道请继续关注我们。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-04-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研习社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 最佳主旨论文(Best Thematic Paper)
  • 最佳可解释性 NLP 论文(Best Explainable NLP Paper)
  • 最佳长论文(Best Long Paper)
  • 最佳短论文(Best Short Paper)
  • 最佳资源论文(Best Resource Paper)
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档