专栏首页机器之心AAAI 2019 | 云从科技联手上海交大提出端到端统一语义角色标注

AAAI 2019 | 云从科技联手上海交大提出端到端统一语义角色标注

机器之心发布

来源:云从科技

随着自然语言处理 (NLP , Natural Language Processing) 的发展,以及在语言信息处理与人工智能领域的地位愈发重要。作为自然语言处理的一项基础性任务,语义角色标注(SRL,Semantic Role Labeling)逐渐成为研究的重点。本文介绍了来自上海交通大学与云从科技联合创新实验室的 AAAI 2019 论文。本届大会共收到 7700 余篇有效投稿,其中 7095 篇论文进入评审环节,最终有 1150 篇论文被录用,录取率为近年最低仅为 16.2%。

论文:Dependency or Span, End-to-End Uniform Semantic Role Labeling

论文地址:http://bcmi.sjtu.edu.cn/~zhaohai/pubs/aaai2019-UniSRL-1113-2.pdf

语义角色标注(SRL)旨在发现句子的谓词-论元结构。它以句子的谓词为中心,分析句子中各成分与谓词之间的关系,即句子的谓词(Predicate)- 论元(Argument)结构。谓词是对主语的陈述或说明,指出「做什么」、「是什么」或「怎么样,代表了一个事件的核心,跟谓词搭配的名词称为论元。语义角色是指论元在动词所指事件中担任的角色。主要有:施事者(Agent)、受事者(Patient)、客体(Theme)、经验者(Experiencer)、受益者(Beneficiary)、工具(Instrument)、处所(Location)、目标(Goal)和来源(Source)等。

例如:「小明昨天晚上在公园遇到了小红。」

「遇到」是句子的谓词,「小明」是谓词的发起者,角色为「施事者」,「小红」是谓词的接受者,角色是「受事者」,「公园」是谓词的发生地点,据说是「处所」等。

作为自然语言处理的一项基础性任务,语义角色标注能提供上层应用的非常重要的语义信息。例如在阅读理解应用中,把语义角色标注作为输入的一部分,可以帮助阅读理解应用更加准确确定各部分的语义角色,从而提高阅读理解的准确性。

比如:「小明打了小华」和「小华被小明打了」,这两句话语义完全一致,但由于被动语态引起的主语和宾语位置上的变化,当提问「谁挨打了?」时,阅读理解算法在处理这两句时,有可能会给出不同的答案。但如果我们把语义角色标注也作为阅读理解的输入信息,由于两句话中「小华」都是「受事者」角色,问题也是在问「受事者」是谁,这时阅读理解算法往往比较容易给出一致准确的答案。

明确了一个句子中各个成分的语义角色,可以更好的帮助自然语言的理解和处理。比如在「信息提取」任务中,准确的提取出动作的发出者信息;在「阅读问答」中给出事件发生的时间、地点等。因此,语义角色标注时很多自然语言理解与处理任务的基础,对于实现自然语言处理意义非常重要。

传统的语义角色标注是建立在句法分析的基础上的,但由于构建准确的语法树比较困难,基于此方法的语义角色标注准确率并不高,因此,近年来无句法输入的端到端语义角色标注模型受到了广泛的关注。这些模型算法,根据对论元的表示不同,又划分为基于区间(span)和基于依存(dependency)两类方法,不同方法的模型只能在对应的论元表示形式上进行优化,不能扩展、应用到另一种论元表示上。

图 1:Span 与 Dependency 统一语义角色标注架构。

我们的论文则通过提出一个统一的谓词与论元表示层,实现了将论元表示形式的统一(参见上图中的 Predicate&Argument Representation 层),因此,该模型可以接受不同论元表示形式的数据集进行训练。

此外,我们的模型通过对谓词、论元评分,以及谓词和论元的一个双仿射变换,同时实现了对谓词的识别、以及谓词与论元的联合预测(参见上图中 Biaffine Scorer 层)。我们的单一模型在 CoNLL 2005、2012(基于 Span 的数据集)和 CoNLL 2008、2009(基于 Dependency 的数据集)SRL 基准数据集上,无论是在自主识别谓词、还是在给定谓词的情况下,相比于学术上目前已知的算法,都取得了较领先的结果,尤其是在 span 数据集、给定谓词的情况下,我们的单一模型甚至在所有指标上领先于已知的 Ensemble 模型。结果可参见表二、三、四、五。

图 2:端到端设置下谓词与论元联合预测 Span 结果。

图 3:端到端设置下谓词与论元联合预测 Dependency 结果。

图 4:给定谓词情况下只预测论元 Span 结果。

图 5:给定谓词情况下只预测论元 Dependency 结果。

  1. 本文报告了第一个在 span 和 Dependency 两种形式的语义角色标注的标准树库上同时获得最高精度的系统;
  2. 本文首次把目前最为有效的三大建模和机器学习要素集成到一个系统内,包括 span 选择模型、双仿射(biaffine)注意力机制以及预训练语言模型(ELMo);
  3. 本文首次针对依存形式的语义角色标注报告了超过 90% 的 F 值的里程碑精度。

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-02-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 学界 | 通过Crowd Layer,利用众包标注数据集进行深度学习

    选自arXiv 机器之心编译 参与:刘晓坤、路雪 本文通过在深度神经网络中引入一种新型众包层(crowd layer),通过反向传播方式,直接利用噪声标签实现端...

    机器之心
  • 不要只关注算法与模型,这里有份产品级深度学习开发指南

    众所周知,深度学习模型仅仅只是构建 AI 产品的重要步骤,但并不是全部。一个互联网产品(如 APP)想要集成深度学习能力,往往还需要走完很多设计、开发和测试方面...

    机器之心
  • 特写|人工智能背后的人

    机器之心原创 作者:虞喵喵 在大部分人看来,人工智能是个有些「科幻」的词汇,代表小说电影中和人类长相相似、或温柔或冷酷的机器人。 稍微熟悉一点,这份印象又变成冷...

    机器之心
  • 动态 | 云从科技与上海交大 AAAI 入选论文解读:语义角色标注新思路 get

    AI 科技评论按:AAAI 2019 已于月初落幕,国内企业也在陆续公布自家被录用论文名单。本届大会共收到 7700 余篇有效投稿,其中 7095 篇论文进入评...

    AI科技评论
  • 云上密码应用最佳实践

    随着企业上云和数字化转型升级的深化,数据正在成为企业的核心资产之一,在生产过程中发挥的价值越来越大。而数据安全也成为广大企业和云服务商共同关注的话题之一。

    云数据安全
  • 云上密码应用最佳实践——为云海漫步保驾护航

    ? 随着企业上云和数字化转型升级的深化,数据正在成为企业的核心资产之一,在生产过程中发挥的价值越来越大。而数据安全也成为广大企业和云服务商共同关注的话题之一。...

    云鼎实验室
  • 分布式中Redis实现Session终结篇

      上一篇使用Redis实现Session共享方式虽然可行,但是实际操作起来却很麻烦,现有代码已经是这个样子了,总不可能全部换掉吧!好吧,这是个很实际的问题,那...

    用户1168362
  • 工业互联网联盟发布新物联网安全成熟度模型

    工业互联网联盟(IIC)基于其自身的安全框架和参考架构开发了一种新型物联网安全成熟度模型(SMM),有助于企业利用现有的安全框架达到他们自己定义的物联网安全成熟...

    伍尚国
  • 分布式系统CAP理论

    往期精选 在讨论常见架构前,先简单了解一下CAP理论: CAP是Consistency、Availablity和Partition-tolerance的缩写。分...

    企鹅号小编
  • 工业互联网联盟(IIC)发布新型物联网安全成熟度模型(SMM)

    工业互联网联盟(IIC)基于其自身的安全框架和参考架构开发了一种新型物联网安全成熟度模型(SMM),有助于企业利用现有的安全框架达到他们自己定义的物联网安全成熟...

    周俊辉

扫码关注云+社区

领取腾讯云代金券