专栏首页arxiv.org翻译专栏句子完形填空数据集,具有高质量的考试干扰项(CS CL)
原创

句子完形填空数据集,具有高质量的考试干扰项(CS CL)

我们介绍 SCDE,一个数据集来评估性能的计算模型通过句子预测。 SCDE是一个人造句子完形填空数据集,收集自公立学校的英语考试。 我们的任务需要一个模型,用英语教师设计的干扰物填补一篇文章中的多个空白。 实验结果表明,这项任务需要使用非局部的话语级语境,超越直接句子邻域。 这些空白需要联合解决,而且会严重破坏对方的语境。 此外,通过消融,我们表明干扰物是高质量的,使任务更具挑战性。 我们的实验表明,先进的模型(72%)和人类(87%)之间存在明显的性能差距,鼓励未来的模型来弥合这一差距。

原文题目:SCDE: Sentence Cloze Dataset with High Quality Distractors From Examinations

原文:We introduce SCDE, a dataset to evaluate the performance of computational models through sentence prediction. SCDE is a human-created sentence cloze dataset, collected from public school English examinations. Our task requires a model to fill up multiple blanks in a passage from a shared candidate set with distractors designed by English teachers. Experimental results demonstrate that this task requires the use of non-local, discourse-level context beyond the immediate sentence neighborhood. The blanks require joint solving and significantly impair each other's context. Furthermore, through ablations, we show that the distractors are of high quality and make the task more challenging. Our experiments show that there is a significant performance gap between advanced models (72%) and humans (87%), encouraging future models to bridge this gap.

原文作者:Xiang Kong

原文地址:https://arxiv.org/abs/2004.12934

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 单片机如何才能不死机之内外部时钟

    时钟是嵌入式系统中非常重要,但又常常被忽视的地方。它的成本只占整个系统的一个零头,但由于时钟的停振,或其它异常最终导致厂商付出高昂代价的案例却并不少见。下面我们...

    用户2366192
  • ICLR2020 | CS-GNN:用平滑度刻画图信息的使用

    今天给大家介绍香港中文大学和新加坡国立大学一起在ICLR2020上发布的一篇论文,该论文针对实际使用中GNN在图结构数据中能够获得多少性能的问题,提出了两种可以...

    DrugAI
  • Science述评|大规模单细胞组学解析人类基因遗传学互作

    评述论文:Exploring genetic interaction manifolds constructed from rich single-cell p...

    生信宝典
  • 关于静电ESD防护,为什么记住100条规则也没啥鸟用

    静电,确切的说是静电放电的防护,是EMC设计中的一个重点内容,已经有大量书籍,文章对此做了很多的讨论。那我们为什么还要再写一篇来讨论这个问题呢?因为在实际产品中...

    用户2366192
  • 1+1>2:MIT&IBM提出结合符号主义和连接主义的高效、准确新模型

    人工智能应该复制人脑的哪一部分功能?这个问题的答案反映了一场辩论的焦点,这场辩论和 AI 的历史一样久远。20 世纪 50 年代,人类开始探索如何创建可以思考的...

    磐创AI
  • 形象易懂讲解算法II——压缩感知

    作者:咚懂咚懂咚 链接:https://zhuanlan.zhihu.com/p/22445302 来源:知乎 著作权归作者所有。商业转载请联系作者获得授...

    bear_fish
  • 浅谈EMC电磁兼容设计—概念篇

    EMC(Electro Magnetic Compatibility)——电磁兼容,是指电子、电气设备或系统在预期的电磁环境中,按设计要求正常工作的能力。就世界...

    不脱发的程序猿
  • 1+1>2:MIT&IBM提出结合符号主义和连接主义的高效、准确新模型

    人工智能应该复制人脑的哪一部分功能?这个问题的答案反映了一场辩论的焦点,这场辩论和 AI 的历史一样久远。20 世纪 50 年代,人类开始探索如何创建可以思考的...

    机器之心
  • Google 家的工程实践文档,你不看?

    大家好,我是老王,前端时空的共建者。欢迎大家关注前端时空,并且来共同建设我们的前端时空社区。

    前端老王

扫码关注云+社区

领取腾讯云代金券