专栏首页arxiv.org翻译专栏文本简化中句子对齐的神经CRF模型(CS.CL)
原创

文本简化中句子对齐的神经CRF模型(CS.CL)

摘要文本简化系统的成功与否,在很大程度上取决于训练语料库中复杂-简单句对的数量和质量。为了评估和改进句子对齐质量,我们从两个常用的文本简化语料库Newsela和Wikipedia创建了两个手工注释的句子对齐数据集。我们提出了一种新的神经CRF对齐模型,该模型不仅利用了并行文档中句子的顺序性,而且还利用了神经句子对模型来捕获语义相似度。实验结果表明,该方法在单语句子对齐方面比以往的方法提高了5个百分点以上。我们使用CRF校准器来构建两个新的文本简化数据集,Newsela-Auto和Wiki-Auto,它们比现有数据集更大,质量更好。一个基于变压器的seq2seq模型训练我们的数据集,建立了一个新的艺术的文本简化在自动和人工评估。

原文题目:Neural CRF Model for Sentence Alignment in Text Simplification

原文:The success of a text simplification system heavily depends on the quality and quantity of complex-simple sentence pairs in the training corpus, which are extracted by aligning sentences between parallel articles. To evaluate and improve sentence alignment quality, we create two manually annotated sentence-aligned datasets from two commonly used text simplification corpora, Newsela and Wikipedia. We propose a novel neural CRF alignment model which not only leverages the sequential nature of sentences in parallel documents but also utilizes a neural sentence pair model to capture semantic similarity. Experiments demonstrate that our proposed approach outperforms all the previous work on monolingual sentence alignment task by more than 5 points in F1. We apply our CRF aligner to construct two new text simplification datasets, Newsela-Auto and Wiki-Auto, which are much larger and of better quality compared to the existing datasets. A Transformer-based seq2seq model trained on our datasets establishes a new state-of-the-art for text simplification in both automatic and human evaluation.

原文作者:Chao Jiang, Mounica Maddela, Wuwei Lan, Yang Zhong, Wei Xu

原文地址:https://arxiv.org/abs/2005.02324

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 网络出版商RTB收入的实时优化(CS.GT)

    本文描述了一个引擎优化网站出版商收入从二次拍卖。这种拍卖方式被广泛用于销售在线广告空间,其机制称为实时竞价(RTB)。在这些拍卖中优化是至关重要的,因为设置适当...

    用户7236395
  • 通过关注最成功的伙伴来阻止叛逃者的入侵(CS.GT)

    根据空间公共物品博弈的标准协议,合作者不仅投入到自己的博弈中,也投入到相邻伙伴组织的博弈中。在这项研究中,我们放松了这个假设,让合作者决定更喜欢哪个相邻的组,而...

    用户7236395
  • 翻译空间的显式表示:机器翻译评估的自动释义(CS.CL)

    根据之前关于自动释义的工作,我们使用最先进的神经意译技术生成额外参考文献来评估了改进BLEU的可行性(Papineni et al., 2002)。我们探讨了不...

    用户7236395
  • 通过音乐驱动的机器人情感韵律和手势,建立人机信任(Human-Computer Interaction)

    随着人机协作机会的不断扩大,信任对于机器人的充分参与和利用变得越来越重要。建立在情感关系和人际关系纽带上的情感信任尤其重要,因为它对错误更有弹性,并增加了合作的...

    李欣颖6837176
  • TensorFlowNews五大经典卷积神经网络介绍:LeNet / AlexNet / GoogLeNet / VGGNet/

    前言:这个系列文章将会从经典的卷积神经网络历史开始,然后逐个讲解卷积神经网络结构,代码实现和优化方向。 (以下内容来翻译自斯坦福大学课程:http://cs23...

    磐创AI
  • 声明式反事实解释的方法(AI LG)

    我们提出答案集程序,这些程序指定并计算反事实干预措施,以此作为基于因果关系的分类模型结果解释的基础。它们可以与黑盒模型一起使用,也可以与可以指定为逻辑程序的模型...

    田冠宇
  • AMS推荐|气象学家-海洋学家的Python教程

    https://carpentrieslab.github.io/python-aos-lesson/

    气象学家
  • 网络舆情评价:以2019年国庆期间中英文推特话语为例(Computers and Society)

    该项目描述了一种利用社交媒体数据分析公众情绪的方法,并提供了一个2019年中国国庆节期间的推特话语的例子。目的是利用NLP算法研究中国网络话语,观察所表达的情感...

    李欣颖6837176
  • 2017 MCM Problems ABC Notes by magic2728

    建模的小伙伴们,知道你们都在挑灯夜战,为了梦想做最后的努力啦,先为你们的努力喝彩!

    magic2728
  • 基于gpt-2模型(117M预训练模型)的文本自动生成测试

    openai的gpt-2模型最近在风口浪尖上。Language Models are Unsupervised Multitask Learners论文已经出来...

    sparkexpert

扫码关注云+社区

领取腾讯云代金券