专栏首页arxiv.org翻译专栏个性化语法纠错:根据能力水平和 L1 进行调整(CS CL)
原创

个性化语法纠错:根据能力水平和 L1 进行调整(CS CL)

语法纠错 (GEC) 系统在各种软件应用中已变得无处不在,并已开始在某些数据集上接近人类水平的性能。然而,对于如何根据用户的特点(如用户的熟练程度和第一语言)或新兴的文本领域有效地对这些系统进行个性化改造,我们所知甚少。我们只使用了几千个注释句子,首次展示了根据作者的熟练程度和第一语言来调整通用神经 GEC 系统的结果。我们的研究是同类研究中最广泛的,涵盖了 5 种能力水平和12 种不同的语言,并比较了三种不同的适应方案:只适应能力水平,只适应第一语言,或同时适应两个方面。我们证明了相对于强基线而言,对这两种方案的适配都能实现最大的性能提升(3.6 F0.5)。

原文题目:Personalizing Grammatical Error Correction: Adaptation to Proficiency Level and L1

原文:Grammar error correction (GEC) systems have become ubiquitous in a variety of software applications, and have started to approach human-level performance for some datasets. However, very little is known about how to efficiently personalize these systems to the user's characteristics, such as their proficiency level and first language, or to emerging domains of text. We present the first results on adapting a general-purpose neural GEC system to both the proficiency level and the first language of a writer, using only a few thousand annotated sentences. Our study is the broadest of its kind, covering five proficiency levels and twelve different languages, and comparing three different adaptation scenarios: adapting to the proficiency level only, to the first language only, or to both aspects simultaneously. We show that tailoring to both scenarios achieves the largest performance improvement (3.6 F0.5) relative to a strong baseline.

原文作者:Maria Nadejde, Joel Tetreault

原文地址:https://arxiv.org/abs/2006.02964

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 技术干货 |“搜你所想”之用户搜索意图识别

    人类自诞生以来就伴随着各种信息的生产和获取,如今这个信息爆炸的 DT 时代,人们更是被各种信息所包围。我们知道,人获取信息的方式主要有被动获取和主动获取两种,其...

    达观数据
  • 如果可以的话请纠正我:从纠错和标记中学习(CS CL)

    Sequence-to-sequence 学习涉及到训练数据的信号强度和注释成本之间的权衡。例如,机器翻译数据从成本高昂的由专家生成的翻译数据来实现有监督学习,...

    刘持诚
  • 未整理的计组复习笔记?

    计组是我听过的最脑阔疼的课。不过已经考过了orz以及,大家学的计组内容可能不一样,这篇复习包括的内容应该是比较简略的。

    gojam
  • 新一代海量数据搜索引擎 TurboSearch 来了!

    ? 本文作者:sololzluo,腾讯 AI Lab 开发工程师 一. TurboSearch 简介 AI Lab 多年一直在搜索领域进行深耕和积累,继搜搜网...

    腾讯技术工程官方号
  • Java反射机制的原理及在Android下的简单应用

    反射主要是指程序可以访问、检测和修改它本身状态或行为的一种能力。在计算机科学领域,反射是一类应用,它们能够自描述和自控制。这类应用通过某种机制来实现对自己行为的...

    烂猪皮
  • 一支笔接入云上智慧课堂:企鹅智笔案例的AI智能批改技术解析

    英文作文的批改,以往完全依赖于教师的主观判断,既需要教师做大量重复性的工作,又难以规避批量批改中对细节错误的忽视。如何用机器又准又快的批改作文,给老师减负,就成...

    李志豪
  • 优秀的数据分析师应该具备哪些技能和特质?

    价值:根据当前数据,对比历史数据,结合市场规律对具体业务问题进行纠正,指导以及预测。

    Datawhale
  • 优秀的数据分析师应该具备哪些技能和特质?

    价值:根据当前数据,对比历史数据,结合市场规律对具体业务问题进行纠正,指导以及预测。

    公众号guangcity
  • R语言-中国各城市PM2.5数据间的相关分析

    中国各城市PM2.5数据间的相关分析 相关分析(correlation analysis)是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关...

    机器学习AI算法工程
  • 谷歌开源了代码评审规范:好坏代码应这样来判断

    谷歌开源了一套代码评审(Code Review)规范,它是谷歌一套通用的工程实战指南,几乎涵盖了所有编程语言与各种类型的项目,这个规范代表了谷歌长期发展以来最佳...

    Debian中国
  • “晶振”工作原理及匹配电容如何选你get到了吗

    大多数设计者都熟悉基于Pierce(皮尔斯)栅拓扑结构的振荡器,但很少有人真正了解它是如何工 作的,更遑论如何正确的设计。我们经常看到,在振荡器工作不正常之前,...

    用户8913398
  • 算法工程师:双非渣硕是如何获得百度、京东双SP

    本人本科硕士皆双非,和牛客大佬们没得比,目前拿到的还可以的offer就是百度SP和京东SP,都是做的推荐算法,其他的不说了。 先说一下个人经历吧,学校比较水,实...

    牛客网
  • Machine Learning-教你用Scikit-Learn来做分类器(上)

    选自 Python-Machine-Learning-Book On GitHub

    Sam Gor
  • 疑难解答:ORA-01555的场景模拟和解决方案

    黄玮(Fuyuncat) 资深Oracle DBA,个人网站www.HelloDBA.com,致力于数据库底层技术的研究,其作品获得广大同行的高度评价. 前期...

    数据和云
  • 例说 Constraint Layout:初探

    谷歌的墙裂推荐,标志着 CL 布局的技术已经发展地成熟了,之前还在持观望态度的我们,是时候来深入了解一下这个 Android 布局的终极武器了。

    天天P图攻城狮
  • Transformer自动纠语法、改论文,我们试了试这个免费英文写作新神器

    在当前疫情下,我们已经离不开居家学习了,各种备考也得提到日程上。机器之心的读者大多数都是理科生,数学、计算机都还是有一些「天赋」。然而对于英语,貌似这些天赋帮不...

    机器之心
  • ImageNet 存在十万标签错误,你知道吗?

    使用ImageNet、CIFAR、MNIST 或 IMDB 这些数据集时,你是不是会潜意识中假设,这些数据集中的类标签都是正确的?

    AI研习社
  • zbar源码分析--QR解码过程分析

    QR解码流程:运动均值去噪、二阶微分边缘检测、获取QR定位标志、生成finder pattern 聚类、计算相交的水平聚类和垂直聚类的中心、识别符号。

    心跳包
  • 汇编语言第三版答案(王爽)

    汇编语言答案(王爽)  此文只是用来存个档,不喜勿喷 检测点1.1 (1)1个CPU的寻址能力为8KB,那么它的地址总线的宽度为 13位。 (2)1KB的存储器...

    Angel_Kitty

扫码关注云+社区

领取腾讯云代金券