ACL 2018 中科院:TDNN 一个面向主题独立自动作文评分的两阶段深度网络

你和“懂AI”之间,只差了一篇论文

号外!又一拨顶会论文干货来袭!

2018年6月9-10日,代表学术界和工业界的顶级交流盛会——由中国中文信息学会青年工作委员会和百度公司联合举办的【“AIS2018(ACL、IJCAI、SIGIR)论文预讲会”】在北京盛大举行。两天时间内,来自“情感分析”“推荐系统”“机器问答”“对话系统”等不同主题的顶级会议论文报告汇聚一堂,英雄相惜,华山论剑。

据芯君了解,本次预讲会在学术圈的火爆程度完全超出了主办方的想象,开放报名的短短几天就全面满额了,以至于主办方不得不设定条件筛选参会者。

读芯君作为本次预讲会的活动媒体,将全程跟随大会,为大家全程纪录活动中最前沿的观点,最有价值的成果,并特邀预讲会论文报告者联合为读者朋友们推出预讲会系列组文,向你展示顶会最新论文成果。

读芯术读者论文交流群,请加小编微信号:zhizhizhuji。等你。

这是读芯术解读的第50篇论文

作者:金灿灿,何苯,回恺,孙乐

ACL 2018

TDNN: 一个面向主题独立自动作文评分的两阶段深度网络

TDNN: A Two-stage Deep Neural Network for Prompt-independent Automated Essay Scoring

中国科学院

Chinese Academy of Sciences

【简介】学生作文通常是根据某一给定主题写作完成,不同主题对应的作文通常在词汇的使用、文章结构等方面都不同。因此,对于一个自动作文评分模型而言,在一个主题的已评分作文数据集上训练,然后在另一个主题的作文数据集上进行预测,这很难得到一个比较好的预测结果。现有的大多数研究都是在相同的已评分作文数据集上进行模型的训练和预测,它们使用了许多与主题相关的特征,如与主题的相关程度、主题词的tf-idf权重等等,这导致了训练得到的模型很难泛化到其它不同主题的作文数据集。为了解决上述问题,本文提出了一种名为TDNN两阶段的自动作文评分算法,首先在不同主题的已评分作文数据集上用主题无关的特征训练一个自动作文评分模型,然后利用该模型给目标主题的每篇作文打一个伪标记的分数;在第二阶段中,从目标主题中选出伪标记分数在两个极端的作文作为正样本和负样本,然后在此基础上训练一个深度神经网络模型,用该模型为目标主题的每篇作文打分作为最终的预测分数。实验结果表明本文提出的TDNN两阶段的自动作文评分算法与baseline相比具有一定的提升。

1 贡献

1、提出了一个两阶段的学习框架来解决缺乏目标主题训练数据的情况下自动作文评分模型的学习问题。

2、提出了一个新的深度神经网络自动作文评分模型,该模型考虑了作文的语义、词性和语法结构特征。

3、第一个专门解决主题无关场景下自动作文评分问题的方法,而且在标准数据集ASAP上的实验表明了方法的有效性。

2 方法

本文提出的TDNN算法的框架如图1所示,主要分为主题无关阶段和主题相关阶段。在本文提出的框架中,首先在其它主题的已评分数据集上训练一个排序模型,仅仅使用主题无关的特征,希望在不考虑作文的主题的情况下对作文进行一个初步的评价。具体地,本文在7个不同主题的已评分作文训练数据集上训练一个RankSVM模型,使用多个主题的原因是为了避免模型过拟合特定的主题。训练好的RankSVM模型为每篇目标主题作文评分,评分变换到[0-10],然后选择分数分别在[0-4]和[8-10]的目标主题作文作为负的伪样本和正的伪样本,它们将作为下一阶段的训练数据。

直观上,大部分作文的质量处于两个极端的中间,想要做出准确的评价需要对它们有一个比较好的理解,使得主题相关信息的考虑显得比较重要。为了实现这个目标,本文用一个深度神经网络模型来区分处于两个极端的目标主题作文,训练数据由上一阶段得到,希望通过训练使得网络能够记住一篇好的作文有哪些特性。提出的深度神经网络模型如图2所示,模型由3个部分融合而成,即语义部分。

词性标注部分和语法结构部分,语义部分和词性标注部分将分别用双向LSTM依次得到句子和作文的表示,语法结构部分别用双向LSTM依次得到短语、句子和作文的表示。最后三部分得到的作文表示连接作为最终的作文表示,由全连接层映射后输出作文的评分。

3 实验结果

本文使用自动作文评分数据集ASAP,数据集包含了8个不同的主题的作文,实验采用了8折交叉验证的方式,评价指标采用二次加权Kappa、Pearson系数和Spearman系数。实验结果如下表所示:

如上表所示,本文提出的方法在大部分情况下效果的提升都较为明显。可以看到第二阶段深度神经网络的三个部分中,语法结构部分有重要的作用,它与语义部分组合能够得到最好的结果。

留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180610A1ER8R00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券