高考&中考也AI,机器人阅卷技术曝光

近日,高考放榜,又是几家欢乐几家愁。从短期来看榜单上分数的高低直接决定了考生眼下的幸福指数,而从长期来看,这也会从某种程度上影响到考生未来的人生发展。怎么确保打出的分数公平、公正、高效?这一直是考试选拔人才制度受到诟病的一个地方。

人工智能技术为解决这一问题提供了一种可能性——让智能化的机器来阅卷。

机器阅卷可以保证过程的客观性和一致性,从某种程度上来说是保证高考公平公正的一个方法。此外,机器取代人类的重复劳动,从效率上也获得提升。那么,相关技术是否已经成熟到足以承担阅卷的重任?

高考试题,总体上来说分为两种,一种是主观题,一种是客观题。众所周知,客观题有着统一的评判标准和答案,评判起来并不困难,在有了答题卡,扫描仪后,客观题可以全部由机器批阅,阅卷速度大大提升,且更加准确。但是对于“没有统一答案,言之有理即可给分”的主观题,机器怎么做评判?机器要如何明白“理”?

机器批阅主观题的可能性

面对主观题,机器也能替代人脑来思考吗?

答案是肯定的。自20世纪60年代以来,国外许多专家和学者就致力于主观题的机器阅卷技术研究,也出现了各种不同的自动批改系统。比如美国的MBA、托福考试中就应用了 E-rater系统等。

但是,不管是E-rater还是国内的一些研究,大部分针对的都是第二语言作文,即非母语作文。非母语作文的特点是,学生的错误大多是一些基础性的拼写、语法方面的初级错误,这些错误是比较容易确立一个规则并让机器执行和批阅。

要想机器阅卷技术真正普及并为阅卷工作带来便利,无法回避的一个难关就是:批阅学生用母语写的作文。

与第二语言作文不同,中学生母语作文中基本很少犯语言基础性错误,需要在更高层次,比如作文的文采、篇章的衔接、作文立意等方面做出评判。

那么面对这些主观性很强的文本,我们应该从哪些维度去评判,又如何去量化这些维度呢?要回答这个问题其实也不难,我们可以先想想:老师是怎么为我们的中高考作文进行评分的呢?

首先,他们有一套严格的标准。

中高考阅卷中,全国的老师都是以一套统一的、严格的标准为基准来进行评分的。同理,想让机器批阅作文,最重要的也是让机器学到这套标准,然后按标准批阅。

以应用在语文试卷批阅中的讯飞作文评分系统为例。教师们设置了一套通用的从字迹工整度、词汇丰富性、句子通顺度、文采、篇章结构、立意等多个层次综合评估一篇作文质量的解决方案。哈工大讯飞联合实验室的研究人员则让机器来学习这套方案,利用机器学习算法从少量人工评分的样本中学习获得作文评分标准。

这每一项标准背后都需要复杂、精密的技术来支持。比如要判断字迹工整度,则需要用到手写识别技术,机器可以在自动将图片中手写体字转写为文本的同时,给出识别概率,来表示工整度。

再比如,判断一篇作文是否离题,首先需要根据题目内容提取关键词,并根据主题进行扩展,同时提取作文的关键词,计算作文的关键词和题目的关键词的相似度。

另外,也可以在本次考试的大规模数据上训练主题模型,得到全局的主题分布,然后和待考察作文的主题分布对比。词汇丰富性和立意属于内容相关的特征;字迹工整度、局部连贯性、句法正确性和篇章结构属于表达相关的特征;文采属于发展等级特征。

除了上述特征外,还可以利用人工神经网络对作文的语义进行深度表示,从而得以从宏观上把握文章的立意。

目前对文章立意的理解,主要通过大规模语料库和知识库的深度学习建模来实现。拿目前在国内比较前沿的科大讯飞来说,他们的专家在接受新智元采访时表示,已经使用了上百万篇学生作文进行训练,并且在多次高利害性考试验证结果,效果跟评卷专家不相上下。

机器阅卷技术的未来

未来,随着人工智能技术的发展,除了开放式作文、甚至政史地问答题等试题的批阅中,机器都可以自动阅卷。机器可以自动学习教师的阅卷方法。比如一次考试有2000份卷子,从第一份卷子开始,机器就可以学习教师的阅卷方法,学到200份的时候机器就可以代替人工,自动对剩下的试卷进行智能化打分。

如果全自动机器阅卷变成现实,“阅卷”这件需要教师们投入大量人力物力才能完成的事将变得轻松,教师们将会有更多的时间和精力被解放出来,投入到对教学方法、教学手段等创造性工作的研究中,相信学生们也会因此获得更好、更全面的教育。

目前,在国内机器智能阅卷技术发展中,科大讯飞已经在安庆、合肥等地成功试点应用。经过对人机评分结果的分析,计算机在评分一致率、平均分差、相关度以及与仲裁分更接近的比例等指标方面都已达到或超过人工评分水平。这意味着,让机器评阅主观题已不再是空想。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-06-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Python自动化测试

学历和能力对程序员那个更重要

央视新闻曾做过关于高考的调查,结果有七成网友支持高考取消数学,看到新闻后,有一位网友却一针见血地评论道:数学考试存在的意义就是把这七成网友筛选掉。

1317
来自专栏AI科技大本营的专栏

CCAI 2017 | 邓小铁:金融博弈下的价值学习

上海交通大学计算机系邓小铁教授 文/CSDN焦燕 7 月 22 - 23 日,在中国科学技术协会、中国科学院的指导下,由中国人工智能学会、阿里巴巴集团 & 蚂蚁...

3696
来自专栏新智元

【Geoffrey Hinton传奇】你我都是机器人

来源:TorontoLife 作者:Katrina Onstad 编译:文强,司明,张乾 【新智元导读】Torontolife以“Mr Robot”为题对Hin...

3619
来自专栏BestSDK

哪些事情被大数据预测对了?

近日,印度初创公司 Genic.ai 开发的 MogIA 人工智能系统一时间火遍了社交媒体,也登上了各大媒体的标题栏,如果你还不知道那真的是 out 了。 怎么...

3086
来自专栏大数据文摘

业界 | 福布斯:2018年机器学习试点及实施数量将翻倍

1763
来自专栏大数据文摘

习大大今年新年献词的书架上,多了这两本AI读物

1612
来自专栏人工智能头条

上海交通大学邓小铁:金融博弈下的价值学习

971
来自专栏大数据文摘

[专访]用大数据解放科学家,学术更简单

26310
来自专栏AI科技评论

AI 影响因子 8 月份回顾:腾讯 AI Lab 再占榜首

「AI 影响因子」是雷锋网学术频道 AI 科技评论旗下数据库项目,旨在呈现国内企业研究院学术&开发实力,为高校学生及从业者提供在会议/期刊论文、数据集比赛及开发...

1332
来自专栏新智元

中国团队“霸屏”全球权威人脸识别竞赛,依图夺冠!

根据最新公布的全球权威人脸识别供应商测试 FRVT 结果,旷视、商汤和依图这三家视觉独角兽首次在公开场合同台竞技,最终由依图拿下第一。

982

扫码关注云+社区

领取腾讯云代金券