不止你们可以吐槽高考作文,机器也可以!

在吐槽满屏的高考季,高考作文成最大槽点。如果我们放下人类的架子,从AI算法的角度来观察,会不会看到什么新奇的结果?小编向达观AI机器君投喂了近几年的高考命题和满分作文,利用文本挖掘技术,带你揭秘高考试卷背后的种种细节。

1

多读书,一定要多读书

拿到今年的高考试题,机器君就算出了热度最高的关键词。去掉了诸如“题目自拟”,“篇幅不限”等通用词以及“的”、“了”等虚词,TOP10如下:

稍加分析,可以发现这些词分为三个大类:我们自身,外部社会以及阅读。“我们”、“我”、“自己”属于第一类,“人”,“纽带”,“他们”,“中国”,“时代”属于第二类,“书”、“阅读”、“书店”属于第三类。

事实上,强调关注自身、关心社会和阅读求知,一直是高考命题的重心所在。我们继续向机器君投喂了过去三年的高考作文题目,得出了Top15如下:

是不是有点似曾相识?除了“书店”以外,今年的热词都是往年的熟面孔。往年的这些高频词,同样可以系统地纳入“我们自身,外部社会以及阅读”这三大范畴。比如“范儿”这一流行词体现的是一种社会现象,“学习”和“阅读”属性相似,“生活”则是我们自身与外部社会结合的结果。

了解了高考命题的侧重点和思路,一篇好的高考作文要素也就呼之欲出:一方面要善于观察和思考自身与社会,另一方面要“腹有诗书”,才能厚积薄发。接下来,我们将向机器君投喂最近5年的满分作文,看看它对写好一篇高考作文,还有哪些其他见解。

2

结构各种多变,脉络始终清晰

一篇好的作文,既要关心人生与社会,传达出富含底蕴的内容,也要打造令人赏心悦目的修辞风格,展现出形式的美感。

所以,高考阅卷老师最偏爱什么样的形式呢?

去年全国卷I的作文题目是看图说话:

有考生们写出这样的题目《致母亲的一封信》……第一眼看到这个题目小编是一脸懵逼的。

不过,用文本摘要算法自动摘取了关键句后,对文章就有了一个清晰的概观:

显而易见,文章的结构是先点题再讲故事,情节先就是两条——“你对我一往情深”+“可是我活得很累”,骨架十分清晰。即使把选取范围缩减到三句,也仍然能体现这些信息:

除了“正-反-合”式的典型辩证法逻辑,完全从反面来立论的“反-正”结构也不在少数,在议论文中尤其多见。

比如2014年全国卷II的主题是“给野生动物喂食,易使它们丧失能力”,满分作文《授之以渔,摆脱依赖》的top5关键句如下:

前面四句都是从反面来论证,“太溺爱必酿恶果”,最后才引出结论——“不如放手”。这种写法“欲扬先抑”,最后点睛,能产生“四辆拨千斤”的结果。

此外,“重叠式”的结构效果也不错。2013年的全国卷1的作文试题围绕“切钻石”,试题的关键句是“不去想价值(方面)的事,手就不会发抖”,当年的优秀作文《钻石有价,我心泰然》就据此展开了论述。对其进行文本摘要处理,抓取关键句如下:

这篇文章采用的结构是用排比的方式,重复突出“唯有……才能……”这一形式的论点,从而让阅卷老师产生深刻的印象。不过这样的论述毕竟有些单薄,这可能也是这篇文章虽然得分不低,但没有摘到满分桂冠的原因。

上述这些作文虽然采用了不同的结构,但是都有一些共同的形式上的特点——每一段的主题都很清晰,全文的脉络也自然连贯。

3

修辞简约受青睐

修辞也是文章形式的重要组成部分。修辞手法一般可以分为“消极修辞”和“积极修辞”两大类。前者强调结构清晰、表达明确、节奏允当,打造的是简约风格,后者则强调使用比喻、排比等手法,能营造出丰繁、绚烂的风格,产生引人入胜的效果。

对于高考作文来说,到底哪种风格更受青睐呢?

首先,机器君对近5年的30篇高考优秀作文进行了“句长方差”分析。 这些文章的句长方差均值为7253,最大值为16224,最小值为1595,差别还是有点明显。 不过一串数据的平均值受极端值影响明显,这串数据的中位数仅为5103,方差超过10000的仅有3篇,可见这串数据呈现某种偏态分布,方差较低的文章在整个优秀作文语料库中占据更多的比重。

从文章风格上说,方差较小说明作者用的长句较少,短句之间搭配也比较平稳,这样会使文章易读、易理解。而方差较大则说明作者在行文中往往长短句交错使用,相对易读性会较差。

除了方差,机器君还对这些文本做了姓名识别。我们概念里总觉得,多引用名人名言能提高文章的“逼格”,提升文章的分数。但从高分作文中的姓名统计来看,事实并非如此。我们利用姓名识别算法识别出近5年的30篇(样本可扩大或不提具体数字)优秀作文中出现的热门人物,发现最热的居然是TA:

排名前五位的都是虚拟人物,其中出现频次最高、也最让人陌生的李明、苏觉是作文《双赢》中的两个虚拟主角;陈先生、小羽和老王是该年试题中的人物。

紧随其后我们看到了熟悉的名字,乔布斯,杨振宁,陶渊明,鲁迅……经过分析,这些人物又可分成两类。乔布斯、杨振宁等属第一类,他们主要作为一个故事案例集中出现在单篇文章中。而陶渊明、鲁迅则属另一类,他们经常在不同的文章中露面,每次仅仅po出一段金句,然后就事了拂衣去,深藏功与名。

从姓名识别的结果我们可以发现,首先,名人名言的引用并非与高分作文有必然联系。如《致陈先生的一封信》、《双赢》等,完全围绕身边的人或虚拟人物来写,根本不提及名人名言,最后仍然得到好评。其次,名人名言的引用多样性很重要。优秀作文中对名人的引用没有集中在少数大家都熟知的人物上,通常是多点开花,涉及多个领域。比如在2016年全国卷III的满分作文《成功创业新模式:天地人和》中,提到了袁隆平、恩格斯、诗人特朗斯特罗姆,比尔·盖茨、托尔斯泰等人物,涉及农业、哲学、文学、创业等多个领域。通观近年的优秀作文,即使是陶渊明、鲁迅这样的常见人物,在一篇文章中通常也不会出现超过一次。

无论是句长方差还是名人出现频率,都指向一个共同点,那就是高考阅卷老师不喜欢花哨的套路,更喜欢在有限的篇幅里把内容讲清、讲透的简约“范儿”。想想也是,毕竟每份高考作文的平均阅卷时间相当短,一篇文章只有在做到结构清晰、修辞简约,才能提高易读性,从而引起阅卷老师的注意。

4

“零分作文”负能量太多

和历年的满分作文相比,还有一群另类的存在也同样获得了大家关注,那就是千奇百怪的“零分作文”。

和满分作文相比,零分作文在文本指标上会有哪些特点呢?

真的有点像托尔斯泰所说的,幸福的作文都是相似的,不幸的作文各有各的不幸。从句长方差、姓名识别等角度来分析零分作文,显著性并不突出。不过,如果从情感分析的角度切入,两者之间的差异还是很明显的。

2015年的天津卷的主题是“范儿”,可是有位段子手写出了题为《范儿是我女朋友》的作文。我们将之和当年的满分作文《独一无二的“中国范儿”》进行摘要处理和情感分析,所得结果如下:

标题

《范儿是我女朋友》

《独一无二的“中国范儿”》

主题句1

范儿语气有点不自然

是中华文化的“创新范儿”

情感值

0.7713343919267586

0.9869721130779494

主题句2

人生能得范儿这样的姑娘

这些都是我中华的气度

情感值

0.9545948477157727

0.8057497701520568

主题句3

最终也是只为我一个人而存在

不管是哪个时代都不缺乏创新的人物

情感值

0.5848549702359683

0.9266931283037393

主题句4

范儿冷不防重重地甩过来一个耳光

中华文明中

情感值

0.04490160433754031

0.9561216556364209

主题句5

她穿运动服的时候很有范儿

莫过于我中华的“文艺范儿”

情感值

0.6387204669811454

0.9949815693467886

上表中的情感值,表示该句子呈现出积极情绪的概率。从中可以看出,满分作文的每一段均体现出较强的“正能量”,而零分作文在情感表现上则有点“不阴不阳”,甚至还出现了“范儿冷不防重重地甩过来一个耳光”这样的“暴力”内容,被机器直接评出了0.04的低分,实在有点尴尬。

情感表现上的不“积极”事实上不止会带来“负能量”的观感,而且会让人觉得修辞色彩和意思表达不够明确。在高考评分标准中,符合“偏离题意、中心不明确、内容不当、思想不健康、感情虚假”等项就可评为0分作文。倘若情感上偏向负面,那么触碰这些红线的概率就大大提升了。

5

小结

前面,我们在达观AI机器君的协助下从内容和形式两方面对高考作文的命题和范文进行了分析。

从内容上说,高考命题始终紧紧围绕“我们自身”,“外部社会”以及“阅读”这三个主题,鼓励考生对个人人生和社会多思考多观察,并加强阅读积累,提升文化底蕴。

从形式上说,高考阅卷偏爱主题结构清晰,脉络连贯,修辞简约的风格,对于花哨的套路以及“负能量”较为“嫌弃”。

对文本处理技术感兴趣欢迎关注达观数据,每周都有技术干货分享,大咖小白都能各取所需。

原文发布于微信公众号 - 达观数据(Datagrand_)

原文发表时间:2017-06-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏BestSDK

哪些事情被大数据预测对了?

近日,印度初创公司 Genic.ai 开发的 MogIA 人工智能系统一时间火遍了社交媒体,也登上了各大媒体的标题栏,如果你还不知道那真的是 out 了。 怎么...

3046
来自专栏机器学习算法与Python学习

Science大型撤稿报告:IEEE狂撤7000篇论文,中国两位超级撤稿大户曝光!

Science近日发布了一个“撤稿”报告,许多数字令人震惊:过去10年里学术期刊撤回的论文数量增加了10倍,撤稿率最高的国家中国排第7,撤稿最多的10位作者中,...

862
来自专栏人工智能头条

当今世界最NB的25位大数据科学家

5224
来自专栏量子位

Nature机器学习子刊被讽开历史倒车,Jeff Dean等数百学者签名抵制

全球数百位学者联手署名反对的事情并不太常见。这次,大名鼎鼎的学术期刊《自然》(Nature)杂志却被机器学习界的朋友们集体抵制了。

1072
来自专栏量子位

2018星际AI大赛冠军诞生!一个个机器学习算法,都输给不会学习的韩国bot

二十多个掌握了机器学习技能的AI,全都在一个不会学习、只会基于规则机械行动的bot面前,俯首称臣。

1213
来自专栏华章科技

细思极恐!大数据和机器学习揭示十二星座的真实面目

原文链接:http://bbs.pinggu.org/thread-5905227-1-1.html

811
来自专栏腾讯大讲堂的专栏

女神颜值的评定标准 ——为什么没人说凤姐美?

编者注 作者做图像类相关APP的视觉设计,已有3年多时间(2012.5-2013.11魅拍,2013.12-2015.8天天P图),其中大部分时间在做提升女性照...

2706
来自专栏量子位

Hinton:人类就是机器,绝妙的机器

原文《Mr.Robot》刊载于 Toronto Life 作者 KATRINA ONSTAD 摄影 DANIEL EHRENWORTH 编译 夏乙 唐旭 量子位...

3529
来自专栏PPV课数据科学社区

【数据分析】EMC杯开放数据比赛 – 金刚队作品

今天为大家带来的优秀作品赏析,是来自交大的“葫芦娃大战变形金刚”队的“小康的吃路历程”。金刚队成员:康世勇、沈家齐、黄鈃灵、焦天翼、吴嘉韵。 饮食特征: 横坐...

3258
来自专栏CDA数据分析师

细思极恐!大数据和机器学习揭示十二星座的真实面目

? 原文链接:http://bbs.pinggu.org/thread-5905227-1-1.html “为什么我的论文总发表不了,是不是我天生就不是做...

3118

扫码关注云+社区

领取腾讯云代金券