机器人批改作文 你觉得它能胜任吗?

都市快报消息,一篇200字不到的作文,机器人用几十秒时间找出了8处语法和用词错误。最近,在浙江外国语学院国际学院,来自俄罗斯、韩国、赞比亚等6个国家的11位外国留学生完成了一份特别的中文试卷,他们成为了全球首批用人工智能(AI)来阅卷的学生,而这款人工智能来自于阿里巴巴。

在考试前,老师布置了一道名为“请写一写你的爱好”的命题作文。半个小时后,同学们陆续交卷。接下来这个阅卷机器人开始工作。

先将试卷扫描,在后台图像被转化成文字出现在电脑上,几十秒之后,迅速在一篇200字不到的作文里圈出了8个错误。

这篇作文是这样写的:我的爱好是学中文,中文使我快乐。但中文的难点并非是字,而且像女朋友一样善变。比如,我到中国才知道了大姨妈不是人。而且,有一次我问舍友去吃饭不去,他说:我去,我才不去。我的内心是崩溃的。我问他“你这是什么意思?”他说:“没什么意思,意思意思。”我受到了上帝得暴击。然而,我的不会放弃的。除非中国人也放弃我才会放弃。听说这次的试卷是AI老师看的,如果他们会教给外国人学习中文是很好的消息。

在这份试卷上,阿里AI用代表不同意义的符号在试卷上,圈出多词(Redundant)、缺词(Missing)、错词(Selection)和词序错误(Word Order)等错误位置,完成了对作文的批改。

比如AI认为,“但中文的难点并非是字,而且像女朋友一样善变”这句话里有两个错误:“是”多用了,“而且”是错词。

浙江外国语学院外语系李老师说:“我们希望科技能够帮助外国留学生们理解中文。前两天正好在报纸上看到,阿里巴巴iDST人工智能在中文语法错误自动诊断大赛上夺得冠军,我们就试着邀请这个‘AI老师’帮助外国留学生学中文。没想到得到了回应。”

阿里巴巴的工程师透露,这款AI学习了几十万的中文语言体系,通过扫描仪读取试卷信息,使用OCR技术将其转换成文本,之后启动自然语言处理算法进行分析,并识别出错位类型和位置,最后批注在试卷上。整个过程大概只需约5秒。从目前的测试情况来看,阿里“AI老师”在准确率和细致程度都是接近甚至超乎人类的水平。

事实上,把AI应用到外国人学中文试卷批改上,是全球首例。11月24日,阿里巴巴iDST在中文语法错误自动诊断大赛(Chinese Grammatical Error Diagnosis,以下简称 CGED)三个level中全面夺得冠军。

CGED是自然语言处理领域的权威赛事。比赛的背景是:学习中文的外国人数不断增加,由于中文的博大精深,外国友人在中文写作中会出现各种错误。主办方挑选了一些外国友人写的中文作文片段,希望参赛者用人工智能算法自动识别里面的语法语义错误。

阿里巴巴iDST自然语言处理首席科学家司罗说,中文语法诊断的挑战性在于,中文语言知识丰富、语法多样;人在判断一句话是否有错误的时候,会用到长期积累的知识体系(比如一句话是否通顺、两个词是否可以搭配、语义上是否成立等)。相比之下,比赛提供的训练数据非常有限,仅通过训练数据来识别错误是很困难的。

司罗团队横跨中国(杭州/北京)和美国(硅谷/西雅图),普遍拥有10年以上自然语言处理研发经验,30%以上有博士学历。团队多次在国际自然语言技术竞赛中取得冠军成绩。

本文来自企鹅号 - 重庆晨报媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

用大数据抓J.K.罗琳的“马甲”

2013年4月,一本普通的破案小说“The Cuckoo’s Calling”(中文译名:《布谷鸟的呼唤》)上市了,作者是Robert Galbraith,一名...

2584
来自专栏量子位

1亿中国人已被AI批改过作业

901
来自专栏大数据文摘

Neurons字幕组 | 2分钟带你了解如何把人类表情迁移到大猩猩上

1453
来自专栏大数据文摘

[译]贝叶斯生存分析之“权利的游戏”

2556
来自专栏PPV课数据科学社区

【学习】学习R语言对金融分析人士有何意义?

  说一说我的背景,大学里c入门,转入R。在学校里弄了一阵生统与经济。现在搞云端理财的网站,后端是用R实现的,搞量化风险管理和资产组合的,其中要用到很多运算。R...

2715
来自专栏机器人网

学编程该学什么语言?请看IEEE的编程语言最新排行榜

一年一度的IEEE Spectrum编程语言排行盛宴又来了,来看看今年7月26日发布的前十名榜单。这个排行榜已经进行了三年。IEEE Spectrum的排序是来...

3217
来自专栏数据小魔方

Python数据抓取与可视化实战——网易云课堂人工智能与大数据板块课程实战

本篇内容数据抓取对象为网易云课堂人工智能与大数据板块课程信息,使用的工具是urllib+postman,因为直接构建的POST抓取的josn数据包,所以数据抓取...

3934
来自专栏Python中文社区

Python分析《羞羞的铁拳》电影观众评论

專 欄 ❈ 伟楠,Python中文社区专栏作者,数据分析师,知乎专栏:数据故事会。 https://www.zhihu.com/people/hao-wei-...

2087
来自专栏DT数据侠

这个2017最佳数据可视化案例,竟是个音乐剧freestyle

《汉密尔顿》这部红极一时、创造票房奇迹的音乐剧,不仅让奥巴马全家观看了两次,也影响了整个美国百老汇。今年‍‍的“GEN数据新闻奖”中的年度数据可视化奖,就被来自...

680
来自专栏CreateAMind

博士这五年 (非常值得学习!)

王威廉:根据我的观察,CMU优秀博士生的一个共同特点就是自己主导研究,推着(push)导师走,而不是被导师催着干活。不论是早期的李开复,后来的沈向洋,还是现在年...

1072

扫码关注云+社区