当 AI 用于托福考试：倾向于给大陆学生的语法打更低的分数

文章来源：企鹅号 - AI研习社

存在缺陷的算法正在对数百万学生的论文进行评分

前言：来自Motherboard 的一项调查发现，尽管受到词不达意和极易受人类偏见的影响，自动化的论文评分系统在美国仍然被越来越广泛地采用。

作者 | Todd Feathers

编译 | Pita

每一年，都有数以百万计的学生参加统一的标准化考试，这些有问题的系统将会带来严重影响。像研究生入学考试（GRE）这样的国家级考试更是高等教育的把关者，而各个州的评估可以决定一切 —— 从学生能否毕业到联邦政府对学校和教师的资助。

在美国，传统的考试方式（纸+笔）已经逐步被电子化考试取代，而且连评卷过程也越来越多地依赖算法进行评价，就连书面文章也是如此。（编者注：不得不感叹这些技术真的大大解放了老师的负担啊！）

而根据 Motherboard 进行的一项调查显示，现在美国至少有21个州的标准化测试将自然语言处理（NLP）人工智能系统（通常被称为自动化论文评分引擎）作为初级或中级评分员。调查中只有三个州没有进行回应。

在这21个州中，只有3个州表示会有评卷人对每一篇文章进行评分。在剩下的18个州中，只有一小部分学生的论文（比例在5％到20％之间）将被随机抽取出来被评卷人重新评分，以检查这些机器评分算法的评分准确度。

但是，从心理测量学家（研究测试的专业人士）和人工智能学家的研究，以及Motherboard获得的文件来看，这些机器评分算法工具非常容易受到AI世界中反复涌现的缺陷的影响：对特定的人群存在偏见。正如Motherboard的一项实验证明所言，有些评分系统甚至会被含有复杂词汇的无意义论文所愚弄。

论文评分系统引擎实际上并不会分析写作质量。他们接受了数百篇示例论文的训练，以识别与人类指定的高分或较低分相关的标准模式。然后，他们根据这些模式预测评卷人会给一篇文章打多少分。

华盛顿大学计算语言学教授Emily M. Bender说：“问题在于（对特定的人群存在的）偏见也是另一种标准模式，所以这些机器学习系统也会接受它们。” “这些机器学习程序不仅会在训练集中发现这些偏见，而且会放大它们。”

图：根据Motherboard的一项调查，一张互动地图显示了美国哪些州使用了自动论文评分系统。移步原文可以进行放大查看。

AI 使“偏见斗争”开倒车？

长期以来，教育行业一直在与针对特定语言背景的学生的有意识和潜意识偏见作斗争，像在几个州禁止黑人英语口语教学的努力就证明了这一点。

专家表示，人工智能的崛起有可能会加剧这种歧视现象。在人工评分答案的数据集上训练机器评分算法引擎，可以弥补算法中存在的偏见。但是，这些算法引擎也高度关注句子长度、词汇、拼写和主谓一致等指标，这些是英语学习者和其他群体在写作中更可能采取不同做法的部分。这套系统也无法判断写作中更微妙的方面，比如创造力。

尽管如此，考试管理人员和一些州的教育官员已经接受了这项技术。传统工作中，论文由两名人工考官共同评分，但是让机器来给论文评分，或作为人工考官的后备评分，显然要省事得多。

目前对机器评分偏差问题的研究很少，部分原因在于创建这些系统的公司的对算法进行了保密。这些测试评分供应商严密地保护他们的算法，并且各州都不让人们知道是算法而不是人类正在对学生的文章进行评分。只有少数已发表的研究检验过这些引擎是否平等地对待来自不同语言背景的学生，但这些研究结果确实支持了一些批评人士的担忧。

非营利性教育考试服务中心（在括号中补充这个中心的英文简写）是少数（如果不是唯一的话）发布了关于机器学习评分偏差研究的供应商之一。它的“E-rater”引擎用于给一些州级的考试、GRE和The Test of English as a Foreign Language（TOEFL 托福）评卷打分 —— 外国学生在进入美国的某些大学之前必须参加这些考试。

“从我所接触过的该领域的所有人来看，这是一个普遍关注的问题，也是一个普遍存在的问题。”美国教育考试服务中心(ETS)的新产品开发副总裁David Williamson告诉Motherboard道。“只不过我们已经公开了这件事。”

大陆学生的语法在托福考试中更大概率被打低分

在1999年、2004年、2007年、2008年、2012年和2018年的研究中，美国教育考试服务中心(ETS)发现，它的机器评分算法引擎给一些学生，尤其是来自中国大陆的学生，打出的分数比人类专家的评分更高。与此同时，非裔美国人，以及在不同时期说阿拉伯语、西班牙语和印地语的人群，他们的得分会偏低——即使在试图重新配置系统之后也是如此。

“如果我们进行调整，虽然可以帮助一个国家的一个团体，但同时它可能会伤害另一个国家的另一个团体，”ETS高级研究员Brent Bridgeman表示。

针对这个问题，2018年12月的一项研究（Link：https://onlinelibrary.wiley.com/doi/full/10.1002/ets2.12192）中深入研究了ETS的算法，以确定出现这些差异的原因。

与参加GRE考试的所有考生相比，ETS的E-rater系统倾向于给来自中国大陆的学生的语法和力学打更低的分数。但是，该引擎在文章长度和复杂的词汇选择方面给他们的分数高于平均水平的分数，这导致他们的论文总体得分高于那些由专家评分的论文。Williamson 和其他研究人员写道，这些结果表明，许多来自中国大陆的学生套用了大量预先背诵好的模板文章。

与此同时，非裔美国人的语法、风格和语句组织能力(与文章长度密切相关的指标)在E-rater上的得分较低，因此得分低于平均水平。但是当专家们给他们的论文打分时，他们的分数往往要好得多。

这种偏见会严重影响学生在重大测试中的表现。GRE考试的作文按6分制评分，0分只给不完整或离题太远的作文。当美国教育考试服务中心(ETS)的研究人员比较了人类专家评分员和E-rater评分之间的平均差异时，他们发现，这个系统给中国学生的平均分为1.3分，而非裔美国人的分数则低于0.81分。当然这只是平均分的结果，然而对于一些学生来说，这些差距甚至会更大。

所有由E-rater评分的文章也会由一个人来评分，而这些存有差异的文章会被发送给另一个人评分，并综合几个评分决定最终评分。基于这项评分机制，ETS不认为有任何学生受到了在E-rater中检测到的偏见的不利影响。

根据联邦法律，未经他们（学生）的书面同意，在GRE和其他测试中披露学生的分数是违法的，因此想要对E-rater等系统进行外部审核几乎是不可能的。

2012年，新泽西州理工学院(New Jersey Institute of Technology)进行了另一项非常罕见的关于机器评分偏差的研究，他们正在研究哪些测试能够最好地预测一年级学生应该被安排在辅导班、基础班还是优等生写作班。

Norbert Elliot是《Writing Analytics（写作分析杂志）》的编辑，曾担任GRE技术咨询委员会成员，当时是新泽西理工学院的教授，并领导了这项研究。该研究发现，由美国大学理事会(College Board)持有的机器评分测试ACCUPLACER未能可靠地预测女性、亚裔、西班牙裔和非裔美国学生的最终写作成绩。新泽西理工大学认定，如果根据《联邦民权法案》(federal Civil Rights Act)第六或第七章的规定，它（美国大学理事会）无法为自己使用该测试进行法律辩护。

ACCUPLACER测试已经更新了，但是很多关于机器评分的重大问题仍然存在，特别是在没有人参与的情况下。

算法盲点

“BABEL生成器证明你的文章可以完全不连贯，这意味着一句话与另一句无关，”并且仍然能从算法中获得高分。

几年前，麻省理工学院(MIT)的前写作课主任Les Perelman和一群学生开发了Basic Automatic B.S. Essay Language (BABEL) 生成器，这是一个将复杂的单词和句子组合成无意义的胡言乱语呃程序。在几个不同的机器评分引擎运行时，这些毫无意义的文章却一直获得高分，有时甚至是完美的分数。

Motherboard复现了这个实验。我们给GRE的在线评分训练工具“ScoreItNow!”提交了两篇用BABEL生成的论文，一篇在“论题”类别中，另一篇在“论点”类别中，这个工具使用了E-rater系统进行评分。这两篇文章都得到了4分（满分6分），表明论文显示“对论点进行了有效的检验，并且传达的意思清晰、可接受。”

这是实验文章中的第一句话，阐述了技术对人类自我思考能力的影响：“Invention for precincts has not, and presumably never will be undeniable in the extent to which we inspect the reprover.（在我们检查责备者的程度上，对于领域的发明没有，并且可能永远不会是不可否认的。）”

Perelman告诉Motherboard，“BABEL生成器证明了你的文章可以完全不连贯，这意味着一句话与另一句无关”，并且仍然获得高分。

“自动化的写作评估只是在学生作品中标记元素的一种手段。如果我们过分强调书面惯例，即标准书面英语，那么你可以看到推动这一点的公式只会重视某些类型的写作，“前新泽西理工大学教授Elliot说。“对知识的了解只是学生写作能力的一部分.....有些学生可能有一种特别敏锐和富有洞察力的方式，人类在打分的时候会重视这一点，但是机器不会这样。“

尽管如此，Elliot仍然是机器评分论文的支持者，并使用NLP为作者提供即时反馈，当然前提是每篇文章的质量都要由人工评分。

“我对某所大学发生的事情持批评态度，但……我希望非常开放地接受利用技术来提升学生的成就，”他说。“我当然不希望关闭整个写作分析行业，因为这个行业已经建立，但是在某些情况下，人们已经发现它（写作分析系统的偏见）把学生分成了不合适的群体。

“但算法中存在的偏见，甚至对自动评分的好处也提出了质疑，比如对学生和教师的即时反馈。

“如果你给学生的即时反馈是有偏见的，那这个反馈有用吗？或者这种反馈也会使对某些群体的歧视持续下去？“ AI Now研究所的博士后研究员Sarah Myers West告诉Motherboard。

在大多数机器评分状态下，任何一篇人工评分（该评卷人是随机抽取的）和机器得分之间存在很大差异的论文都会被提交给另一个评卷人进行审查。

几年来，犹他州一直将 AI 作为其标准化测试的主要评分依据。

“对我们州来说，除了非常耗时外，提交分数也非常耗费成本，”该州评估发展协调员Cydnee Carter说道，“这一自动化过程还将允许州政府向学生和教师提供即时反馈。

图：美国航空公司(AIR)在2017年至2018年的一份技术报告中向犹他州教育委员会(UTAH STATE BOARD OF EDUCATION)提供了一个书面回答问题的例子，该问题由AI进行评分。

通过公开记录请求，Motherboard获得了由其服务时间最长的测试提供商 —— 非营利性的美国研究协会(AIR)为犹他州准备的年度技术报告。这些报告提供了供应商如何监督他们的论文评分系统以实现公平性的一瞥。

每年，AIR都会在全州评估期间测试新的问题。它监测的一个问题是，女性学生或来自某些少数群体的学生在特定问题上的表现是否比在测试中得分相似的白人或男性学生表现得更好或更差。这种测量称为微分项功能（DIF）。

2017-2018学年，AIR在犹他州发布了348个英语语言艺术问题，这些问题对3至8年级的少数族裔或女性学生表现出轻微的DIF，而对白人或男性学生表现出40个DIF。它还指出了3个ELA问题，这些问题表明少数民族或女性遭受严重的DIF，即偏见。

标记为严重DIF的问题将提交AIR的公平和敏感性委员会进行审查。

在这些情况下，很难确定偏见的原因。AIR的自动评分系统高级主管Susan Lottridge表示，这可能是提示词的措辞、有偏见的评分员，或者算法存在偏见导致的结果。

“当涉及到这些开放式项目时，我们并不真正了解DIF的来源，”她说。“我认为这是一个真正属于研究领域的领域。”

总的来说，AIR的机器评分引擎“在(人口)群体中的表现相当相似，”Lottridge说。

对一些教育工作者来说，这还不够。2018年，由于老师和Perelman等写作专家的强烈抗议，澳大利亚搁置了在全国标准化考试中实施机器评分的计划。在整个尚未成熟的人工智能行业，偏见问题正促使企业重新考虑这些工具的价值。

“在更广泛的人工智能领域，这是一个非常大的问题，”韦斯特表示。“在这个领域内，指出偏见是多么复杂和根深蒂固的问题，这仍然是一个持久的挑战。当然了，即便这个问题很难，但并不意味着我们不需要解决这个问题，特别是当这些测试决定人们获得工作所需的证书的时候，解决这个问题更是非常必要。“

via https://www.vice.com/en_us/article/d3qwzq/why-i-left-my-public-school-job-in-oklahoma-to-teach-in-abu-dhabi-v25n3

发表于: 2019-08-262019-08-26 19:51:36
原文链接：https://kuaibao.qq.com/s/20190826A0OJ7S00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

当 AI 用于托福考试：倾向于给大陆学生的语法打更低的分数

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐