观点 | 双盲评审靠谱吗？这篇谷歌清华论文也许能给出答案

机器之心

发布于 2018-05-09 11:22:14

1K0

发布于 2018-05-09 11:22:14

文章被收录于专栏：机器之心

选自Google Research

作者：Andrew Tomkins、William D. Heavlin

机器之心编译

参与：刘晓坤、黄小天

谷歌联合清华大学在第 10 届计算机网络搜索与数据挖掘国际会议（WSDM 2017）的同行评审阶段通过实验比较了单盲评审和双盲评审的行为差异，研究结果表明单盲评审中存在多种偏差，包括作者知名度、从属机构甚至性别都有可能影响最终的评审结果。

在 17 世纪，一系列不同的实践被统称为「科学方法」。这些实践把可验证的实验方法编码为一条通向科学知识的路径。科学文献上升为验证和传播新发现的机制，而科学同行评审的标准发展为一种控制新入行者质量的方法。在同行评审的整个发展过程中，目前仍有一个关键的结构化问题未得到解决：评审人应该知道论文作者的身份吗？持肯定观点的人们认为这种附加信息可以帮助评审人透视整个研究，并能更完整地对其进行评价。而持否定观点的人们认为评审人可能会倾向于按作者过去的表现形成自己的见解，而不是眼前的研究价值。

关于这个主题的已有学术文献描述了几种具体形式的偏差，当评审人知道了作者的身份之后，这些偏差可能会上升。在 1968 年，Merton 提出了马太效应（Matthew effect），借此可以说明为什么越出名的学者可以得到越高的学术评价。之后，Knobloch-Westerwick 等人提出了玛蒂尔达效应（Matilda effect），借此可以说明为什么男性第一作者的论文相比女性第一作者的论文能得到更高的科学评价。但是除了 Rebecca Blank 1991 年发表在《美国经济评论》的一项经典研究之外，还出现了一些关于学术论文评审效应的可控实验研究。

去年，我们得到了以实验研究该问题的机会，研究结果被整理为「Reviewer bias in single- versus double-blind peer review」这篇论文，该论文最近发表在《美国国家科学院院刊》上。论文的合作者是清华大学的张敏教授，我们在第 10 届计算机网络搜索与数据挖掘国际会议（WSDM 2017）的同行评审阶段进行了一项实验，即比较评审者在单盲和双盲条件下的行为表现。我们的实验过程如下：

我们邀请了几个专家参加程序委员会（Program Committee，PC）的研讨会。
我们随机将这些 PC 成员分成单盲组和双盲组。
我们要求所有的 PC 成员对他们能胜任评审的论文进行招标，但只有单盲组的成员知道论文作者的名字和从属机构。
然后基于招标的结果，我们从中各选取出两个单盲和两个双盲成员，对所有的论文进行评审。
每一个 PC 成员将阅读论文然后写下评审结果。

结果，我们得到了单盲和双盲 PC 成员对同一篇论文的招标和评审行为的差异，有些结果令人惊讶。

我们首先发现，与双盲评审人相比，单盲 PC 成员倾向于为来自顶尖机构（包括大学和公司）以及由知名作者写的论文打出更高的分数。这表明由刚崭露头角的研究者写的论文，相比领域中的明星级研究者的同类论文，可能会被（单盲 PC 成员）给予更负面的评价。

更进一步，我们展示了一些与「招标过程」有关的其他发现，PC 成员指出了他们想要评审什么论文。我们发现 (a) 单盲 PC 成员的招标相较于双盲成员少了大约 22%，(b) 单盲 PC 成员更喜欢招标著名高校和巨头公司的论文。(a) 发现尤其耐人寻味；看不到作者信息，评审人掌握的信息就更少，使得论文评选工作更加困难。然而，双盲评审人相较于单盲评审人招标了更多而不是更少的论文。这表明双盲评审人更多地参与了审查过程。(b) 发现并不令人吃惊，但无疑是有启发性的：作者姓名和机构信息的存在被纳入进了评审人的招标之中。在其他条件相同的情况下，单盲评审人招标顶级机构论文的可能性大约高出平均值 15％。

我们同样研究了作者的真实性别或观念是否影响单盲 vs 双盲评审人的行为。最终的结果有点微妙。相较于双盲评审人，我们看到单盲评审人给予女性创作论文好评的概率下降了约 22％，但由于女性创作论文数量较少，这一结果不太具有统计学意义。在本论文的扩展版本中（https://arxiv.org/abs/1702.00502），我们考虑了我们的研究以及文献中的一系列其他研究，并对所有结果进行了「元分析」。从这一范围更大的观察中，综合结果确实给出了有关性别影响的重大发现。

总而言之，我们看到双盲评审产生了更为密致的招标格局，这有利于更好的论文分配到合格的评审人。我们也观察到，掌握作者和机构信息的审稿人倾向于更多地招标顶级机构论文，并投票接收顶级机构或著名作者的论文而不是其他一般的双盲论文。这提供了一些证据表明存在这样的可能：如果作者比较有知名度，或者来自顶级机构，那么其论文在单盲情况下被接收，反之则被拒绝。当然，实际情况依然复杂：双盲审查给会议组织者带来行政负担，减少了发现不同利益冲突的机会，并且在某些情况下由于预印或为领域专家所熟知的长期运行的议程的存在而难以执行。无论如何，我们建议期刊编辑和会议主席认真地考虑双盲评审的优势。

论文：Reviewer bias in single- versus double-blind peer review

论文链接：http://www.pnas.org/content/114/48/12708.full.pdf

同行评审可以是「单盲」（single-blind），即评审人知道论文作者的名字和所在机构；也可以是「双盲」，即无法查看此类信息。注意到计算机科学研究通常先于杂志或者只出现在同行评审会议中，我们在第 10 届计算机网络搜索与数据挖掘国际会议的背景下研究了这两种模型，这个会议的接收率很高（15.6%），专家委员会成员会对接收的提交论文进行评审。我们展示了一个可控实验，其中有四个专家委员会成员对每一篇论文进行评审。四个评审员中的两个从了解作者信息的委员会成员中选取，另外两个评审员从不相交的其他成员（即不了解作者信息）中选取。这种信息不对称在论文招标、评审和打分阶段会一直保持。通常单盲条件下的评审人的招标论文数相对要少 22%，并更倾向于顶尖大学和巨头公司论文。一旦论文提交到评审人手上，单盲评审人更明显地倾向于推荐知名作者、顶尖大学和巨头公司论文。我们得到了具体的评估赔率乘数（odds multipliers），分别是 1.63、1.58 和 2.10。

原文链接：https://research.googleblog.com/2017/11/understanding-bias-in-peer-review.html

本文为机器之心编译，转载请联系本公众号获得授权。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-12-02，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自机器之心微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

观点 | 双盲评审靠谱吗？这篇谷歌清华论文也许能给出答案

观点 | 双盲评审靠谱吗？这篇谷歌清华论文也许能给出答案

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐