文章/答案/技术大牛

发布

Nature：百名科学家自引用率超50％，最高自引94％

文章来源：企鹅号 - 机器之心

机器之心报道

参与：张倩

美国科学公共图书馆生物期刊（PloS Biology）近日发布的一份数据库显示：数百名研究者的论文自我引用率超过了 50%，部分研究者的自引率甚至超过了 90%。这么高的自引率到底算不算学术不端？是什么推高了自引率？如何避免过度自引带来的负面效应？我们将在本文中探讨这些问题。

一个数据库揭露的事实

导语中提到的数据库全称是「A standardized citation metrics author database annotated for scientific field」（科学领域标准化引用计量作者数据库），其中包含过去 20 年 176 个子领域被引用最多的 100,000 名研究者的标准化引用数据，包括引用量、h-index、合著-校正 hm-index 等指标。该数据集由斯坦福大学、爱思唯尔等机构的研究者共同创建，数据来自爱思唯尔专有的 Scopus 数据库。该团队希望找到那些有助于提高引用量的因素。

数据库简介：https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3000384

数据库下载地址：https://data.mendeley.com/datasets/btchxktzyw/1

数据库文件，其中它包含了十万研究者的引用量、h-index、一作论文数、独立作者论文数、自引用比例等 42 项特征。表格中的第一个选项卡描述了所有特征都是什么，就算单独拿出来也是一个非常好的数据集。

令创建者始料未及的是，数据库发布之后，其中的研究者自引率成为了大家关注的焦点。

《Nature》的一份新闻特写对该数据库中的自引率问题进行了报道，并举了其中一个比较极端的例子：一位印度研究者的自引率（被自己或自己的合著者引用的比例）竟然高达 94%（截至 2017 年）。

这位名为 Sundarapandian Vaidyanathan 的研究者是印度 Vel Tech 大学的一名计算机科学家，他的例子比较极端，但并不是个例。该数据集中包含 100,000 名研究者，其中至少有 250 位研究者的自引或被自己合著者引用的比例超过了 50%，数据集的自引率中位数为 12.7%。

一所「弯道超车」的大学

其实早在 2017 年，国外问答网站 Quora 上就有关于 Vaidyanathan 及其所在学校印度 Vel Tech 自引率过高的质疑，QS 世界大学排行榜研究部主任 Ben Sowter 在回答区对此事进行了分析。

2017 年，印度 Vel Tech 科技大学突然跻身泰晤士高等教育（THE）世界大学排名子榜单「亚洲大学排行榜」（Asia University Rankings 2017）第 43 名，而在此之前，它从未进入过任何全球大学排行榜的前 1000 名。

排在 Vel Tech 后面的是日本顶尖研究型国立综合大学九州大学，THE 世界排名前 400，ARWU 排名前 300，QS 排名前 200。

Vel Tech 科技大学 2017 年亚洲大学排行榜得分情况。从左到右：综合分、引用分、产业收入分、国际化视野分、科研分与教学分。

排名上升如此之快着实让人惊讶。但如果仔细观察上图可以发现，虽然 Vel Tech 的其中三个分数均远远低于九州大学，但它有一项分数特别高，即第二栏的引用分，达到了 100 分。而这项得分的权重占到了 30%，所以导致 Vel Tech 最后综合得分也比较高。

相比之下，VelTech 的科研分只有 8.4，远远低于同位次的中国澳门大学和下面的九州大学，如此高的排名怎能令人信服？

其实，这主要是由榜单的发布方《泰晤士高等教育》的统计方法漏洞导致的。他们的统计方法没有将自引排除在外，而 VelTech 的自引用量刚好又很高，这才把这样一个普通的大学送上了如此高的位次。但 Ben Sowter 也指出，这家大学从 2015 年就开始光明正大地鼓励研究者引用自己的论文，因此，他认为这家大学是在故意操纵引用量这一指标，以骗过这些排名系统。

Ben Sowter 还用数据佐证了自己的说法。从爱思唯尔的 Scopus 数据库可以查到 VelTec 大学最近几年的引用量概况。如下图所示，该校被引量在 2015 年陡然上升，从 2014 年的 694 激增到 6187，这显然是不正常的。

出现这种现象通常是因为发表了某篇比较有影响力的论文，但从表中可以看出，没有哪篇文章可以带来这么大的增长，因为 2015 年引用量最高的论文被引次数也才 81，所以一定还有其他原因。

那么真正原因到底是什么呢？Sowter 提醒我们注意图中的一个复选框（标红部分）。

选中这个复选框之后可以排除该校的自引用量。按照这种方法，Sowter 算出了 VelTec 每年的自引用率：

计算结果显示，VelTec 的自引率呈逐年上升趋势，而且 2015 年突然上升了 34.5%，升至 95.0%！这样算下来，VelTec 科技大学 2011 年至 2016 年的 13,864 次引用中，有 12,548（90.5%）都是自引。因此，Sowter 表示，他们这种做法实在是居心不良。

随后，Sowter 也把矛头对准了上文中的 Sundarapandian Vaidyanathan，他是 VelTec 研发中心的院长。以 Vaidyanathan 2015 年发表的一篇文章为例，那篇文章列出了 144 个引用条目，其中 19 个是他本人之前的研究。该论文的被引量是 114，其中 112 次被引来自他自己的其他论文。

因此，Sowter 认为，这种做法在学术上是无效的，根据这种数据对一个机构进行评价也是无效的，除非你是爱因斯坦。因此，他建议在排名分析中将自引排除在外。

Sowter 还表示，过高的自引率是一种作弊行为，背后有某些不可告人的目的，如获得奖励或研究经费。

高自引率是否意味着学术不端？

对于 Sowter 提出的质疑，Sundarapandian Vaidyanathan 也进行了回应。他表示，学术研究是一个连续的过程，「后面的研究不可能不以前面的为基础」，而这种自引并不是为了误导他人。

Vaidyanathan 表示，他的主要研究方向是混沌与控制理论。根据 Scopus 的记录，他总共发表了 348 篇研究工作（截至 2017），参与了约 50 个超混沌新系统的研究。他的研究在混沌理论方向排名第二，在超混沌理论方向排名第一。这些数据都可以证明他在混沌和控制理论方向的专业水准。因此，他认为，上述质疑并不合理。而且，他明确强调，他的自引不是为了达到自己或学校的某种目的。

此外，他还列出了自己在混沌以及其他领域的研究贡献，明确指出自己在多个学科都有良好的研究记录。

对于核心的自引问题，Vaidyanathan 回应称，他的研究会引用混沌领域等多个学科的最新进展，而这些最新的进展也包括他自己的。

此外，Sundarapandian Vaidyanathan 的朋友、他的 Top 3 合著者之一——埃及本哈大学的 Ahmad Azar 教授也在原贴下力挺 Vaidyanathan。Ahmad Azar 表示，Vaidyanathan 在混沌与控制领域有诸多创新性研究，而且成果颇丰，他的论文也被该领域广泛引用。

当然，说了这么多，Vaidyanathan 想表达的只有一点：他在自己的领域是一名顶级的研究者，所以引用自己的研究也是理所当然。

诚然，正如 Vaidyanathan 所说，科学研究是一个渐进的过程，新的研究需要建立在旧的研究之上，因此引用自己过去的研究也是合理的。但他似乎并没有解释为什么自己的自引率如此之高。如果如他所言，他是该领域的领军人物，那么为何其他人没有大量引用他的论文？

Vaidyanathan 的高自引率不禁令我们反思，这种行为可否被定义为学术不端？

7 月份，国际出版伦理委员会（Committee on Publication Ethics，COPE）将过度自引（extreme self-citation）列为引用操纵的形式之一。但斯坦福大学一位致力于元科学研究的学者表示，「那些自引率超过 25% 的学者未必是学术不端，需要进一步核查。」

尽管很多研究者都同意过度自引是一大问题，但对于多少是「过度」以及如何解决这一问题，人们并没有达成共识。这个问题的难点之一在于，研究者在有些情况下确实有正当理由引用自己或合著者的文献。

上述数据库的作者 Ioannidis 也警告说，他的研究不应该导致那些自引率高的学者受到诽谤，而且这些自引率可能因学科和职业阶段不同而产生差异。「它只是提供了一份完整、透明的信息，不应该被用于判断科学家的学术品行。」

是什么推高了自引率？

「我们将职业发展与这些引用指标挂钩，而且极度看中这些指标，这其实就是在鼓励自引。」俄勒冈大学的一位心理学家表示。

2017 年的一项研究发现，意大利的研究者在 2010 年一份有关晋升的政策出台之后自引率显著上升，这项政策规定，学者只有达到规定的生产率阈值才能获得晋升。

其他自引率较高的研究者还有数学家 Theodore Simos（76%）和医药化学家 Claudiu Supuran（62%），他们去年都被科莱恩分析公司（Clarivate Analytics）列入了 6000 名「世界级研究人员」的名单，这些研究人员因其出色的研究表现而入选。

由此可见，高自引率问题的根源其实是制度层面的。如果学术界在晋升、经费分配等方面不那么看中这些指标，研究者也不会费劲心思提高自己的论文引用量。

近年来，学术界对引用量、影响因子等指标的批评也越来越多。以色列本古里安大学（BGU）的软件和信息系统工程助理教授 Michael Fire 对 20 世纪以来大量学科研究的引用数、H-index 和影响因子等进行了统计分析，结果表明，这些指标已经失去了意义，甚至正在拖累学术研究。

他在分析之后得出了几大结论：

1）研究结果支持古德哈特定律（Goodhart's law），即当传统指标（如论文数量、引用数量、h-index 和影响因子）成为目标后，这些指标也就失去了重要性／影响力。把论文写短一点、和更多作者合作可以帮助研究者在同等时间下产出更多论文。

此外，论文结构的主要变化与高引用量有关。作者可以使用较长的标题和摘要，或者在标题中使用问号或感叹号，使论文更有吸引力，从而增加引用量，即「学术界的标题党」……这些结果支持了一个假设：学术论文为了符合目标指标而不断变化。

2）论文引用量成为很多研究者的目标。他观察到研究者在新研究中引用其以往研究的频率呈增长态势，一些作者甚至数十次、数百次引用自己的论文。

此外，大量论文——超过 72% 的论文和具备至少 5 个参考文献的论文中有 25% 的研究在发表 5 年后就没有人引用了。很明显，大量资源被花费在影响有限的论文上了，这可能表明研究者发表更多低质量论文的目的在于增加论文发表数量。

Michael Fire 的研究结果与上述高自引率问题高度吻合。也就是说，h-index 等论文量化标准有太多可以操纵的空间，已经成为学界的一个问题，因此其重要性和作用正变得越来越低。

如何避免过度自引带来的负面效应？

毫无疑问，现行的论文和研究者评估制度是有问题的。但我们依然需要一个量化指标来决定经费分配、升迁等现实问题，因此我们要做的只能是优化这些指标。

印度尼西亚的研究部门利用基于引用量的公式来分配研究经费和奖学金，但去年，该部门表示，有些研究者利用过度自引或小团体互相引用等不端行为操纵分数，他们因此已经暂停了 15 名研究者的经费，并计划在公式中减去自引指标。但研究者表示，这一计划还没有实施。

但也有人对这种做法持反对意见，上个月发布的一份讨论文件显示，COPE 反对将自引剔除出指标的做法，该组织表示，「这种做法不利于我们了解自引的正面学术价值。」

早在 2017 年，瑞士苏黎世大学的一名生物学家 Justin Flatt 就呼吁对研究者的自引记录进行更加清晰的说明。他建议创建一个 s-index，即自引指数，计算方法和 h-指数类似。也就是说，如果一位研究者的 s-index 是 10，那么意味着 Ta 有十篇论文至少被自己引用了十次。

Flatt 已经获得了一笔资金，用于 s-index 的数据收集工作。他也同意 Ioannidis 的观点，即此类研究不是为了设立某种限制标准，也不是为了点名批评那些自引率高的人。但只要学术界继续用 h-index 作为宣传指标，我们就有理由创建 s-index。

最后，我们都非常关心的是，那些人工智能学者们的论文自引率如何？据数据集统计，AI 大牛们的论文自引数量普遍低于平均水平，这可能是因为人工智能领域是一个快速发展的领域。

刚刚获得 2018 图灵奖的人工智能巨头 Geoffrey Hinton 自引率为 1.2%、Yann LeCun 1.61%、Yoshua Bengio 为 1.8%；斯坦福大学教授吴恩达的论文自我引用率为 1.57%，李飞飞则为 2.51%。阿尔伯塔大学教授 Richard Sutton 的自引率是 6.01%。

曾被人吐槽在文章中自我引用的 LSTM 之父 Jürgen Schmidhuber，其自我引用的比例也仅为 5.03%。相比之下，本文主角 Sundarapandian Vaidyanathan 高达 94% 的数字就显得有点吓人了。

参考链接：

本文为机器之心报道，转载请联系公众号获得授权。

------------------------------------------------

发表于: 2019-08-212019-08-21 12:05:06
原文链接：https://kuaibao.qq.com/s/20190821A0A57D00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Nature：百名科学家自引用率超50％，最高自引94％

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐