学界 | 别再抄袭论文图片了,机器学习算法能自动检测出来

AI 科技评论按:近期来自纽约雪城大学的 Daniel Acuna 等人在 bioRxiv 上发表了一篇文章,作者在文章提出了一种机器学习算法,该算法能够自动进行论文图片查重,其目的旨在解决文献查重中的一个死角——图片查重。

目前许多期刊都会对一些图片进行查重,但只有极少数的期刊有自动化的查重流程。例如《Nature》期刊对收到的稿件一般会进行随机抽样查重,《Journal of Cell Biology》以及《The EMBO Journal》等期刊则对稿件中的大部分图片进行手工查重。显然手工查重费时费力,这也是为什么到目前为止大部分期刊都没有图片查重这一项。

然而这并不意味着图片查重不重要;如果能够及时发现不当的图片抄袭(重用),那么可能会制止许多学术不端行为。

以 2014 年轰动学术圈的小保方晴子(Haruko Obokata)学术造假丑闻为例,当时小保方团队同一天在《Nature》上发表了两篇文章,文章称他们从新生小鼠身上分离的细胞通过 STAP 方法能够获得胚胎干细胞。

据后来人们的调查发现,在文章中竟赫然有两张图片使用了她在博士学位论文中的图片,而这些图片当时是用于表示细胞原本就处于胚胎状态的,而非 STAP 之后变为胚胎状态。在这个事件中,如果《Nature》期刊能够在发表之前检测出文章中的图片重用,那么这个让整个学术圈震惊的造假丑闻也许就能扼杀于摇篮之中了。

然而事实是,没有。

再说一下美国研究诚信办公室(US Office of Research Integrity, ORI)。ORI 有多种工具来协助工作人员进行图片,但每年他们也只报告了大约 10 例的学术不端行为;为了这少数的几例报告,不知道他们要查阅多少案例/文件以及对比多少图片。不过需要说明的是,ORI 并不会去主动审查学术不端(成本有点高),除非有匿名检举。

显然,他们期待自动图片查重程序的出现。

Daniel Acuna 等人发表在 bioRxiv 上的这篇预印文章或许为此提供了一线希望。

总的来说,作者首先分析了 PubMed Open Access Subset(PMOS)数据集(2015)中包含的 200 多万张图片,通过他们开发的自动查重管道能够自动检测出由相同的第一(最末)作者发布的多组论文的图片重用。之所以做出「相同的第一(最末)作者」的限定,是为了降低模型的时间复杂度。由于缺乏相应的测试数据集,作者就制定一个标准,然后让一群人类审阅者手工来检查这些检测到的图片是否真的有重用,以此来评价自动查重管道的有效性。

下面我们来看这篇论文的详细内容。

数据

作者分析了 PMOS(2015)上来自 4324 个期刊的 760036 篇论文,其中有 2,628,959 张图片。当然并不是所有的图片都会被用到,例如有些是和公式相关;将这些图片从中清除掉。平均来说大约每篇论文包含 4.78 张图片。

方法

文章中使用的方法包括:复制-移动检测算法(Copy-move detection algorithm)、生物医学补丁检测(Biomedical patches detector)、人工评估算法的有效性。

复制-移动查检测法

作者在这里使用了和 V. Christlein et al.(2012) 相同的算法:基于关键点的检测方法。这有以下几个流程:

  • (Fig A)使用低阈值 SIFT 关键点检测算法计算关键点。
  • (Fig B)找到欧氏空间中图片上的所有关键点中两两邻近的点,这些关键点对的间距要小于等于第二近邻距离的 60%。将其他没有匹配或匹配程度小于 40 个像素的关键点移除。
  • (Fig C)对关键点进行平面聚类,移除聚类面积小于 40x40 平方像素的集群。如果再一个集群中,有超过三个关键点与同一个集群相匹配,那么就将这两个集群定义为匹配集群。
  • (Fig D)使用 RanSac 算法找到匹配的簇之间的仿射变换。

如我们前面所说,考虑到在数百万张图片上进行最近邻搜索的时间复杂度,作者在这里只分析了第一(最末)作者的数据。如果想要将这种算法应用到实际应用中,可能还需要考虑如何降低该算法的时间复杂度。

生物医学补丁检测

在科学文章中,许多图片都有着极为相似的区域,例如许多图片会使用相似的文本和形状来描述图形的某些区域(轴标签、箭头等),因此前面的算法发现的许多匹配可能就是这些内容。于是作者开发了另外一个额外的步骤。

作者首先从上一步「复制-移动检测」结果中抽取 20k 的样本,让随机森林来预测一个匹配是生物医学匹配的概率,然后根据预测的熵对这些匹配进行排序,选择出熵值较高的匹配,然后让一些论文作者来标记(哪些是生物医学匹配)。人工标记后,将这些数据添加到训练数据集中,然后重复这个过程。通过这种方式来清除掉非生物医学的匹配。

这种方法明显有一个很大的不足之处,即需要专业知识才能进行人工标注。这大大限制了本文方法的广泛应用。这个作者在文章中也有提到。

人工评估算法的有效性

论文图片查重研究的一个很大问题是,没有测试集。于是 Daniel Acuna 他们三人就担任了这个人类评估器。他们制作了一个基于网络的工具,这个工具包含了上述匹配结果中的 10000 个可能有问题的案例,并且提供了与 PUBMED 的链接,能够看到相应图片的标题、说明以及文章本身。三个人独立审查了所有这些案例,并按照 No problem、suspicious、potential fraud、fraud 来给这些匹配结果进行评估。

结果

经过以上三个步骤以及相关细节的约束,作者得出如下图所示的结果。

其中左侧 A 图为生物医学图被重用的比例。可以看出,在所有这些论文中有大约 1.5%(0.6%+0.9%)的论文是需要考察其论文是否存在欺骗,其中有 0.6% 的论文存在明显的图片重用。

另一方面,从右侧的 B 图,我们可以看出一个有意思的现象:跨论文的图片重用匹配更有可能属于学术不端行为(43.1%)。

讨论

这篇论文的意义一方面指出了 PubMed 开放获取的论文中,有相当多的论文(0.59%)被三位科学家一致认为存在欺诈行为,另一方面它提出了一种大规模分析文献图片重用(抄袭、欺诈)的方法,为各类期刊及研究诚信机构提供了可行的、节省成本的方法。

当然(我们也在上文中部分指出了)这项工作还存在着许多有待改进的地方:

  1. 在标记非生物医学补丁时,需要有专业背景知识的专家的参与,这大大限制了这种方法扩展到其他领域。如何改进算法或框架,从而不再需要专家知识,是接下来研究的重点之一。
  2. Daniel Acuna 等人的这项工作为了降低时间复杂度,一方面只选择了少量的生物医学的出版物(4324 个期刊的 760036 篇论文),另一方面只考虑了第一(末位)作者自身论文中的图片重用现象。能否将这种方法应用到亿级规模的出版文献库中,还有待观察。不管怎么来说,降低模型的复杂度,是将这种方法推广到工业级的必由之路。
  3. 还有一点,也是这种方法的一个痛点,即没有测试集。如何构建训练-测试集,可能是促进相关研究的一项重要工作。从利益相关的角度来说,可能期刊和研究诚信机构更应该在这些方面做出努力和尝试。

但是不管怎么说,这篇文章所构建的这种方法可能将是实现针对学术文献中图片查重漫长而艰辛的征程中的第一步。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-02-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【重磅】谷歌推出 Wide Deep Learning,开源 TensorFlow API

【新智元导读】今天(美国加州当地时间29日),资深软件工程师 Heng-Tze Cheng 在 Google Research 发表博文,宣布谷歌研究所最新推出...

4185
来自专栏机器学习算法与Python学习

2017年度盘点:Github上十大有趣的机器学习项目(文末有惊喜......)

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 目录: AlphaZero-Gomo...

5136
来自专栏量化投资与机器学习

【Matlab量化投资】GFTD指标程序化实现(附源码)

广发证券很早出过两篇研报。一篇名叫《基于修正 TD 指标的指数择时研究》、一篇名叫《基于GFTD的期指日内程序化交易策略》。今天编辑部就给大家进行实现。基于 M...

2098
来自专栏AI研习社

最值得收藏的机器学习入门方法,今天统统分享给你

一说到机器学习,我被问得最多的问题是:给那些开始学习机器学习的人的最好的建议是什么?

872
来自专栏思影科技

静息态网络核心区域的动态连接的调制激活

来自哈佛医学院的Tang wei和Stufflebeam等人在PNAS上发文,主要介绍了其针对静息态网络核心区域的动态连接影响局部神经激活的研究。文...

3538
来自专栏机器之心

资源 | 利用深度强化学习框架解决金融投资组合管理问题(附 GitHub 实现)

选自GitHub 作者:Zhengyao Jiang、Dixing Xu、Jinjun Liang 机器之心编译 参与:路雪 近日,《A Deep Reinfo...

2696
来自专栏理论坞

制作长投影icon的一点注意事项

先放一下最终的效果图,这个图是今天在UI中国的一个临摹!相信我,我也不是什么大神,只是每天想做点东西,思考些东西,多练多积累,只看是没用的,只有做才行(其实这个...

873
来自专栏人工智能头条

基于卷积神经网络(CNN)的中文垃圾邮件检测

752
来自专栏CSDN技术头条

WSDM 2017精选论文解读

人工智能和机器学习领域的学术论文汗牛充栋。每年的各大顶级会议、研讨班录用好几千篇论文,即便是亲临现场也很难追踪到所有的前沿信息。在时间精力有限的情况下,选择精读...

2396
来自专栏人工智能头条

我们从1400篇机器学习文章中挑出了Top 10

1294

扫码关注云+社区