首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

论文造假被AI抓:机器学习检测出4000多论文造假,一年损失高达10亿美元

人工智能抓到的造纸术:机器学习检测到4000多篇论文,每年损失高达10亿美元。

新智元报道

编辑:克雷格、三石【新智元导读】在生物医学领域的论文中,AI已经搜索出9%的高度重复图像,0.59%的论文被认为存在欺诈嫌疑。因图像造假撤回的医学论文,一年时间可能浪费接近10亿美元的研发成本。

“打击论文造假,维护科研正义”。这不是一句喊口号的话。

今年6月,斯坦福大学微生物学家分析了2009-2016年发表在分子与细胞生物学(MCB)上的960篇论文,发现其中59篇(6.1%)含有“不适当的”重复图像,约有2%值得再去进行图像证伪。

不过,斯坦福大学微生物学家的工作完全依靠手动,五位研究人员靠十只手从近1000篇论文里总结出了这一成果。

现在,AI的介入让论文中的可疑图像被发现的概率大大提升,一个显著的成果是,在生物医学领域的论文中,AI已经搜索出9%的图像是高度重复的,0.59%的论文被认为存在欺诈嫌疑。用AI打击论文图像造假,仍有4000多篇医学“问题论文”

使用AI来打击论文图像造假的工作是由纽约雪城大学(Syracuse University)机器学习研究员开发算法,他们分析了PubMed Open Access子集(PMOS)中截止到2015年发布的所有数据,包含了760036篇文章、超过200万的数据。

研究人员构建了一个pipeline,以自动检测不适合图像重用候选对象,在初步检测之后,删除了可能只是文本的图像或表示为图像的方程式,留下了大约200万张图片。

接着,研究人员发现每张图像平均有大约1K高熵关键点,这产生了大的相似度检测问题,研究人员使用近似最近邻算法来解决这个问题。之后,机器学习算法来估计是否显示生物图像。

检测复制-移动重用。A.癌变细胞和缩小部分的原始例子。B.关键点(高熵区域)的计算C.最近邻匹配。D.集群关键点、跨集群匹配和仿射变换。

最后,使用人工来评估不当重用。

算法检测图像区域重用,同时对旋转、裁剪、调整大小和对比度变化具有鲁棒性。总的来说,这项研究得出一个结论:在PubMed Open Access上,大约有0.59%的文章会被一致认为是具有欺骗性的。也就是说,在760036篇文章里面,大约有4484篇文章涉嫌造假。论文图像篡改可能导致一年损失10亿美元

学术研究论文中的图像造假的祸害十分普遍。

两个星期前,Science联合撤稿观察发布了一个“撤稿”报告,许多数字令人震惊:过去10年里学术期刊撤回的论文数量增加了10倍,撤稿率最高的国家中国排第7,撤稿最多的10位作者中,中国占了两人。

Top 10撤稿作者(数据来自Science)

在撤稿观察的数据库中,有18000份研究论文被撤回(最早可追溯到20世纪70年代),其中,317篇被撤回论文进行了图像篡改,约占整体论文的1.7%。

宾夕法尼亚大学生物工程副教授Arjun Raj早在2012年就指出,平均一篇生物医学研究论文背后的科学成本约为30万美元至50万美元。而柳叶刀报道称,美国研究人员在当年发表了近152000篇论文。

这样推算,即使每篇论文成本30万美元,美国研究人员在2012年发表的所有生物医学科学论文的成本也将接近500亿美元。

如果2%的论文因为图像伪造需要撤回,美国可能会在2012年浪费接近10亿美元。随着全球科学产量每九年翻一番,照此计算,自2012年以来,因撤稿产生的负利润率可能会更大。图像篡改向来如此糟糕吗?

有些研究人员认为,这么多年来,论文图像篡改问题一直在恶化。

来自美国研究诚信办公室(the United States Office of Research Integrity,ORI)的数据表明,在Photoshop发布后,他们所处理的涉及图像处理的案件比例有所增加。

技术在打击论文造假的过程中,一直是一场“猫鼠游戏”。AI除了检测图像区域重用,也成为对抗Photoshop的利器。

今年9月,Scientific Reports发表了一篇论文,文章指出,基于植物Rhus toxicondendron (毒性常春藤)的稀释度非常高的顺势疗法,至少与减轻疼痛的药物(加巴喷丁)一样有效。

然而,这篇介绍顺势疗法的论文很快由生物学家EnricoBucci使用的一款软件指出了这一错误:在两个不同的实验中,推荐的药物浓度差异很大,而且图表令人惊讶地一致。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181111A1LDXF00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券