9月20日,由中国科学技术信息研究所主办的《2023年科技论文统计结果发布会-暨中国一流科技论文世界影响力评价论坛》在京顺利召开。本次会议上中国科学技术信息研究所对中国学者的国内外科研成果产出进行统计分析,公布了《中国卓越科技论文产出报告》、《学术出版中AIGC使用边界指南》、《高端交流平台建设报告》、《中国科技期刊引证报告》等多项科技论文分析与平台建设报告。
会上,北京万方数据股份有限公司科研诚信服务事业部总经理凌锋带来《科技论文学术不端治理服务探索》主题报告,报告从数据分析入手,提出了当前学术出版中科研诚信的主要问题:抄袭剽窃仍是学术不端的主要形式、学术论文中图像造假问题突出、人工智能的崛起对科研领域带来了全新的挑战。针对问题与挑战,报告指出,学术出版机构应加强制度机制建设,充分利用有效的信息技术与工具,积极建设形成管理、预防、监督、惩戒相结合的科研诚信管理模式,推动出版规范化与高质量发展。
基于当前论文学术不端治理需求,报告重点发布了科技论文诚信风险综合察验服务——万方文察。该工具基于万方数据文本检测、图像检测等核心技术及科研诚信大数据资源基础,实现对论文的文本相似性、图像复用、AIGC文本、引文及作者等多要素的失信风险一站式综合察验,为教育、科研、出版、管理等诚信监管工作提供便捷服务支撑。
万方文察服务采用多项关键技术为技术支撑,基于海量科技文献全文比对资源、科研诚信风险大数据资源、学术文献图像比对库等资源为大数据底座,可支持在线云服务及API接口服务等服务形式,实现“一次提交、多维检测”的一站式论文风险察验服务。
服务支持单篇/批量提交论文,自动识别提取论文信息及人工确认,提交后多检测引擎同步检测,一份报告综合呈现多要素察验结果,并提供各要素察验结果详情展示。
(1)论文图像检测
万方文察采用基于卷积神经网络+Milvus向量库+特征点匹配的图像复用检测算法,实现篇内图片相似性检测与全库图片比对,识别论文中实物图、条带图、造影图、染色图、流式图等类型图片的复用情况。可检测复用操作报告:复制、裁剪、旋转、缩放等,并将图像之间的相同区域连线并输出匹配结果。
(2)AIGC文本检测
服务采用基于深度学习的AIGC识别算法,基于卷积神经网络的强大表达能力,智能感知生成和非生成文本之间的差异,可识别目前较为通用的AI写作模型,包括不限于ChatGPT、文心一言、GTP3.5、谷歌Bard、通义千问、必应ChatGpt、ChatSonic和其他AI写作助手生成的中文文本。
(3)文本相似性检测
万方文察采用万方数据自主研发的“句子级正交基软聚类倒排”检测算法,从信息监测、数据处理、文本检测、图像比对、大语言模式到服务开发技术提供强大支持,检测效率高、检测结果准。
(4)参考文献、作者、基金资助等论文属性风险检测
万方文察采用文本识别工具识别送检文献的参考文献部分,并将参考文献与科研诚信大数据池中的风险信息进行比对,全面排查是否引用撤稿论文等参考文献引用风险。同时,系统还将针对已发表论文本身是否有诚信问题、论文作者是否有过失信惩处记录、基金资助标注等方面进行察验。
科技论文是基础科学研究的重要成果产出,提升科技论文质量是科研诚信建设工作的重要内容。强化对科技论文的科研诚信要求与察验手段,提高研究真实性,将有效维护学术科研的公正性与可信性,激发科研创新,促进科技发展。
领取专属 10元无门槛券
私享最新 技术干货