前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【东拼西凑】毕业设计之论文查重篇

【东拼西凑】毕业设计之论文查重篇

作者头像
石璞东
修改2020-04-22 19:54:55
2.5K1
修改2020-04-22 19:54:55
举报
文章被收录于专栏:石璞东 | haha石璞东 | haha

前言

本篇文章适合于正在饱受降低毕业论文查重率之苦的兄弟姐妹们,在这篇文章中,我将分为三个部分去写:

  1. 第一部分我会简单说下论文查重的原理,并附以一个通过Javascript实现的查重的demo;
  2. 第二部分我会根据网上的帖子及自己查重的经验,为小伙伴们总结几条降低重复率的小技巧;
  3. 第三部分我会给我公号的所有学生用户提供论文千字检测现金红包。

【注】:论文查重因人而异,本篇推文仅作参考,如有错误之处,请海涵。

论文查重原理及代码演示

01 - 个人情况概述

我的毕业设计题目为基于TensorFlow的深度学习与研究,以下是学校教务处对毕设的要求:

图 1.1 教务处毕设要求
图 1.1 教务处毕设要求

由于我对于此项目比较熟悉,所以从项目仿真到论文内容编写的过程比较顺畅,2020.03.31早上我通过paperpass进行了一次预查重,总共花了54多一点(知网查下来得100多),具体多少记不清了,以下是paperpass的检测报告:

图 1.2 paperpass检测报告
图 1.2 paperpass检测报告

文中有两处标红,代表相似度在70%以上(重度相似,请全面修改),现已完成修改;多出标橙,代表相似度在40%-70%(轻度相似,请酌情修改)。

小伙伴们检测完成之后,如果重复率较高,可通过paperpass提示去修改,也可参考我下一章节(降重小技巧)来进行修改。

02 - 查重原理概述

我们知道论文查重普遍使用的算法都是模糊算法,我们首先来看看百度百科对于模糊搜索的两种观点:

  1. 系统允许被搜索信息和搜索提问之间存在一定的差异,这种差异就是模糊在搜索中的含义,在这种观点下,当我们想要查找名字「石璞东」,「帅石璞东」、「石帅璞东」「石璞帅东」、「石璞东帅」这几个相关信息都会被检测到,所以此时各位小伙伴企图在重复率较高的句子中加入一些语气词、人称代词等可有可无的单词的想法就被推翻了;
  2. 搜索系统自动进行的同义词搜索,同义词有系统的管理界面配置,例如,配置计算机computer为同义词后,搜索计算机,则包含computer的网页也会出现在搜索结果中。

我谈点自己的看法,一家之言,参考即可:

首先明确一点,论文查重是基于数据库的查询,以知网为例,我们可以这样理解:当我们通过知网查重时,系统会将我们的论文通过对比算法与知网强大的数据库进行比对,一般认为低于5%的抄袭或者文献引用是检测不出来的。其次,毕业论文的查重算法是模糊搜索,即它不会老老实实的一个字一个字去进行比对,因此我们可以通过修改语句顺序等方法(具体方法此处不再展开,请参考第二章节降重小技巧)来降低重复率。

还有一个重要的问题:对于过早进行预查重的同学,他们会有一个担心,即我的毕业论文会不会被泄露,从而导致下一次论文查询时,重复率较高?

答:只要小伙伴们去找正规的查重网站,一般不会被泄露。从理论实现上讲,将用户提交的资料写入数据库,这是一件再正常不过的事,但是对于这种正规的查重网站,他们是不会这么干的。

以下内容来自学术不端网,参考链接如下:

http://www.cnkis.net/html/1095371058.html

  • 知网论文查重由于是采用了最先进的模糊算法,如果整体结构和大纲被打乱,可能会引起同一处的文章检测第一次和第二次标红不一致或者第一次检测没有标红的部分第二次检测被标红。因此在修改重复内容的时候尽量变换句式,不要打乱论文原来的整体大纲和结构。
  • 整篇论文上传后,系统会自动根据文章生成的目录检测该论文的章节信息,然后系统会将论文分章节检测,可以获得每一单章节的复制比同时目录显灰色不参与正文检测;否则会自动分段按照1万字符左右检测,同时目录有可能当成正文检测,重复就会标红。
  • 中国知网对该套查重系统的灵敏度设置了一个阀值,该阀值为5%,以段落计,低于5%的抄袭或引用是检测不出来的,这种情况常见于大段落中的小句或者小概念。举个例子:假如检测段落1有10000字,那么引用单篇文献500字以下,是不会被检测出来的。实际上这里也告诉同学们一个修改的方法,就是对段落抄袭千万不要选一篇文章来引用,尽可能多的选择多篇文献,一篇截取几句,这样是不会被检测出来的。
  • 一篇论文的抄袭怎么才会被检测出来?知网论文检测的条件是连续13个字相似或抄袭都会被红字标注,但是必须满足3里面的前提条件:即你所引用或抄袭的A文献文总字数和在你的各个检测段落中要达到5%以上才能被检测出来标红。
  • 知网检测系统会自动识别出参考文献,参考文献不参与正文检测。并且进行剔除,在知网检测报告中参考文献显示灰色字体,说明并没有参与检测。当然这是在参考文献格式完全正确规范的情况下才会自动排除不会标红。否则参考文献会当成正文来进行检测导致参考文献全部标红。结果增高!
  • 知网论文查重为整篇上传,PDF或者Word格式对检测结果可能会造成影响。因为上传PDF检测,PDF会比Word多一个文本转换的过程,这个过程有可能会将你原本正确的的目录和参考文献格式打乱,目录和参考文献等格式错乱,就会导致系统识别不正确而被标红。特别对于那些有英文目录和大部分英文参考文献的论文,其英文占字符数很高。英文被标红就会导致总结果大大增高。
  • 关于引用尽量引用整段话,如果引用单独一句两句,知网系统是根本识别不到具体你引用的是哪篇文章里面的句子。所以引用尽量大段引用。并且引用的内容必须完全一致。

03 - Javascript代码演示

【注】:以下代码是通过JS实现的一个模糊搜索的微缩版,小伙伴们看看就好,不必较真。

HTML代码:

代码语言:javascript
复制
<div class="wrap">
    <input type="text" id="demo">
    <ul id="newsBox">
    </ul>
</div>

CSS代码:

代码语言:javascript
复制
 .wrap {
        text-align: center;
        max-width: 400px;
    }
    #newsBox {
        display: inline-block;
        text-align: left;
    }
    input{
        width: 100%;
    }

Javascript代码:

代码语言:javascript
复制
var data = ["我躲在角落,期待着你会经过","听着你喜欢的歌,轻轻的附和","一颗心牵着,有你的每时每刻,就算时光匆匆走过,有你就值得","这世间的美好与你环环相扣,才会让我流连忘返不想远走",
    "有你在的地方那就是尽头","多想安静陪在你左右","就让所有美好与你环环相扣","天涯海角不是我的梦寐以求"]
    var input = document.getElementById("demo");
    var ul = document.getElementById("newsBox");
    function creat() {
      var value = input.value;
      var html = "";
      var newData = data.filter(item => {
        if(item.indexOf(value) > -1){//indexOf方法中如果xxx.indexOf("")返回值为0
          return item
        }
        return newData
      })
      if(newData.length > 0){
        for(var i=0;i<newData.length;i++){
          html += `<li>${newData[i]}</li>`
        }
      }else{
        html += `<li>暂无数据</li>`
      }
      ul.innerHTML = html;
    }
    creat()
    input.onchange = function (e) {
      creat()
    }

降重小技巧

如果各位小伙伴所有的内容都是自己一个字一个字码出来的,以下的小技巧可以当作是废话。

降重小技巧:

  1. 外文文献翻译法查阅研究领域外文文献,特别是高水平期刊的文献,比如Science,Nature,WaterRes等,将其中的理论讲解翻译成中文,放在自己的论文中。
  2. 变化措辞法将别人论文里的文字,或按照意思重写,或变换句式结构,更改主被动语态,或更换关键词,或通过增减。当然如果却属于经典名句,还是按照经典的方法加以引用。
  3. 转换图片法将别人论文里的文字,截成图片,放在自己的论文里。因为知网查重系统目前只能查文字,而不能查图片和表格,因此可以躲过查重。
  4. 插入文档法将某些参考引用来的文字通过word文档的形式插入到论文中。
  5. 插入空格法将文章中所有的字间插入空格,然后将空 格 字 间距调到最小。因为查重的根据是以词为基础的,空格切断了词语,自然略过了查重系统。
  6. 自己原创法自己动手写论文,在写作时,要么不原文复制粘贴;要么正确的加上引用。

以上述内容来自学术不端网,参考链接如下:

http://www.cnkis.net/html/318497353.html

送给各位的福利

希望上述内容能够对各位小伙伴在论文降重方面有一定的帮助。在这部分,我将给我公众号的所有学生用户发一个福利,原本联系了Paperpass和几个淘宝店铺,但由于它们均不提供类似毕设论文查重优惠券的东西,所以我就简单粗暴的做了一个决定:将我3月份公众号、网站以及各平台专栏所得费用的一部分以红包抽奖的形式送给各位用户,简单来说,就是发红包。两个寓意,一来是感谢各位长久以来的关注和支持,二来是借助红包给大家助个力。

红包总金额36元,获奖用户仅限20人,人均1.8元(依照paperpass官网,1.8元/千字的标准而定)。

【注意事项】:

  1. 本公众号用户只需后台回复「论文查重」即可(无需"转发朋友圈、好友群"等繁琐的操作);
  2. 非本公众号用户需先关注公众号并后台回复「论文查重」方可获取抽奖码。

【声明】

本文是对各大论坛及相关帖子(学术不端网、腾讯云 云+社区等)关于降重方法的整理收集,大部分降重技巧并非博主亲测,希望大家根据自身情况参考本文,同时对所有我借鉴过的文章作者表示感谢,如有侵权,立删!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-04-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 hahaCoder 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
    • 01 - 个人情况概述
      • 02 - 查重原理概述
        • 03 - Javascript代码演示
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档